Het ontrafelen van de toegevoegde waarde van datapreparatie is belangrijk. Er gaat namelijk veel tijd aan worden besteed en de direct aanwijsbare waarde is vaak moeilijk. Daarom zetten we de methode van de 5W+2H in: Wat, Waarom, Wie, Wanneer, Waar en Hoe en Hoeveel.
Wat?
Ons begrip van datapreparatie ontlenen we aan de definitie volgens Gartner: “Datapreparatie is een iteratief proces voor het exploreren, combineren, opschonen en transformeren van ruwe data, naar verbeterde datasets voor data-integratie, data science, data discovery en BI / analytics.”
Naar de analogie van het delven van grondstoffen, zoals olie en goud, zo zal data altijd eerst in ruwe vorm gewonnen worden. Maar de grondstof “data” moet verbeterd worden, voordat het waarde kan genereren. Of zoals wij zeggen: “data is altijd smerig”.
Waarom?
Door op het juiste moment, de best passende inzichten te combineren, kan een organisatie tot de beste beslissingen komen, zowel op strategisch, tactisch als operationeel niveau. Hetgeen de prestaties van de organisatie integraal zal verbeteren, omdat de kwaliteit van goede beslissingen stijgt en tegelijkertijd de risico’s op of door foutieve beslissingen zal dalen.
Data vormt de bouwstenen voor het funderen van beslissingen. Met behulp van goede kwaliteit data kunnen betere inzichten gecreëerd worden. Zowel door terug te blikken aan de hand van descriptive analyses, als door middel van predictive analyses, voor het voorspellen van de toekomst. Zeker voor het adviseren over toekomstige scenario’s op basis van de effecten van verschillende beslissingen, de zogenaamde prescriptve analyse, is goede datakwaliteit – en beschikbaarheid essentieel.
Wie?
Vaak hoor je een data scientist verzuchten dat 80% van de tijd wordt besteed aan het verbeteren van datakwaliteit. Soms voeg ik daar zelf grappend aan toe: “en de overige 20% is aan het klagen hierover.” Neemt niet weg dat dit een punt van aandacht is. Daarbij is het ook zo, dat des te meer tijd wordt besteed aan het verbeteren van de datakwaliteit en beschikbare kenmerken, des te beter de kwaliteit en daarmee resultaten van de analyse of van het voorspel-model.
Datapreparatie moet niet door de data scientist uitgevoerd worden, maar door de data specialist, door de data engineer of data modelleur. Enerzijds zijn zij de echte specialisten die als beste in staat zijn de kwaliteit en beschikbaarheid van data te bevorderen. Anderzijds voorkom je dat er oplossingen tot stand komen welke niet duurzaam van aard zijn, waardoor achteraf of later in het proces, alsnog reparaties moeten plaatsvinden. Door de beschikbaarheid, kwaliteit en rijkdom van data al vroeg in het analyseproces te borgen, kan een data scientist haar/zijn tijd beter besteden. Denk bijvoorbeeld aan de variabelen selectie, of het aantal iteraties voor het model of algoritme.
Waar?
Faciliteer de juiste personen met de best passende technologie. Leg daarvoor je oor te luister bij de specialisten op de werkvloer. Zij weten als geen ander hoe de infrastructuur eruit ziet en wat de nieuwste technologieën zijn voor data management.
Om de juiste plek te vinden, waar datapreparatie uitgevoerd moet worden, kan je de datastromen visualiseren. Dat kan bijvoorbeeld aan de hand van een zogenaamde “data journey” of het visualiseren door middel van een “data stream mapping”. Een techniek ontleent aan “value stream mapping” uit de Lean methodiek. Daarmee visualiseer je alle datastromen vanaf de bron. Het visualiseert de posities waar data een systeem uit kan komen en naar welk systeem ze getransfereerd worden. Door te meten wat die overdracht vergt en welke bewerkingen data onderweg ondergaan, ontdek je knelpunten en uitdagingen.
Hoe?
Het organiseren van datapreparatie vraagt om urgentie en noodzaak. Maak daarbij gebruik van een pragmatische datastrategie:
- Bepaal de informatiebehoeften van teams en beslissers;
- Valideer de indicatoren;
- Verifieer de noodzakelijke databeschikbaarheid en kwaliteit;
- Signaleer de “data-waste”;
- Bepaal de impact voor data management;
- Stel een Waarde & Impact matrix op.
Met behulp van deze matrix kunnen de specialisten van data management aan de slag met de juiste databronnen en de verbeteringen met de hoogste prioriteit en relatieve toegevoegde waarde voor de organisatie.
Hoeveel?
Wanneer is datapreparatie klaar en afgerond? Vrijwel nooit. Het is een iteratief proces, wat zich ontwikkelt zo lang de organisatie zich ontwikkelt in de maturiteit naar datagedrevenheid. Bij iedere stap ontstaat een nieuwe behoefte aan inzichten. Alle inzichten ontlenen waarde aan de kwaliteit van de data. Het enige wat je de organisatie kan beloven is:
- Wil je goed, dan moeten de inspanningen en investeringen passen bij de ambities van de organisatie en zal het wat langer duren voor de eerste resultaten zichtbaar zijn;
- Wil je snel, dan kan je minder effort steken in kwaliteit, tenzij je direct fors investeert;
- Wil je goedkoop, dan ga je minder snel, tenzij je de lat qua kwaliteit minder hoog legt.
De hoeveelheid “data-waste” is dan een goede graadmeter voor de progressie in het optimaliseren van datagedrevenheid door het investeren in datakwaliteit -en datapreparatie.
Datapreparatie is een topprestatie
Wat dat betreft is datapreparatie net als Formule 1: je zal moeten blijven investeren in alle onderdelen. Alleen een indrukwekkende data scientist (Max Verstappen), of een data science platform (raceauto), zijn niet voldoende voor topprestaties jaar in, jaar uit. En het kleinste onderdeel kan het grootste effect sorteren. Je hebt een heel team nodig van specialisten, goed op elkaar afgestemd. Soms heb je topsnelheid nodig en soms wil je hard door de bocht.
Maar wat je allemaal wilt, is met de beste prestatie, gezamenlijk de finish halen en successen vieren. En om dat goed te kunnen meten, heb je goede kwaliteit data nodig.
Wil jij ook van datapreparatie een topprestatie maken? Neem dan contact met ons op, we helpen graag!
Blog door Remco Weijers.