Het belang van het schonen van data: 4 tips voor het aanpakken van datavervuiling

on oktober 20, 2016 Business Analytics As a Service, Code snippets, Financiële dienstverleners, functioneel, Publiek Domein, Transport en logistiek with 0 comments

Veel mensen kennen de uitdrukking “garbage in, garbage out”. Deze uitdrukking vindt zijn oorsprong in de informatica. Het wordt gebruikt om aan te geven dat een computer niet zelf kan denken, dat wanneer er incorrecte input wordt gegeven, de computer ook incorrecte output zal leveren. Ook voor datagedreven werken is datakwaliteit cruciaal, zie onderstaande tabel:

tabel

Aan de hand van een voorbeeld kan dit worden toegelicht. Een grote vrachtvervoerder wilde graag het rendement op vluchten verbeteren. Door pakketten efficiënter op pallets te plaatsen, konden er meer zendingen mee in een vliegbeweging. Daarop kwam het idee om een computerprogramma uit de VS te gebruiken dat al veel succesvolle implementaties achter de rug had. Het programma rekende aan de hand van het gewicht, de vorm en het volume uit hoe de pallet het beste zou kunnen worden opgebouwd.

In de praktijk werkte het echter niet omdat de computer gevoed werd met foutieve data. De dimensies van de pakketten werden niet goed geregistreerd waardoor de computer ging optimaliseren met pakketten die in werkelijkheid een ander formaat hadden. De opbouwinstructies die uit de computer kwamen, bleken niet werkbaar voor de werknemers. De werknemers stuurden foto’s door naar de directie met opbouwinstructie en daarnaast de volgens de instructie foutief opgebouwde pallet. Na enkele weken werd het project gestaakt omdat het niet mogelijk bleek om het programma te voeden met de correcte data.

Bij het werk van de data scientist denken veel mensen aan de slimme analyses die uitgevoerd worden met ingewikkelde machine learning algoritmes. Maar het grootste deel van het werk voor een data scientist bestaat uit het schonen van data, uit onderzoek is gebleken dat dit gemiddeld 60% van de werkzaamheden zijn. Ook vanuit deze hoek blijkt dus het enorme belang van schone data.

Wat is vervuilde data?

De vraag is: wat is vervuilde data nou eigenlijk? Hieronder staan de 6 belangrijkste categorieën met eenvoudige voorbeelden:

Inconsistent. Dit betekent dat gegevens uit verschillende systemen elkaar tegenspreken. In de boekhouding staat bij dezelfde klant een andere naam als in het CRM-pakket.

Ongeldig. Ongeldige data zijn waarden die niet kloppen bij hetgeen je verwacht. In een kolom geslacht (M/V) staat een O.

Onvolledig. Bepaalde data ontbreekt die je wel verwacht. In de klantentabel van een webshop verwacht je dat alle NAW-gegevens gevuld zijn.

Onjuist. Onjuiste data betekent dat een gegeven niet klopt. Iemand die in 2004 is geboren ontvangt ouderenzorg (blijkt 1904 te zijn).

Niet uniform. Gegevens die vastliggen met verschillende definities: de ene “X” heeft een andere betekenis dan de andere “X”. Bijvoorbeeld bij een woningcorporatie met een kolom woningoppervlakte, het ene huis van 80 m² is inclusief buitenmuren berekend, het andere huis van 80 m² is exclusief buitenmuren berekend.

Dubbele regels. Ongewild staan er in een database dubbele rijen. Bijvoorbeeld een klant die meerdere keren is ingevoerd.

Het opsporen van fouten kan zeer ingewikkeld zijn, omdat een systeem een levend geheel is dat iedere seconde wijzigt.

De onderliggende oorzaken van vervuilde data

Veel mensen herkennen bovengenoemde vervuilingen. Maar wat zijn de oorzaken? Hieronder staan de belangrijkste oorzaken opgesomd. Dit komt misschien technisch over en wordt daarom ten onrechte vaak aan experts en techneuten overgelaten. Maar de hele organisatie zou zich moeten bezighouden met de kwaliteit van data. Alleen dan waarborg je de kwaliteit van de data en dus de kwaliteit van je output.

    • Initiële dataconversie bij ingebruikname van een nieuw systeem. Bij de overgang van een oud naar een nieuw systeem wordt data overgezet. Vaak is daar maar een beperkt budget voor en wordt hier niet de tijd ingestoken wat ervoor nodig is. Bij deze conversie worden regelmatig fouten gemaakt.
    • Bij een fusie of overname worden gegevens van verschillende bedrijven samengevoegd in één database. Zelfs als de kolommen hetzelfde lijken te betekenen, kan er een andere definitie aan ten grondslag liggen.
    • Bij handmatige invoer zijn invoerrestricties vaak niet streng ingesteld. Gebruikers willen in staat zijn om even snel wat in te voeren, en pas later ontbrekende gegevens aan te vullen. Ook dit is een bron voor vervuilde data.
    • Tussen programma’s onderling lopen regelmatig batchprocessen. Op basis van logica wordt data van een bronsysteem naar een doelsysteem overgepompt. Deze logica moet wijzigen als een bronsysteem wordt aangepast. Dat wordt regelmatig over het hoofd gezien.
    • Als een systeem langer in gebruik is, wordt er na verloop van tijd vaak besloten om oude gegevens uit het actieve systeem te halen en elders op te slaan (historiseren). De reden is meestal performance, voorkomen dat een systeem trager wordt. Het verwijderen van oude data is echter risicovol, het is gemakkelijk om er een vergissing mee te maken. En als data ten onrechte is verwijderd, is het nog moeilijker om het weer terug te zetten. 

De oplossing voor vervuilde data

Er is een groot verschil tussen hoe nieuwe ondernemingen met data omgaan en hoe bestaande organisaties dit doen. Nieuwe ondernemingen begrijpen het belang van data en richten hun bedrijf zo in dat alle besluitvorming ondersteund wordt door de data. Voor bestaande organisaties is dit lastiger. In de lange historie hebben ze verschillende systemen gebruikt die vaak niet met elkaar gekoppeld zijn. Het is daarom moeilijker om de juiste data bij elkaar te zoeken en hier analyses op toe te passen. Daarom hieronder een paar tips:

    • Wees er van bewust dat tijdelijke oplossingen noodzakelijk zijn. Het kost namelijk veel tijd om een dataprobleem structureel op te lossen.
    • Kwantificeer de kwaliteit in een meetbare score voor de gehele organisatie-eenheid en maak de afdeling die verantwoordelijk is voor de data ook verantwoordelijk voor de kwaliteit van de data. Hiermee creëer je momentum op de afdelingen waarin iedereen een goede score wil halen. Waarom? Data gaat over kleine details waar op bestuurlijk niveau moeilijk grip op te krijgen is. De details worden bepaald door de individuen op de verschillende afdelingen.
    • Richt je aandacht meer op dataproblemen en minder op processen. De reden is dat niet goed lopende processen vaak worden veroorzaakt door onjuiste of onvolledige data.
    • Verbeter de kwaliteit van data met voorspellingen die in de plaats komen van onjuiste gegevens. We noemen dit ook wel het opharden van data. Enkele voorbeelden:

Voor een bedrijf of organisatie waarvan de inkomsten afhankelijk zijn van de uren die medewerkers maken. Zijn de uren wel juist en tijdig geboekt bij de maandafsluiting?
Voor ondernemingen waarbij de waardering van de post onderhanden werk cruciaal is voor de bepaling van het resultaat. Hoe “hard” is de waardering van de post onderhanden werk?
Voor ondernemingen die gebaseerd zijn op projecten. Wat is te verwachten bij bestaande projecten en hoe moet de salespipeline worden gewaardeerd?

Meer weten? Neem gerust contact met ons op.

Add comment

CAPTCHA * Time limit is exhausted. Please reload CAPTCHA.

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Decisive Facts
Right Menu Icon