CRISP-DM: proces voor data mining

on juli 19, 2016 Datakraken, Financiële dienstverleners, Publiek Domein, technisch, Transport en logistiek with 0 comments

Data mining is geen doel op zich voor ons. Het is een manier om data te vertalen in waardevolle inzichten en u als klant te helpen om op feiten gebaseerde beslissingen te nemen voor uw organisatie. Wij zoeken de beste modelleringstechnieken bij uw behoeften. Wij houden onze oplossing wel zo eenvoudig mogelijk. Het tempo en de complexiteit van de oplossing passen we aan uw organisatie of afdeling aan.

Decisive Facts maakt gebruik van een standaard proces om gegevens te analyseren, op basis van het CRISP-DM-proces. Het proces van data mining is een cyclus. Deze cyclus bestaat uit zes fasen, te weten:

Decisive Facts analysis methodology

  1. Inhoudelijk begrip
  2. Data begrip
  3. Data voorbereiding
  4. Modellering
  5. Evaluatie
  6. Implementatie

De volgorde van deze fasen is niet vast; er zit een wisselwerking tussen. Figuur 1 geeft de belangrijkste afhankelijkheden tussen de fasen. We kunnen het hele proces voor u uitvoeren. Decisive Facts kan ook instappen in elke fase van dit proces en u met advies bijstaan. Voorbeelden daarvan zijn: hulp bij het opschonen van data, een second opinion over een model dat u al gebruikt, het verhogen van de efficiëntie of het verbeteren van de proceskwaliteit.

Om een beter inzicht te krijgen in hoe wij werken, geven wij hieronder een beschrijving van de volgende fasen voor u:

1. Inhoudelijk begrip

In de eerste fase richten we ons op het begrijpen van uw specifieke casus vanuit een inhoudelijk perspectief. Wij hebben ervaring in de banken sector, transport & logistiek, vastgoed en gezondheidszorg. Op functioneel niveau hebben we ervaring in kostprijsmodellen, benchmarking, cliënt data-analyse en dergelijke. In deze inhoudelijke fase beginnen we met een projectplan. We verkennen de motivatie achter het project (waarom). We zoeken samen in dialoog met u naar oplossingsrichtingen om het probleem aan te pakken. Op basis van de beperkingen, middelen en de organisatiecultuur, beslissen we welke aanpak het beste past (hoe).

2. Inzicht in data

We evalueren de verzamelde gegevens op kwaliteit en kwantiteit van de gegevens. We zoeken naar eventuele omissies in de datasets, om ons te vergewissen dat de data het volledige beeld schetsen. Daarna doen we een fundamentele analyse om samenhang tussen de verstrekte gegevens en uw doel te bevestigen. Zo krijgen we nieuwe inzichten en kunnen we u nieuwe doelstellingen onthullen. Terwijl we dit doen, controleren we de kwaliteit van de gegevens, bijvoorbeeld of ze correct en volledig zijn. We zoeken samenhang en identificeren ontbrekende waarden. Het opschonen van gegevens is een gestructureerd proces. Alle inconsistenties worden in detail aan u gerapporteerd.

3. Data voorbereiding

Deze fase omvat alle activiteiten die nodig zijn om de uiteindelijke dataset te maken die wordt gebruikt voor het modelleren. Eerst moeten we bepalen welke gegevens we gaan gebruiken. Criteria zijn onder meer relevantie voor uw doelen, kwaliteit van de gegevens en technische beperkingen. Nadat we besloten hebben over de optimale dataset, zoeken we naar manieren om de kwaliteit van de data te verbeteren of te verrijken. Dit wordt gedaan door het geautomatiseerd opschonen van data. We kunnen schone subsets selecteren, of zelfs ontbrekende gegevens schatten die nodig zijn voor modellering.

4. Modellering

Zodra we de definitieve dataset hebben, kunnen we met het modelleerproces starten. We maken gebruik van verschillende soorten modellen, afhankelijk van het doel. De eerste stap is het selecteren van een geschikte techniek, bijvoorbeeld tijdreeksanalyse of cross-sectie analyse. Voordat we beginnen met modelleren, maken we een mechanisme om de kwaliteit en de validiteit van ons model te testen. Klanten kunnen kiezen voor een eenmalige analyse of een terugkerende analyse. Nadat de analyse is uitgevoerd, besteden we ruim aandacht aan de interpretatie van de uitkomsten. Wij koppelen de resultaten aan u terug in een beknopt document.

5. Evaluatie

We hebben een aantal modellen van hoge kwaliteit ontwikkeld vanuit een data-analyse perspectief. In deze stap bepalen we de mate waarin het model voldoet aan de inhoudelijke doelstellingen en controleren we of dit model effectief en efficiënt is. Afhankelijk van de resultaten, besluiten we of we de stappen goed hebben doorlopen en of de oplossing geschikt en klaar is voor implementatie. Het kan ook zijn dat er overwegingen zijn die nadere aandacht verdienen.

6. Implementatie

Het doel van Decisive Facts is om besluitvorming te ondersteunen; de oplossingen worden dus gepresenteerd op een manier die nuttig en begrijpelijk is voor uw medewerkers. Vaak is er een pilot nodig om de resultaten te laten landen in uw organisatie. Afhankelijk van uw behoeften, kan deze fase variëren van het opstellen van een eenmalig rapport aan het management tot een periodieke analyse die wordt gedeeld in verschillende geledingen van uw organisatie.

Add comment

CAPTCHA * Time limit is exhausted. Please reload CAPTCHA.

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Decisive Facts