Toenemende populariteit van R onder Data Analisten

on augustus 18, 2015 Business Analytics As a Service, Financiële dienstverleners, Publiek Domein, Recrutering, technisch, Transport en logistiek with 0 comments

De laatste paar jaar is R bezig aan een opmars als dé programmeertaal voor datamining en analyse. Aan de hand van een aantal onderzoeken laten we deze trend zien. Vervolgens gaan we dieper in op de voordelen en nadelen van R voor Data Analyse. En als laatste een vooruitblik over wat er gaat gebeuren met R, nu het ingebouwd gaat worden in databases.

Onderzoeken

Rexer Analytics Survey

Rexer analytics onderzoekt elke twee jaar wat de ideeën en voorkeuren van datamining professionals zijn. Dit is het grootste onderzoek op dit gebied. Het laatste onderzoek was van 2013 en de volgende zal eind september gepubliceerd worden. De resultaten zijn op aanvraag beschikbaar en een samenvatting staat online. Aan het onderzoek van 2013 deden 1.259 professionals mee uit 75 landen. Een van de belangrijkste uitkomsten was de doorbraak van R als meestgebruikte programmeertaal. Het lijkt erop dat R langzaamaan verschuift van taal voor onderzoek en statistiek naar een taal die ook gebruikt wordt binnen het bedrijfsleven.

Het onderzoek toont aan dat R door 70% van de dataminers wordt gebruikt en door bijna 25% van hen wordt gebruikt als hun belangrijkste software voor data analyses. Dit is veelbetekenend als je bedenkt dat de gemiddelde dataminer vijf verschillende tools gebruikt. Bovendien zijn de gebruikers uitermate positief over hun ervaringen met R, meer dan 85% geeft aan dat ze “tevreden” of “zeer tevreden” zijn.

De volgende grafiek (Revolution Analytics) toont de populariteit van de top data mining tools uit dit onderzoek.

dm-tools-r-bar

KDnuggets Survey

KDnuggers voert jaarlijks een enquête uit waarin gevraagd wordt naar de meest gebruikte software voor datamining en analyse (in tegenstelling tot het Rexer Analytics onderzoek dat een breder pallet onderzoekt). Ongeveer 2.800 mensen hebben gereageerd op deze enquête uit 2015 en ze konden kiezen uit een recordaantal van 93 verschillende programma’s.

Het resultaat laat zien dat R de meest gebruikte taal is onder dataminers maar dat Python ook aan een opmars bezig is. Gegeven dat R een taal specifiek voor statistiek is en Python een algemene taal, zal Python een serieuze concurrent worden maar zal het waarschijnlijk geen vervanger zijn. Velen gebruiken al de combinatie van beide talen.

top10-analytics-data-mining-software-2015-kdnuggets

Een ander interessant resultaat is dat veel mensen combinaties van verschillende tools gebruiken. Het onderstaande diagram toont de resultaten gecategoriseerd op commerciële en open source software. Het laat zien dat 91% gebruik maakt van commerciële software, 73% van open source software en 64% van een combinatie van beide. Het is interessant om te zien dat de trend van gecombineerd gebruik ook door de grote bedrijven zoals Microsoft wordt opgepikt: Microsoft gaat R gebruiken in SQL Server 2016.

analytics-data-mining-software-commercial-free-venn-kdnuggets

De voor- en nadelen van R in Big Data

Voordelen

  • De meest gebruikte taal voor statistische berekeningen en data analyses; “lingua franca van de statistiek“.
  • Een grote bibliotheek van de meest geavanceerde algoritmes en visualisatie tools waarmee gecompliceerde taken met een paar regels code kunnen worden uitgevoerd.
  • Berekeningen worden met het interne geheugen gedaan dus het is snel voor kleinere datasets.
  • Het is open source met een actieve gebruikers community; dit betekent regelmatige updates, ondersteuning van andere gebruikers en de mogelijkheid om bestaande algoritmes zelf aan te passen.
  • Het zal direct aan te roepen zijn in SQL Server 2016.

 

Nadelen

  • Het is nu een standalone programma voor op een desktop, het is dus niet makkelijk te gebruiken voor parallelle berekeningen.
  • Omdat alles in het interne geheugen wordt geladen kan het langzaam zijn wanneer het gebruikt wordt met Big Data.
  • Omdat het open source is kan het ook problemen geven in een productie omgeving: de betrouwbaarheid, geen backward compatibility, veiligheid, etc.
  • Steile leercurve, het kan even duren voordat je bekend bent met de syntax en alle verschillende pakketten.

 Toekomst

In januari heeft Microsoft aangekondigd dat ze Revolution Analytics hebben overgenomen. Een bedrijf dat gericht is op het bouwen van open source en open-core applicaties van R voor het bedrijfsleven. Hiermee samenhangend heeft Microsoft ook aangekondigd dat SQL Server 2016 het mogelijk maakt om R opdrachten direct vanaf de server te runnen. De verwachting is dat dit een fors effect heeft op de groei van het gebruik van R. Voor ons bij Decisive Facts is dit heel goed nieuws, omdat SQL Server en R twee van onze meestgebruikte tools zijn. Een integratie tussen deze pakketten juichen we dus van harte toe.

 

Add comment

CAPTCHA * Time limit is exhausted. Please reload CAPTCHA.

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Decisive Facts