Met Big Data het begin van de lente monitoren

/ Auteur: Miriam van der Sangen
Gegevens van websites, informatie afkomstig van detectielussen in de weg en grote hoeveelheden tweets. Welke Big Data zijn interessant voor CBS? Hoe snel kun je conclusies trekken uit grote hoeveelheden data? Welke kennis, vaardigheden en programma’s heb je nodig  om aan de slag te kunnen met Big Data? Dat probeerden Maaike Hersevoort (CBS), Hamed Mehdipoor (Universiteit Twente, UT) en hun collega’s te ontdekken tijdens het datacamp dat CBS en de UT eind vorig jaar november organiseerden. De eerste resultaten zijn inmiddels bekend. 

Snelle indicator

Tijdens het datacamp werden tien medewerkers van CBS gekoppeld aan negen PhD-studenten en postdocs van de UT. In het eerste deel van het datacamp deelden betrokkenen kennis en vaardigheden. Daarna gingen de deelnemers in groepjes van twee of drie aan de slag met concrete vraagstukken. In korte tijd bleken de deelnemers in staat zich de techniek eigen te maken om grote hoeveelheden data te bestuderen. Zo ontdekten zij dat de correlatie tussen het Bruto Binnenlands Product (BBP) en het aantal voertuigen op de Nederlandse rijkswegen heel erg hoog is. Dat is daarmee een snelle indicator voor het meten van de conjunctuur. 

Goede technische voorzieningen

Maaike Hersevoort is werkzaam als statistisch onderzoeker bij CBS en deskundig op het gebied van steekproeftrekking. Hersevoort: ‘Het doel van het datacamp was CBS’ers meer kennis te laten opdoen over werken met Big Data. Daarbij kwamen de mogelijkheden aan bod, maar ook de problemen en uitdagingen.’ Een belangrijke voorwaarde om Big Data te kunnen gebruiken zijn goede technische voorzieningen voor het opslaan en verwerken. ‘Daar hoort ook specifieke software bij, die in staat is om grote hoeveelheden data heel snel te verwerken. Een voorbeeld daarvan is Spark. Tijdens het datacamp konden we al met Spark kennismaken. Ondertussen is ook bij CBS een Spark-project gestart.'

Globale uitdagingen

Hamed Mehdipoor is werkzaam als promovendus bij de faculteit Geo-Informatiewetenschappen en Aardobservatie (ITC) van de UT. Zijn aandachtsgebied is de analyse en het modelleren van door vrijwilligers verzamelde waarnemingen van het moment waarop terugkerende biologische fenomenen plaatsvinden, bijvoorbeeld het tot bloei komen van planten. Daarbij maakt hij gebruik van machine learning en datamining technieken. Samen met zijn supervisor dr. Raul Zurita-Milla, één van de datacamp organisatoren en mentoren, ontwerpt Mehdipoor analytische workflows om om te kunnen gaan met de complexe analyse van de waarnemingen door vrijwilligers. Mehdipoor: ‘Alleen als deze workflows opgezet zijn, kunnen we de miljoenen waarnemingen van vrijwilligers echt op waarde schatten.’ Zurita-Milla vult aan: ‘Dit zal leiden tot een nieuw soort wetenschap waar vrijwilligers direct bijdragen aan de analyse van globale uitdagingen zoals klimaatverandering’.

Bosanemoon

Mehdipoor en Hersevoort hebben tijdens het datacamp waarnemingen afkomstig van de website van de Natuurkalender * over de bloei van de bosanemoon gecombineerd met gedetailleerde temperatuurgegevens van het KNMI. Variaties in weer en klimaat door de jaren heen beïnvloeden het moment van de levenscyclus van planten en dieren. Dit is het onderwerp van de fenologie, de studie van jaarlijks terugkerende natuurverschijnselen. Waarnemingen door vrijwilligers van gebeurtenissen in de natuur worden gebruikt om het begin van de lente te monitoren.

Twitterdata

Op basis van een eenvoudig model** bootsten Hersevoort en Mehdipoor de bloei van de bosanemoon na voor 2013 en 2014. Zowel uit een analyse van de modeluitkomsten als uit een analyse van de twitterdata uit 2013 en 2014 blijkt dat in het koude jaar 2013 de bosanemoon later bloeide dan in het warme jaar 2014. Inmiddels hebben beide collega’s ook de bloei van de bosanemoon voor 2016 gemodelleerd. Dit jaar viel de start van de lente middenin de start van de bloeiperiode. De methode lijkt ook toepasbaar op andere data waar tijd en ruimte een rol spelen, bijvoorbeeld data over de nationale griepmeting.

Werken met Big Data bij CBS?

Het tijdperk van Big Data en geavanceerde IT- en internettechnologie opent ongekende mogelijkheden voor CBS. Daarom werft CBS zowel HBO’ers als academici met een IT-achtergrond. Ook statistici en andere topprofessionals met aanverwante opleidingen die willen werken aan één van de meest geavanceerde data- en informatietechnologie infrastructuren van de wereld zijn zeer welkom. Kijk voor actuele (IT-)vacatures op: www.werkenbijcbs.nl. Naast gerichte sollicitaties op CBS-vacatures kunnen belangstellenden ook een open sollicitatie sturen via het mailadres: sollicitatie@cbs.nl

* De Natuurkalender is het Nederlandse fenologische network, gecoördineerd​ door Dr. Arnold van Vliet.  Zurita-Milla en Mehdipoor werken sinds lange tijd met hem samen.
** Vanwege de tijdsconstraints van het datacamp is er een versimpeld fenologisch model gebruikt om eerste resultaten te verkrijgen tijdens het Datacamp: het ‘Growing Degree Days’ (GGD) model. GGD is een pragmatisch model en Mehdipoor en Zurita-Milla ontwikkelen nu meer geavanceerde spatio-temporele modellen.