Innovatief met big data tijdens DataCamp CBS/UT

/ Auteur: Miriam van der Sangen
dit is een foto van de ondertekening letter of intent door decaan prof. peter apers en astrid boeijen
Welke big data zijn interessant voor CBS en de Universiteit Twente (UT)? Hoe snel kun je conclusies trekken uit grote hoeveelheden data? Welke kennis, vaardigheden en programma’s hebben medewerkers nodig om aan de slag te kunnen met big data? Van 6 tot en met 9 december jl. ontdekten tien CBS-onderzoekers dat met een aantal AIO’s en postdocs van de UT en SIKS (School for Information and Knowledge Systems) tijdens een intensief en uitdagend DataCamp CBS/UT.

Complexe vraagstukken

Het jaarlijkse DataCamp heeft als doel oplossingen te vinden voor complexe vraagstukken aan de hand van big data. Dit jaar werd onder andere gekeken hoe big data zijn te gebruiken voor Sustainable Development Goal indicatoren, hoe smart city gegevens kunnen worden gebruikt voor milieu- en mobiliteitsvragen, welke bruikbare informatie veranderingen in de populariteit van de Google zoektermen oplevert en of de digitale sporen die toeristen op internet nalaten ook voor toerismestatistieken bruikbaar zijn.

Nieuwste programmeertalen

Jurriaan Biesheuvel was één van de deelnemers aan het DataCamp namens CBS. Voordat hij in augustus vorig jaar bij het statistiekbureau in dienst kwam, studeerde hij experimentele natuurkunde en promoveerde hij aan de Vrije Universiteit van Amsterdam. Nu werkt hij als statistisch onderzoeker aan de conjunctuurstatistieken. Daarnaast is hij bezig met de introductie van een nieuw seizoencorrectieprogramma en de harmonisering van statistieken. Tevens maakt hij deel uit van een datagroep binnen zijn directie, waar hij de nieuwste programmeertalen leert en kennis maakt met andere facetten van het vak.

deze foto is gemaakt tijdens data camp universiteit twente en cbs

Analyseren DDoS-aanvallen

Biesheuvel beschrijft zijn ervaring tijdens het DataCamp in een paar kernachtige steekwoorden: intensief, uitdagend, innovatief. Veel was nieuw voor hem, bijvoorbeeld het werken met Spark (een computersysteem waarmee onderzoekers hele grote hoeveelheden data kunnen analyseren, red.). ‘Daarnaast bracht ik met 2 andere onderzoekers aan de hand van twitterberichten en Volkskrantartikelen DDoS-aanvallen (cyberaanvallen, red.) in kaart voor de periode 2010-2015. Ook met Google trends hebben we kunnen zien hoe vaak en wanneer op dit woord werd gezocht. Dat kwam voor een belangrijk deel overeen met de data waarop de DDos-aanvallen hadden plaatsgevonden.’

Toerismestatistieken

Shirley Ortega is afgestudeerd als industrieel ingenieur en promoveerde aan de Universiteit van Maastricht. Sinds 2013 werkt ze bij CBS aan de statistieken over Cultuur, toerisme en technologie. Daarnaast is ze verantwoordelijk voor de statistieken van Caribisch Nederland. Ze was ook betrokken bij het onlangs gelanceerde innovatieve project van CBS om samen met Google en Dataprovider de interneteconomie van Nederland in kaart te brengen. Vanuit haar vakgebied kwam zij al diverse malen met big data in aanraking. Zo nam ze vorige maand deel aan een door CBS-medewerkers gegeven Europees trainingsprogramma voor statistici over big data. Ze heeft ook ervaring met innovatieve manieren om toerismestatistieken te maken. ‘We hebben bij CBS een proef met robots gedaan om bedrijven in de toerismesector in kaart te brengen.’

Social media

Ook Ortega heeft veel geleerd tijdens het DataCamp. De vraag die zij trachtte te beantwoorden op basis van social media was of er een relatie zit tussen de locatie waarop toeristen zich op het eiland Texel bevinden en hun gedrag. ‘Na selectie aan de hand van een aantal criteria hadden we daarvoor twee bronnen: 3.000 gegevens van instagram en 12.000 gegevens van twitter. We kwamen er – ook aan de hand van het Geografisch Informatie Systeem (GIS) – achter dat de gebruikers van instagram vooral liefhebbers zijn van de kust. De twitteraars zijn degenen die vooral de dorpen op Texel bezoeken.’

Twitterberichten

Djoerd Hiemstra is - naast Barteld Braaksma en Piet Daas van CBS - een van de organisatoren namens de UT. Hij is erg enthousiast over wat er bereikt is door de deelnemers. ‘Het is heel goed verlopen. We hebben een snelle start gemaakt. De eerste twee dagen stonden in het teken van allerlei lezingen. Zo vertelden twee statistici uit Costa Rica waar zij in hun werk tegenaan lopen. Zij brengen aan de hand van twitterberichten protestacties in kaart. Professor Arjen de Vries van de Universiteit Nijmegen ging nader in op Spark. Hamed Mehdi Poor van de UT vertelde over het vervolgonderzoek dat hij en Maaike Hersevoort van CBS hebben gedaan naar aanleiding van de ontdekte resultaten op het DataCamp vorig jaar. Ze hebben de waarnemingen over de bloei van de bosanemoon gecombineerd met gedetailleerde temperatuurgegevens van het KNMI´. De big data specialisten van CBS, Piet Daas en Marco Puts, verzorgden een lezing over het gebruik van big data voor de officiële statistiek. Zij illustreerden dit met vele voorbeelden. Daarna konden de deelnemers aan de slag, ondersteund door UT en medewerkers van CBS.

‘Big data bieden veel kansen, maar roepen ook allerlei vragen op’

Wetenschappelijke artikelen

Hiemstra is er trots op dat een aantal belangrijke uitkomsten van het DataCamp van vorig jaar gebruikt is om verder onderzoek te doen en er ook wetenschappelijke artikelen over te schrijven. Hij spreekt de verwachting uit dat dit ook zal gebeuren met de resultaten van dit tweede DataCamp. ‘En het DataCamp van dit jaar is zo’n succes dat nu reeds bekend is dat eind 2017 wéér een dergelijk evenement zal plaatsvinden.’ Hiemstra is degene die namens de UT ook betrokken was bij het opstellen van de letter of intent die aan het einde van het DataCamp werd ondertekend door CBS-hoofddirecteur Astrid Boeijen en decaan prof. Peter Apers van de UT. ‘Zo’n intentieverklaring is een mooie kans en steun in de rug! Maar de samenwerking tussen de onderzoekers was er al enige tijd: zij hebben elkaar goed weten te vinden. Dat is een heel belangrijke basis voor succes!’

Datahuis

Astrid Boeijen is CBS-hoofddirecteur dataverzameling en portefeuillehouder big data. Ze noemt de ondertekening van de letter of intent ‘een mooie stap’. ‘Het geeft een extra impuls aan de reeds bestaande samenwerking tussen CBS en de UT en stimuleert het in september van dit jaar opgerichte Center for Big Data Statistics (CBDS). Bij het CBDS zijn inmiddels 40 externe partners aangesloten, variërend van nationale en internationale universiteiten tot grote bedrijven en statistische bureaus wereldwijd. Met de oprichting van CBDS neemt CBS een voortrekkersrol op het gebied van big data. Een logische stap gezien de uitgangspositie van CBS als grootste datahuis in Nederland, de unieke expertise op het gebied van big data en de decennialange ervaring met privacy. Big data bieden veel kansen, maar roepen ook allerlei vragen op. Het is zo’n veel omvattend geheel dat we die vragen als CBS niet alleen kunnen beantwoorden, maar graag samenwerken met andere partijen. Het is fantastisch dat de UT dit avontuur met ons wil aangaan’.

Showcases

CBDS en UT gaan samenwerken op een aantal fronten, bijvoorbeeld op het gebied van onderzoek en het indienen van subsidie-aanvragen.’ Over de resultaten van het DataCamp CBS/UT is Boeijen zeer te spreken. ‘De resultaten van vorig jaar hebben laten zien dat er heel veel creativiteit is. Dat is ook tijdens dit tweede DataCamp weer gebleken. Er zijn mooie resultaten behaald. Bij gesprekken met externe partijen die willen aansluiten bij CBDS zijn dat goede showcases!’