Innovatief onderzoek CBS inspireert datascientists

/ Auteur: Jaap van Sandijk
© Miriam van der Sangen
De wereld van de statistiek is aan het veranderen. Nieuwe technologische ontwikkelingen maken het mogelijk om op basis van bijvoorbeeld big data statistieken te maken die inzicht geven in tal van maatschappelijk relevante vragen. Daarnaast is er behoefte aan nieuwe vormen van wetenschappelijk onderzoek over hoe je data kunt inzetten, ook wel data science genoemd. Het aantal datascientists bij het CBS neemt dan ook toe. Wat maakt hun werk zo boeiend?

Data vertalen naar hoogwaardige statistiek

Officiële, hoogstaande statistieken maken op basis van big data en registerdata is niet eenvoudig. De databronnen zijn niet ontworpen voor statistisch gebruik en het waarborgen van kwaliteit en continuïteit is behoorlijk complex. Voor datascientists is het dan ook dé grote uitdaging om methoden te ontwikkelen die grote hoeveelheden data kunnen ‘vertalen’ naar hoogwaardige statistiek. Hiervoor zet het CBS in op onder meer machine learning methoden. ‘Machine learning heeft een enorme boost gekregen door snellere computers en de beschikbaarheid van grote hoeveelheden data’, legt CBS-datascientist Marc Ponsen uit. ‘Maar wat de beste methode is, is sterk afhankelijk van het domein dat je onderzoekt.’

Maatschappelijke ontwikkelingen

Ponsen werkt sinds mei 2018 bij het Center for Big Data Statistics (CBDS). ‘Binnen dit onderdeel van het CBS werken meer dan 40 nationale en internationale partijen uit overheid, bedrijfsleven, wetenschap en onderwijs samen op het gebied van big data-technologie en methoden om officiële statistieken te maken. Daarmee speelt het CBDS in op belangrijke maatschappelijke ontwikkelingen: de steeds groter wordende vraag naar realtime en regionale statistieken (Urban Data, red.). Daar zijn nieuwe databronnen voor nodig.’

De maatschappelijke betekenis van het werk is voor deze datascientists een belangrijke reden om onderzoek te doen bij het CBS

Verschillende thema’s en statistieken

Ponsen studeerde computer science aan de TU Delft en deed onderzoek aan Lehigh University in Pennsylvania en de Universiteit Maastricht. Voor zijn afstudeeronderzoek ontwikkelde hij kunstmatige intelligentie voor computerspelers in commerciële computergames. Na zijn studie werkte hij voor toezichthouder AFM, waar hij vooral data-visualisaties ontwikkelde. Zijn huidige werk voor het CBS combineert hij met de functie van data-analyticus bij de Eindhovense voetbalclub PSV, waar hij de technische staf adviseert. Waarom koos hij als datascientist voor het CBS? ‘Het CBS werkt aan tal van verschillende thema’s en maakt daarover statistieken. Juist die afwisseling is interessant’, antwoordt Ponsen. ‘Afhankelijk van het thema en het type statistiek zet het CBS machine learning technieken in. Die combinatie maakt deze functie zo aantrekkelijk.’

Zonneenergie
© Hollandse Hoogte / Reyer Boxem
 

Zonne-energie

Tim de Jong studeerde kennistechnologie aan de Universiteit Maastricht en behaalde een master in kunstmatige intelligentie. Hij begon zijn loopbaan bij het CBS als software engineer en maakte vorig jaar de overstap naar datascience. Samen met onder andere Ben Laevens is hij betrokken bij een project dat op basis van big data een statistiek moet opleveren over de opgewekte zonne-energie in Nederland. Het project van Tim de Jong is een opdracht van Eurostat, het project van Ben Laevens en zijn twee collega's is een opdracht van het CBDS. Laevens behaalde zijn Master in natuur- en sterrenkunde aan de University of Edinburgh, promoveerde aan de Université de Strasbourg en het Max Planck Insitut für Astronomie en deed postdoc onderzoek in Santiago (Chili). Hij werkt bij het ministerie van Economische Zaken en Klimaat (EZK) als onderzoeker en volgt bij het CBS een opleiding voor datascientist. ‘Dat betekent 2 jaar lang werken aan thema’s die aansluiten bij de beleidsdomeinen van de ministeries van EZK en Landbouw, Natuur en Voedselkwaliteit: energie en economie. Het is een mix van research en opleiding. Na afloop stroom ik door naar de twee ministeries om daar datascience opdrachten te vervullen.’

Inspirerend

In het project wordt gewerkt met verschillende grote databronnen, waaronder registerdata over zonnepanelen, stralingsdata van het KNMI en data aan de hand van luchtfoto’s. ‘Grootste uitdaging daarbij is dat we met behulp van machine learning technieken algoritmen zodanig kunnen ontwikkelen dat deze goed generaliseren’, zegt De Jong. Laevens: ‘Op die manier kunnen we - rekening houdend met onder meer het weer, het seizoen en de locatie van de panelen - komen tot een model dat kan vaststellen hoe groot het opgewekte zonnevermogen in ons land is. Uitermate belangrijke kennis voor zowel de maatschappij als beleidsmakers.’ Vooral dat laatste - de maatschappelijke betekenis van het werk - is voor het tweetal een belangrijke reden om onderzoek te doen bij het CBS. ‘Je werkt hier met één van de grootste databanken van Nederland in een creatieve omgeving met een open werksfeer. Erg inspirerend’, besluit De Jong.