Nieuwe stappen gezet met big data voor verkeer- en vervoersstatistiek
Schatten
Traditioneel vullen vrachtwagenchauffeurs en vervoersbedrijven vragenlijsten in voor de verkeer- en vervoersstatistieken van CBS. Maar er zijn tegenwoordig veel meer – en bovendien heel omvangrijke – databronnen beschikbaar. Bijvoorbeeld de gegevens van de verkeerslussen van Rijkswaterstaat, GPS-data en camerabeelden. Promovendus Yinyi Ma: ‘Ik heb onderzocht hoe we die nieuwe databronnen kunnen combineren met de bestaande bronnen en op basis daarvan het vrachtverkeer kunnen schatten.’
Theoretisch model
Yinyi Ma onderzocht een theoretisch model (een hiërarchisch Bayesiaans netwerk) om de informatie uit de verschillende oude en nieuwe databronnen te combineren. Het model is getoetst op een voorbeeldcasus en het werkt. ‘Het model dat ik in mijn onderzoek voorstel, kan de nauwkeurigheid van de schatting van de bewegingen van het vrachtverkeer significant verbeteren.’ Het model is nog niet op de praktijk getest. Ma: ‘Om goed te kunnen werken met big data moeten we vooral vragen beantwoorden op het gebied van datamanagement, datamodellen, evaluatie en visualisatie. Mijn onderzoek focust op modellen en evaluatie, twee belangrijke onderdelen.’
‘Validatie van met big databronnen gegenereerde cijfers zijn een prominent aandachtspunt voor CBS’
Samenwerken met universiteiten
Chris de Blois, onderzoeker bij CBS, begeleidde Yinyi Ma bij haar promotietraject. ‘Als afdeling waren we erg geïnteresseerd in de mogelijkheden die nieuwe informatiebronnen bieden bij onze statistieken over verkeer en vervoer.’ Hij benadrukt dat het promotietraject ook een intensievere samenwerking heeft opgeleverd tussen CBS en de Erasmus Universiteit. ‘Ook dat is een mooi resultaat’, aldus De Blois. ‘De onderlinge contacten zijn gegroeid. Daar zullen we in de toekomst van profiteren. CBS heeft immers veel data, maar soms gebrek aan onderzoekscapaciteit. Bij de universiteit is het net andersom. We vullen elkaar goed aan.’
Nieuwe stap in werken met big data
De ontwikkelingen in de big data-statistiek staan niet stil. Inmiddels maakt CBS statistieken over verkeersintensiteiten puur op basis van verkeerslusgegevens. Door dergelijke nieuwe data met traditionele data te combineren ontstaan rijkere analysemogelijkheden. Dat is veelbelovend voor de toekomst. ‘Een nieuwe stap in het omgaan met big data’, aldus De Blois. ‘Het onderzoek van Ma is voor ons een inspiratiebron voor verder onderzoek. Daarbij is validatie van met big databronnen gegenereerde cijfers een prominent aandachtspunt voor CBS.’
Statistiekcursussen
Yinyi Ma werkte tijdens de eerste jaren van haar promotieonderzoek twee dagen per week bij CBS in Heerlen. ‘Ik heb in die tijd veel gesproken met mijn supervisor Chris en heb veel gehad aan de interne publicaties over dit onderwerp. Ook kreeg ik de kans om statistiekcursussen te volgen bij het Europese statistiekbureau Eurostat. De CBS-collega’s waren erg betrokken en behulpzaam. Het was een heel positieve ervaring.’ Yinyi Ma promoveerde op 3 juni aan de Erasmus Universiteit, Rotterdam School of Management. Ze werkt inmiddels bij IBM in de Verenigde Staten.