Van niet-kanssteekproef naar populatie: vrachttransport over het wegennetwerk

© Hollandse Hoogte / Sander Koning

Het gebruik van non-probability data als primaire databron in officiële statistieken is momenteel een actief onderzoeksgebied. Als het traditionele steekproefontwerp ontbreekt zouden moderne machine learning-algoritmen een centrale rol kunnen spelen bij het produceren van accurate populatieschattingen. In dit project wordt empirisch onderzoek gepresenteerd naar de effecten van het non-probability karakter van de data en klasse-onbalans op de kwaliteit van individuele voorspellingen en populatieschattingen.

Met behulp van grafen-theorie en Weigh-in-Motion (WiM) wegsensoren wordt het Nederlandse vrachtverkeer over het Nederlandse rijkswegennetwerk afgeleid. Door het Nederlandse rijkswegennet als gewogen gerichte graaf te beschouwen, met verkeersknooppunten als knopen en rijkswegen als pijlen, kunnen netwerkeigenschappen van wegsegmenten worden afgeleid. De WiM-sensoren zijn geïnstalleerd op een niet-kanssteekproef van wegsegmenten die passerende transportvoertuigen detecteren. We passen extreme gradient boosting toe om de kans op detectie van een transportvoertuig door een WiM-sensor te leren uit tijdskenmerken (bv. weekendindicator, weer), graafkenmerken (bv. pageRank van het beginpunt van een wegsegment, algemene verkeersintensiteit uit lus-sensoren), voertuigeigenschappen (bv. massa, leeftijd) en voertuigeigenaarskenmerken (bv. bedrijfsgrootte, economische activiteit). De geleerde relatie wordt vervolgens gebruikt om de detectiekans te voorspellen op elke dag van het jaar, op elk wegsegment van het netwerk voor elk voertuig in de populatie. Verschillende scenario's zijn ontworpen om de effecten te simuleren van het ontbreken van een steekproefontwerp en van de extreme klasse-onbalans.

Met ongeveer 27 miljoen records en meer dan 100 kenmerken presteerde het model ongeveer halverwege tussen gokken en perfecte voorspelling wanneer het getraind en getest werd op een gebalanceerde kanssteekproef. Trainen en testen op een niet-kanssteekproef leverde substantiële variatie op in de prestatie van het model over de test sets, wat bevestigt dat het risicovol is om te extrapoleren naar domeinen die niet goed gerepresenteerd zijn in de data. Onbalans tussen de klassen deed ernstig afbreuk aan de prestatie van het model, het best gedetecteerd door Matthews' correlatiecoëfficiënt en de min-max genormaliseerde $F_1$ van de zeldzame categorie. Het in balans brengen van de data verbetert de modelprestatie op gebalanceerde testsets, maar hindert het maken van inferenties naar de volledige populatie.

De productie van officiële statistieken met non-probability data als primaire bron zou baat hebben bij een steekproefontwerp of kenmerken die het mechanisme verklaren waarmee de data gegenereerd zijn. Bij gebrek aan beide en het voorspellen van een zeldzame gebeurtenis voldoet de kwaliteit die wordt bereikt met een modern machine-learning algoritme nog niet aan de kwaliteitsnormen voor officiële statistiek.

Feedback

Je browser wordt niet ondersteund. Upgrade je browser. Je hebt een inconsistente user-agent geleverd bij het oplossen van de uitdaging. Mogelijk heb je browserextensies of -instellingen ingeschakeld om de user-agent te vervalsen en moet je deze uitschakelen om door te gaan. Een deel van Turnstile is per ongeluk in de cache opgeslagen. Wis gelieve je cache. De tijd op de klok klopt niet. Zet je klok op de juiste tijd. Een ongespecificeerde fout heeft zich voorgedaan.