Fouten in datasets opsporen en aanpakken
Verschillende databronnen
Bij het maken van statistieken worden verschillende databronnen gebruikt. Soms spreken de gegevens in die bronnen elkaar tegen: dan is een persoon volgens de ene bron werkloos en volgens de andere docent, of volgens de ene bron man en volgens de andere vrouw. Ook kunnen databronnen combinaties van gegevens bevatten die niet mogelijk zijn: bijvoorbeeld een 5-jarige die gehuwd is. ‘Beide zaken zijn een probleem als je een statistiek wil maken’, zegt Laura Boeschoten. ‘Het CBS gebruikt bij het maken van statistieken zoveel mogelijk informatie uit bestaande administratieve bronnen, aangevuld met gegevens uit enquêtes. Maar zowel de informatie uit registers als de gegevens die verkregen zijn met enquêtes zijn niet perfect: ze kunnen allerlei meetfouten bevatten. In mijn proefschrift introduceer ik een methode die die fouten opspoort en aanpakt. We kunnen met deze methode een schatting maken van de werkelijke waarde van allerlei variabelen en één consistente dataset samenstellen waar statistiekmakers mee verder kunnen.’
Bestaande methoden combineren
Boeschoten past haar onderzoek toe op categorische data (bijvoorbeeld geslacht, woonplaats, geboortemaand). Ze gebruikt hiervoor een algemene methode: de latente klassenanalyse. Deze wordt normaal gesproken gebruikt om informatie te verkrijgen die je niet direct kunt meten of uitvragen, zoals intelligentiescores, persoonlijkheidskenmerken of de diagnose van een psychische stoornis.
‘Ik heb de latente klassenanalyse gecombineerd met de zogenoemde multipele imputatie, een methode om ontbrekende data aan te vullen’, zegt Boeschoten. Ze creëert daarmee een methode die fouten corrigeert in registers en vragenlijstonderzoeken bij variabelen als geslacht of opleidingsniveau. ‘Als verschillende bronnen verschillende antwoorden geven op zo’n eenvoudige vraag, kunnen we nu op basis van onze methode het meest juiste antwoord vaststellen en vervolgens een nieuwe en betere dataset construeren. De methode levert daarbij informatie op over de mate van zekerheid van de gegevens in je bestand.’
Laura Boeschoten promoveerde op 25 oktober 2019 aan de Universiteit Tilburg op het proefschrift ‘Consistent estimates for categorical data based on a mix of administrative data sources and surveys’
Simulatiestudies
Om haar statistische methode te testen voerde Boeschoten een aantal simulatiestudies uit. Daarnaast paste ze haar methode toe op een gecombineerde dataset die de werkloosheid in Italië schat en op een gecombineerde dataset die het aantal ernstige verkeersgewonden per voertuigtype schat op basis van data afkomstig van de politie en ziekenhuizen. Boeschoten: ‘Bij deze toepassingen zagen we soms aanzienlijke verschillen tussen de oorspronkelijke statistieken en de uitkomsten na onze toepassing. Dat geeft aan dat onze methode de kwaliteit van deze statistieken zou kunnen verbeteren.’ De voorbeelden die Boeschoten in haar proefschrift uitwerkte zijn niet gebaseerd op CBS-data. Boeschoten: ‘Een volgende stap is om te bekijken hoe de methode gebruikt kan worden voor het maken van officiële statistieken bij het CBS.’
Inzicht in kwaliteit
Boeschoten benadrukt het belang van het gebruik van consistente data. ‘De gegevens uit de registers en enquêtes die het CBS gebruikt zijn van hoge kwaliteit. Toch is het onvermijdelijk dat er foutjes inzitten. De statistieken van het CBS vormen de basis voor het beleid in Nederland. Het is dus belangrijk om die foutjes zoveel mogelijk te corrigeren.’ Gedurende haar promotie was Boeschoten een dag per week bij het CBS werkzaam. ‘Het was mooi om er methodologen te leren kennen die met hetzelfde onderwerp bezig zijn als ik. Met hen heb ik goed samengewerkt.’ Boeschoten zal haar onderzoek vanaf januari 2020 als postdoc voortzetten.