Vertekening door misclassificatie in statistisch leren
Er zijn twee tegenstrijdige ontwikkelingen die effect hebben op officiële statistiek. Aan de ene kant is er een toenemende behoefte aan de snelle beschikbaarheid van gedetailleerde en betrouwbare statistische informatie. De huidige honger naar betrouwbare informatie omtrent de oversterfte ten gevolge van COVID-19 is daarvan een treffend voorbeeld. Aan de andere kant hebben officiële statistiekbureaus die dergelijke officiële statistieken produceren (zoals het CBS) te maken met bezuinigingen en de verplichting om administratieve lasten te verlagen. Het gevolg van deze twee tegenstrijdige ontwikkelingen is dat statistiekbureaus in toenemende mate afhankelijk zijn van nieuwe soorten data (denk aan big data) die alleen verwerkt en geanalyseerd kunnen worden met behulp van nieuwe soorten methoden (waaronder statistical learning methods).
Dit proefschrift richt zich op een specifieke groep van statistical learning methods, namelijk classifiers. De geaggregeerde uitkomsten van een classifier noemen wij classifier-based statistics. Als de gebruikte classifier niet foutloos is, dan treedt er misclassification bias op. Om voor die vertekening te kunnen corrigeren is een test set nodig waarin foutloze informatie staat over de te voorspellen klassen. Het is vervolgens een grote uitdaging om een juiste correctiemethode te kiezen. Dat geldt in het bijzonder voor tijdreeksanalyse waarbij de data niet stationair zijn (of, met andere woorden, leidt onder concept drift). Het volgende open probleem in de literatuur wordt boven water gehaald: er bestaat voor eindige populaties geen gedegen theoretische analyse van methodes die corrigeren voor misclassification bias. Hieruit volgt de probleemstelling: Op welke manier kunnen we misclassification bias in statistical learning verminderen opdat we classifier-based statistics met hogere nauwkeurigheid verkrijgen?
De conclusie van dit proefschrift is dat statistical learning methoden zeker gebruikt kunnen worden voor officiële statistiek, zolang er maar op de juiste wijze voor misclassification bias wordt gecorrigeerd. Onze aanbeveling is om statistical learning methoden vooral in te zetten om nieuwe of verbeterde officiële statistieken te produceren (gebruikmakend van de correctiemethoden voor misclassification bias zoals besproken in dit proefschrift). Ten slotte betogen we dat experts met domeinkennis onmisbaar zijn voor het succesvol inzetten van statistical learning methoden binnen de officiële statistiek.
Meertens, Q. A. (2021). Misclassification bias in statistical learning. Dissertation, University of Amsterdam, handle:11245.1/4b031bbd-5a46-4181-b0f1-52b38a3b63a6