Vertekening door misclassificatie in statistisch leren

28-4-2021 11:40

Op welke manier kunnen we vertekening door misclassificatie in statistisch leren verminderen opdat we classificator-gebaseerde statististiek met hogere nauwkeurigheid verkrĳgen?

Er zijn twee tegenstrĳdige ontwikkelingen die effect hebben op officiële statistiek. Aan de ene kant is er een toenemende behoefte aan de snelle beschikbaarheid van gedetailleerde en betrouwbare statistische informatie. De huidige honger naar betrouwbare informatie omtrent de oversterfte ten gevolge van COVID-19 is daarvan een treffend voorbeeld. Aan de andere kant hebben officiële statistiekbureaus die dergelĳke officiële statistieken produceren (zoals het CBS) te maken met bezuinigingen en de verplichting om administratieve lasten te verlagen. Het gevolg van deze twee tegenstrĳdige ontwikkelingen is dat statistiekbureaus in toenemende mate afhankelĳk zĳn van nieuwe soorten data (denk aan big data) die alleen verwerkt en geanalyseerd kunnen worden met behulp van nieuwe soorten methoden (waaronder statistical learning methods).

Dit proefschrift richt zich op een specifieke groep van statistical learning methods, namelĳk classifiers. De geaggregeerde uitkomsten van een classifier noemen wĳ classifier-based statistics. Als de gebruikte classifier niet foutloos is, dan treedt er misclassification bias op. Om voor die vertekening te kunnen corrigeren is een test set nodig waarin foutloze informatie staat over de te voorspellen klassen. Het is vervolgens een grote uitdaging om een juiste correctiemethode te kiezen. Dat geldt in het bĳzonder voor tĳdreeksanalyse waarbĳ de data niet stationair zĳn (of, met andere woorden, leidt onder concept drift). Het volgende open probleem in de literatuur wordt boven water gehaald: er bestaat voor eindige populaties geen gedegen theoretische analyse van methodes die corrigeren voor misclassification bias. Hieruit volgt de probleemstelling: Op welke manier kunnen we misclassification bias in statistical learning verminderen opdat we classifier-based statistics met hogere nauwkeurigheid verkrĳgen?

De conclusie van dit proefschrift is dat statistical learning methoden zeker gebruikt kunnen worden voor officiële statistiek, zolang er maar op de juiste wĳze voor misclassification bias wordt gecorrigeerd. Onze aanbeveling is om statistical learning methoden vooral in te zetten om nieuwe of verbeterde officiële statistieken te produceren (gebruikmakend van de correctiemethoden voor misclassification bias zoals besproken in dit proefschrift). Ten slotte betogen we dat experts met domeinkennis onmisbaar zĳn voor het succesvol inzetten van statistical learning methoden binnen de officiële statistiek.

Meertens, Q. A. (2021). Misclassification bias in statistical learning. Dissertation, University of Amsterdam, handle:11245.1/4b031bbd-5a46-4181-b0f1-52b38a3b63a6

Downloads

PDF - Misclassification bias in statistical learning