Onderzoek herijking risico-indicator onderwijsachterstanden – fase 1

3. Imputatie ontbrekende opleidingsniveaus

3.1 Inleiding

Het opleidingsniveau van de ouders is een belangrijke voorspeller met betrekking tot het risico op onderwijsachterstand van een kind (CBS, 2019). Voor ouders die zijn ingeschreven in de Basisregistratie Persoonsgegevens is dit kenmerk beschikbaar uit het Opleidingsniveaubestand van het CBS. De opleidingsniveaus in dit bestand zijn deels afgeleid uit centrale opleidingsregisters en deels uit steekproefdata van de Enquête Beroepsbevolking (EBB).

Voor een aanzienlijk deel van de ouders in de BRP is geen opleidingsniveau bekend in het Opleidingsniveaubestand (Linder et al., 2011). Deels komt dit doordat centrale opleidingsregisters nog niet lang worden bijgehouden: voor het hoger onderwijs sinds het midden van de jaren 1980, voor het voortgezet onderwijs en mbo rond de eeuwwisseling en voor het primair onderwijs vanaf 2010. Mensen die hun opleiding al hadden afgerond voordat de relevante registers beschikbaar kwamen zijn daarom alleen op steekproefbasis waargenomen in de EBB. Verder ontbreekt in de registers alle informatie over opleidingen die mensen in het buitenland hebben gevolgd. Van oudere mensen en mensen die op latere leeftijd naar Nederland zijn gekomen is daarom relatief vaak geen opleidingsniveau bekend. Omdat de EBB-data elk jaar worden aangevuld met een nieuwe steekproef, neemt het percentage ontbrekende opleidingsniveaus in het bestand in de loop van de tijd af.

In het Opleidingsniveaubestand heeft elke persoon met een bekend opleidingsniveau een ophooggewicht. Dit gewicht is gelijk aan 1 als de informatie uit een register komt en ongelijk aan 1 als de informatie (alleen) uit de EBB komt. Met deze ophooggewichten kan een goede schatting worden gemaakt van de verdeling van opleidingsniveau voor de hele Nederlandse bevolking.
Binnen de groep kinderen van wie beide ouders voorkomen in de BRP onderscheiden we vier deelpopulaties:

  1. het opleidingsniveau van zowel de moeder als de vader is onbekend;
  2. het opleidingsniveau van de moeder is bekend, het opleidingsniveau van de vader niet;
  3. het opleidingsniveau van de vader is bekend, het opleidingsniveau van de moeder niet;
  4. het opleidingsniveau van zowel de moeder als de vader is bekend.

3.1.1 Omvang deelpopulaties
deelpopulatiekinderen t/m 27 jaarkinderen t/m 12 jaar
A15,50%7,90%
B17,20%13,20%
C11,70%7,80%
D55,60%71,10%

Tabel 3.1.1 geeft een indruk van de omvang van het probleem met ontbrekende waarden: hoe ouder de kinderen, hoe meer ouders er voorkomen met een onbekend opleidingsniveau. Van alle kinderen in de BRP tot en met 27 jaar heeft ongeveer 44% ten minste één ouder met een onbekend opleidingsniveau. In ruim 15% van de gevallen zijn beide opleidingsniveaus onbekend. Bij kinderen tot en met 12 jaar (primair onderwijs en jonger) komen minder ontbrekende waarden voor, doordat de ouders gemiddeld jonger zijn. Binnen deze groep heeft ongeveer 29% ten minste één ouder met een onbekend opleidingsniveau, terwijl voor slechts 8% het opleidingsniveau van beide ouders tegelijk onbekend is. Verder is te zien dat het opleidingsniveau van de vader relatief vaker ontbreekt dan het opleidingsniveau van de moeder.

Om toch het risico op onderwijsachterstand in te kunnen schatten, worden de onbekende opleidingsniveaus alsnog geschat en geïmputeerd met specifieke statistische methoden. Bij het imputeren wordt gebruikgemaakt van andere kenmerken die wel bekend zijn uit registraties en die samenhangen met het opleidingsniveau van een persoon, zoals het inkomen en (indien bekend) het opleidingsniveau van de partner. Op basis van dergelijke kenmerken wordt een schatting gemaakt van de onbekende opleidingsniveaus. Omdat deze schattingsmodellen een bepaalde mate aan variatie kennen, kunnen meerdere schattingen voor één persoon tot verschillende uitkomsten leiden. Op individueel niveau zal deze schatting daardoor niet altijd kloppen, maar gemiddeld over grotere groepen mensen geven de uitkomsten een betrouwbare schatting van de werkelijke verdeling van het opleidingsniveau. Het verbeteren van de schattingsmethode kan leiden tot een kleinere variatie in uitkomsten en dientengevolge een stabielere schatting over de tijd.

De plausibiliteitsanalyses die het CBS jaarlijks met betrekking tot de achterstandsscores publiceert, laten een aantal zaken hieromtrent zien. Op populatieniveau laten de jaar-op-jaar vergelijkingen zien dat de uitkomsten vergelijkbaar zijn met voorgaande jaren met een licht opwaartse trend van het opleidingsniveau. Tevens laten deze jaar-op-jaar vergelijkingen zien dat de onderwijsscores van jaar op jaar aanzienlijk sterker fluctueren bij kinderen van wie bij één of beide ouders het opleidingsniveaus is geïmputeerd in vergelijking tot kinderen van wie van beide ouders het opleidingsniveau bekend is5).

Hoewel deze fluctuaties zich op populatieniveau uitmiddelen, hoeft dit niet het geval te zijn bij kleinere subpopulaties. De leerlingenpopulatie van een school is zo’n kleinere subpopulatie. Het gevolg is dat de achterstandsscore van een school waar relatief veel opleidingsniveaus worden geïmputeerd instabieler is. Verbetering van de methoden voor het imputeren van ontbrekende opleidingsniveaus van de ouders van kinderen kan leiden tot een stabielere achterstandsscore en dus een betere voorspelbaarheid van het toegekende budget door OCW. Verbetering van de imputatiemethodiek kan worden gezocht in het verbeteren van de variabelen die nu al worden gebruikt (inkomen, opleidingsniveau partner, herkomst, burgerlijke staat, inkomstenbron en mate van stedelijkheid), in het toevoegen van nieuwe variabelen en het gebruik van een andere statistische methode voor het schatten en imputeren van ontbrekende opleidingsniveaus. De huidige methodiek voor de risico-indicator maakt gebruik van ‘continuation-ratio logistische regressie’. Multinomiale logistische regressie is daarbij een logisch alternatief om te onderzoeken.

Ook de kenmerken die gebruikt worden bij het schatten van ontbrekende opleidingsniveaus bevatten soms voor een klein deel ontbrekende waarden. Deze kenmerken worden nu compleet gemaakt middels een mice-methodiek (multiple imputations with chained equations). Afhankelijk van het type variabele wordt voor een bepaalde standaardmethode gekozen. Voor numerieke data is dat predictive mean matching, logistische regressie voor binaire data en multinomiale regressie en proportional odds regressie voor respectievelijk ongeordende en geordende categorische data met meer dan twee categorieën. Door de omvang van de populatie is deze manier van imputeren zeer rekenintensief.

Dit deelonderzoek bestaat daarom zelf ook weer uit een drietal onderdelen: verbetering van de imputatie van ontbrekende waarden bij hulpvariabelen; een vergelijking van alternatieve regressiemethodieken voor de imputatie van ontbrekende opleidingsniveaus en een onderzoek naar de verbetering van de imputatie van ontbrekende opleidingsniveaus met behulp van meer en/of betere achtergrondkenmerken.

3.2 Data en methoden

3.2.1 Imputatie hulpvariabelen

Voor de imputatie van hulpvariabelen wordt er geïmputeerd met het mice-package (van Buuren en Groothuis-Oudshoorn, 2011) in R, waarbij gebruikt wordt gemaakt van multipele imputatie. In de huidige toepassing voor de risico-indicator onderwijsachterstanden worden met mice de standaard methoden gebruikt, die afhankelijk zijn van het type kenmerk dat wordt geïmputeerd. Bij een numeriek kenmerk, zoals het inkomen, wordt er gebruik gemaakt van predictive mean matching. Bij de andere categorische kenmerken wordt er gebruik gemaakt van polytome (multinomiale) regressie. Bij de methode predictive mean matching voor numerieke kenmerken wordt er voor elke persoon met ontbrekende waarden, een ‘donor’ gezocht die geen ontbrekende waarden heeft. Deze donor wordt gevonden door een regressiemodel toe te passen op de groep zonder ontbrekende waarden, met behulp van een set achtergrondkenmerken. Het regressiemodel berekent een voorspelde waarde per persoon, door de samenhang te bekijken tussen de achtergrondkenmerken en het te imputeren kenmerk. Vervolgens wordt er een donor gevonden door de persoon te koppelen aan iemand met een vergelijkbare voorspelde waarde door het regressiemodel. De methode voor categorische variabelen, polytome (multinomiale) regressie, is een verlenging van een logistisch regressiemodel, waarbij de kans op een categorie voor meer dan twee uitkomsten geschat wordt. Per categorie wordt er een logistisch regressiemodel geschat, voor de categorie in vergelijking met een referentiegroep.

Het gebruik van de verschillende standaardmethoden in mice kost veel rekentijd. Doordat er tien iteraties worden uitgevoerd én we dit toepassen op een grote dataset is de rekenintensiteit erg hoog. Bij predictive mean matching kan de rekentijd oplopen doordat het tijd kost een donor te vinden voor elke persoon met ontbrekende waarden. Daarnaast kost polytome regressie veel tijd omdat voor iedere categorie een apart logistisch regressiemodel geschat moet worden.

Daarom onderzoeken we of we de imputatie sneller kunnen maken zonder in te boeten op de kwaliteit van de imputatie. Daarnaast onderzoeken we welke imputatietechniek beter aansluit bij het gebruik van zowel continue als categorische achtergrondkenmerken. Om de imputatie van het opleidingsniveau te verbeteren, is het ook van belang om de imputatie van de andere ontbrekende registerkenmerken te verbeteren. We onderzoeken daarom ook of het imputatiemodel verbeterd kan worden door aanvullende achtergrondkenmerken te gebruiken.

Omdat de methode predictive mean matching vooral geschikt is voor continue variabelen, testen we methoden die kunnen omgaan met zowel categorische als continue variabelen. We testen hiervoor andere technieken voor donorimputatie en technieken gebaseerd op beslisbomen.

Voor de donorimputatie testen we twee technieken: 1) K-Nearest Neighbours (KNN) en 2) Hotdeck imputatie. Bij KNN wordt er een afstand berekend op basis van een set achtergrondkenmerken, met een gekozen afstandsfunctie. Vervolgens wordt de afstand berekend tussen de donoren en ontvangers, waarna een donor wordt geselecteerd uit de K dichtstbijzijnde donoren. Bij de hotdeck imputatie worden er homogene groepjes gevormd op basis van de achtergrondkenmerken, waarna een willekeurige donor wordt geselecteerd binnen het groepje. Deze technieken kunnen goed toegepast worden als er meerdere kenmerken tegelijk ontbreken. Daarnaast kunnen ze omgaan met categorische variabelen.

Daarnaast is er gekeken naar technieken die gebruikmaken van beslisbomen: 1) Classification and Regression Trees (CART) en 2) Random forest. Beide technieken zijn machine learning algoritmen voor het maken van beslisbomen. In een beslisboom wordt de data opgedeeld in subgroepen op basis van de achtergrondkenmerken die het meest onderscheidend zijn. CART kan gebruikt worden voor continue en categoriale variabelen. Een random forest gaat hierin nog verder door niet één, maar meerdere beslisbomen te schatten. Bij imputatie zal de beslisboom eerst op de groep geschat worden zonder ontbrekende waarden, waarna voor de groep met ontbrekende waarden een voorspelde waarde of categorie berekend kan worden voor de ontbrekende waarde. De imputatietechnieken zijn beoordeeld op een tweetal aspecten: stabiliteit en snelheid.

3.2.2 Regressiemethodiek opleidingsniveau

Binnen de risico-indicator onderwijsachterstanden wordt gewerkt met een indeling van opleidingsniveau in acht categorieën. Het idee achter de imputatiemethode is dat voor elke ouder in het bestand eerst een kansverdeling over de acht categorieën wordt geschat: (p1i,…,p8i), waarbij pci de kans is dat persoon i opleidingsniveau c heeft (c∈{1,…,8}). Vervolgens wordt met deze kansen een trekking gedaan om één van de categorieën te imputeren bij persoon i. Om stabielere resultaten te vinden wordt deze procedure J=10 keer herhaald, zodat uiteindelijk bij elke persoon met een onbekend opleidingsniveau tien waarden worden geïmputeerd.

In de imputatiemethode worden de kansen pci gemodelleerd via een variant op logistische regressie. Het bekende binaire logistische regressiemodel is bedoeld voor kenmerken met twee categorieën en kan daarom hier niet direct worden toegepast. De meest eenvoudige uitbreiding naar meer dan twee categorieën is multinomiale logistische regressie. Hierbij wordt een model van de volgende vorm gebruikt (Agresti, 2013):

$$\log\left( \frac{p_{ci}}{p_{8i}} \right) = \beta_{c0} + \beta_{c1}x_{1i} + \ldots + \beta_{cL}x_{Li},\ \ \ \ \ (c = 1,\ldots,7).$$

De laatste (achtste) categorie van opleidingsniveau is hierbij de referentiecategorie. De variabelen x1i,…,xLi  zijn achtergrondkenmerken in het imputatiemodel.

Voor het imputeren van opleidingsniveau binnen de huidige indicator wordt een andere variant op logistische regressie gebruikt: continuation-ratio logistische regressie. Zie Agresti (2013) of CBS (2016) voor een beschrijving van dit model. Het belangrijkste verschil met multinomiale logistische regressie is dat continuation-ratio regressie expliciet rekening houdt met het feit dat opleidingsniveau een ordinale variabele is, met een ordening in de categorieën van laag naar hoog. In theorie zou dit tot betere imputaties kunnen leiden, al verdwijnt dit voordeel als de steekproef waarop het model geschat wordt voldoende groot is. Daar staat tegenover dat multinomiale logistische regressie twee voordelen heeft ten opzichte van continuation-ratio logistische regressie:

  • De imputatiemethode is eenvoudiger te implementeren omdat standaard-software beschikbaar is voor het schatten van dit model (zoals het R-pakket nnet). Dit maakt de code eenvoudiger te onderhouden dan bij continuation-ratio logistische regressie, waarvoor een eigen implementatie moest worden geschreven.
  • In een eerdere toepassing bij de Volkstelling bleek dat multinomiale logistische regressie leidde tot stabielere uitkomsten dan continuation-ratio logistische regressie (Daalmans, 2021).

We hebben daarom onderzocht of multinomiale logistische regressie een geschikt alternatief is voor het imputeren van opleidingsniveau bij de onderwijsachterstandsindicator. Voor de analyse voor dit onderdeel is de dataset gebruikt waarmee ook de risico-indicator onderwijsachterstanden voor peildatum 1 februari 2022 is berekend.

3.2.3 Imputatie opleidingsniveau

Voor de huidige indicator voor onderwijsachterstanden is een methode ontwikkeld om de ontbrekende opleidingsniveaus te imputeren (CBS, 2016). Deze methode bestaat uit drie stappen:

  1. Imputeer de ontbrekende opleidingsniveaus bij moeders in deelpopulatie C, gebruikmakend van de beschikbare informatie uit deelpopulatie D.
  2. Imputeer de ontbrekende opleidingsniveaus bij vaders in deelpopulatie B, gebruikmakend van de beschikbare informatie uit deelpopulatie C en D.
  3. Imputeer de ontbrekende opleidingsniveaus bij moeders en vaders in deelpopulatie A, gebruikmakend van de beschikbare informatie uit deelpopulatie B, C en D.

Er blijkt een relatief sterke samenhang te bestaan tussen de opleidingsniveaus van beide ouders van hetzelfde kind. In stap 1 en 2 wordt daarom gebruikgemaakt van het bekende opleidingsniveau van de ene ouder bij het imputeren van het onbekende opleidingsniveau van de andere ouder. In stap 3, bij de deelpopulatie waar beide opleidingsniveaus onbekend zijn, wordt eerst het opleidingsniveau van de moeder geïmputeerd. Vervolgens wordt het opleidingsniveau van de vader geïmputeerd, waarbij rekening wordt gehouden met het geïmputeerde opleidingsniveau van de moeder, zodat de samenhang tussen de twee kenmerken behouden blijft.

De bestaande imputatiemethode maakt gebruik van de volgende modellen voor de drie deelpopulaties C, B en A (een getal tussen haken geeft aan in hoeveel categorieën het betreffende kenmerk is ingedeeld.):

  • Deelpopulatie C (moeders):
    opleidingsniveau vader [8] × (inkomen moeder [4] + herkomstgroepering moeder [8] + leeftijd moeder [5] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [3] + sociaaleconomische categorie moeder [2])
  • Deelpopulatie B (vaders):
    opleidingsniveau moeder [8] × (inkomen vader [4] + herkomstgroepering vader [8] + leeftijd vader [5] + stedelijkheidsgraad buurt [6] + burgerlijke staat vader [3] + sociaaleconomische categorie vader [2])
  • Deelpopulatie A (moeders):
    inkomen moeder [4] × (herkomstgroepering moeder [8] + leeftijd moeder [5] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [3] + sociaaleconomische categorie moeder [2])
  • Deelpopulatie A (vaders):
    hetzelfde model als bij deelpopulatie B

Doel van dit onderzoek is om te bepalen of deze modellen kunnen worden verbeterd door andere kenmerken te kiezen en/of andere indelingen van de bestaande kenmerken te gebruiken. De volgende aanpak is gevolgd, waarbij gebruik is gemaakt van een populatiebestand over 2021:

  • Op inhoudelijke gronden is een voorselectie gemaakt van kenmerken die mogelijk interessant zijn voor het imputeren van opleidingsniveau. Bij sommige kenmerken zijn verschillende mogelijke indelingen voorgesteld. Op basis van een stapsgewijze regressieanalyse is per kenmerk één indeling geselecteerd en zijn de geselecteerde kenmerken gerangschikt in aflopende volgorde van hun voorspelkracht voor opleidingsniveau.
  • Verschillende modellen die gebruikmaken van de geselecteerde kenmerken uit de stapsgewijze regressieanalyse zijn vergeleken in een simulatiestudie. Hierbij zijn extra ontbrekende waarden aangebracht bij ouders met bekende opleidingsniveaus, zodat de kwaliteit van de imputaties kan worden geëvalueerd.
  • Voor een extra validatie is gezocht naar ouders met een onbekend opleidingsniveau in het bestand van 2021 maar een bekend opleidingsniveau in het bestand van 2022. Voor deze ouders zijn de imputaties uit de modellen voor 2021 vergeleken met de waargenomen opleidingsniveaus uit 2022, onder de aanname dat het opleidingsniveau in de tussentijd niet is veranderd.

Kenmerken zijn interessant als hulpvariabele voor het imputeren van opleidingsniveau als ze (sterk) samenhangen met opleidingsniveau en/of een grote kans hebben om opgenomen te worden in het uiteindelijke analysemodel voor onderwijsachterstanden. Kenmerken die aan beide criteria tegelijk voldoen zijn daarbij het meest interessant.

Op basis van bovenstaande overweging en beschikbaarheid van data in het Stelsel van Sociaal-statistische Bestanden (SSB) bij het CBS is de volgende longlist gemaakt van kenmerken om te onderzoeken:

  • opleidingsniveau andere ouder [8*]
  • leeftijd ouder [5*, 8 of in jaren]
  • burgerlijke staat ouder [3* of 4]
  • herkomstgroepering ouder [8*]
  • inkomen ouder [4*, 5, 6, 11, 21 of continu]
  • welvaart huishouden [5, 6, 11 of 21]
  • sociaaleconomische categorie ouder [2* of 13]
  • type economische activiteit werkgever ouder [12]
  • deeltijdfactor werk ouder [5, 6 of 11]
  • stedelijkheidsgraad buurt [6*]
  • leeftijd kind [in jaren]

Een getal tussen haken geeft aan in hoeveel categorieën het betreffende kenmerk is ingedeeld. Een asterisk * geeft aan dat de betreffende indeling is gebruikt in het huidige imputatiemodel.

Selectie van kenmerken
Vervolgens selecteren we met een combinatie van bivariate analyses en een stepwise-procedure de kenmerken die een bijdrage leveren aan het schatten van ontbrekende opleidingsniveaus. Voor moeder en vader apart wordt de bivariate relatie tussen opleidingsniveau en elk kenmerk apart geanalyseerd door een multinomiale logistische regressie te schatten voor opleidingsniveau met één kenmerk tegelijk als voorspeller, voor ouders met bekende opleidingsniveaus. Als evaluatiematen kijken we per model naar de AIC (Agresti, 2013) en naar de verwachte fractie imputaties die exact gelijk zijn aan de juiste categorie (κ0) of daar maximaal één categorie naast zitten (κ1):

$$\begin{align} E\left(\kappa_{0} \right) &= \sum_{l = 1}^{L}\frac{N_{l}}{N}\sum_{c = 1}^{8}p_{lc}^{2},\\ E\left( \kappa_{1} \right) &= E\left( \kappa_{0} \right) + 2\sum_{l = 1}^{L}\frac{N_{l}}{N}\sum_{c = 1}^{7}{p_{lc}}p_{l(c + 1)}. \end{align}$$

Hierbij is L het aantal categorieën van de hulpvariabele; N is het totaal aantal records in de dataset; Nl het aantal records met categorie l op de hulpvariabele; ten slotte is plc de fractie records met categorie l op de hulpvariabele en opleidingsniveau c, als fractie van Nl. Voor een afleiding van de formules voor E(κ0) en E(κ1), zie Scholtus en Pannekoek (2015). Een model past beter bij de data als de AIC lager is en leidt naar verwachting tot betere imputaties als E(κ0) en E(κ1) hoger zijn.

Simulatiestudie
Na de selectie van de kenmerken kunnen we met een simulatie een schatting maken van de mate waarin de modellen met de geselecteerde kenmerken ontbrekende opleidingsniveaus correct voorspellen. De opzet van de simulatiestudie is als volgt:

a. Binnen de groep kinderen voor wie het opleidingsniveau van beide ouders bekend is
verwijderen we steeds willekeurig voor (ongeveer) 5% van de ouders de
waargenomen opleidingsniveaus. (De manier waarop dit gebeurt luistert vrij nauw,
omdat de extra ontbrekende waarden min of meer dezelfde verdeling moeten hebben
als de waarden die in het oorspronkelijke bestand al ontbreken, anders werkt de
imputatiemethode voor deze extra ontbrekende waarden niet goed. Zie de toelichting
hieronder). We herhalen dit voor S=5 simulatieronden.
b. Per simulatieronde voeren we J=10 imputaties uit van alle ouders met onbekende
opleidingsniveaus (inclusief de zojuist verwijderde waarden) met elk van de
geselecteerde modellen. Ter vergelijking passen we daarnaast ook het imputatiemodel
uit de huidige indicator toe (maar wel gebruikmakend van multinomiale logistische
regressie).
c. Per simulatieronde en model berekenen we onderwijsscores [volgens de huidige
regeling zoals beschreven in CBS (2019)] op basis van de tien imputaties voor de
kinderen met ouders met verwijderde opleidingsniveaus en vergelijken deze met de
onderwijsscores die zouden zijn berekend als de opleidingsniveaus niet waren
verwijderd.

Toelichting bij stap (a): om bij het simuleren van nieuwe ontbrekende waarden aan te sluiten bij de werkelijke verdeling van ontbrekende waarden in het Opleidingsniveaubestand wordt de volgende aanpak gevolgd. Bij de moeders worden extra ontbrekende waarden gesimuleerd binnen de personen voor wie het opleidingsniveau (ook) in de EBB is waargenomen, waarbij de kans om te ontbreken per record evenredig is met het gewicht van de moeder uit het Opleidingsniveaubestand. Het achterliggende idee is dat een record met gewicht = w in feite w moeders in de echte populatie representeert, die allemaal hadden kunnen ontbreken. De ontbrekende waarden worden gesimuleerd door eerst een pseudopopulatie te genereren met van elk beschikbaar record w kopieën (afgerond op het dichtstbijzijnde gehele getal) en daaruit een enkelvoudig aselecte steekproef van 5% te trekken. Van alle moeders van wie minimaal één kopie is getrokken in de steekproef wordt het opleidingsniveau ontbrekend gemaakt. Bij de vaders werkt dit analoog. Gemakshalve worden de ontbrekende waarden bij moeders en vaders onafhankelijk van elkaar gesimuleerd.

NB: bij de ontwikkeling van het imputatiemodel voor de oorspronkelijke indicator is een soortgelijke aanpak gevolgd (CBS, 2016), alleen kon daar gebruik worden gemaakt van data uit het COOL-onderzoek, waarin het opleidingsniveau van beide ouders altijd was waargenomen (zij het volgens een andere indeling dan in het Opleidingsniveaubestand). Een simulatiestudie kon daarom worden gedaan door ontbrekende waarden aan te brengen in de COOL-data voor precies die ouders van wie het opleidingsniveau ontbrak in het Opleidingsniveaubestand. Dit leidde vanzelf tot een realistisch patroon van ontbrekende waarden.

We berekenen de volgende evaluatiematen:

  1. Per simulatieronde en model berekenen we de gemiddelde geïmputeerde verdeling van opleidingsniveau bij de ouders met verwijderde opleidingsniveaus en vergelijken deze met de werkelijke verdeling voor deze ouders. Per model berekenen we het gemiddelde en de standaarddeviatie van de afwijking tussen de twee verdelingen (over simulatieronden heen) en zetten deze uit in een plot.
  2. Verder berekenen we per simulatieronde en model de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten (corresponderend met de maten κ0 en κ1, maar nu als gesimuleerde fracties in plaats van de theoretische verwachting). Per model berekenen we het gemiddelde en de standaardfout van deze gemiddelde fracties (over simulatieronden heen). Ook kijken we naar het verschil tussen deze fracties voor elk model ten opzichte van het huidige imputatiemodel, en naar de verschillen tussen opeenvolgende modellen qua complexiteit.
  3. Van de berekende onderwijsscores gebaseerd op de imputaties maken we per model een plot van de verdeling van de gevonden afwijkingen ten opzichte van de scores waarbij opleidingsniveau niet is geïmputeerd.

Bij het berekenen van deze maten maken we onderscheid tussen deelpopulaties waarbij alleen de vader, alleen de moeder, of beide ouders geïmputeerde opleidingsniveaus hebben. Verder bekijken we de maten bij onderdeel 1 ook voor deelpopulaties van kinderen van verschillende leeftijden.

Het imputatiemodel dat gemiddeld de kleinste afwijkingen geeft t.o.v. de situatie zonder verwijderde waarden heeft de voorkeur. Als de resultaten van 1, 2 en 3 niet eenduidig zijn, is een betere prestatie bij 3 in principe belangrijker dan een betere prestatie bij 1 en 2.

Validatiestudie
Voor de validatiestudie maken we gebruik van de verzameling V van ouders voor wie het opleidingsniveau ontbreekt in het bestand van 2021 maar is waargenomen in het bestand van 2022. De aanname hierbij is dat het opleidingsniveau van deze ouders uit het bestand van 2022 een goede proxywaarneming is voor hun opleidingsniveau in 2021.

Dezelfde imputatiemodellen als in de simulatiestudie zijn onderzocht. Voor deze validatiestudie zijn deze modellen toegepast op het bestand van 2021 met de ontbrekende waarden die in werkelijkheid voorkomen in dat bestand. Zoals gebruikelijk worden er J=10 imputaties per persoon gemaakt. Na afloop wordt de kwaliteit van de imputaties geëvalueerd op alleen de deelverzameling V.

Een probleem met deze validatiestudie is dat de deelverzameling V geen representatieve steekproef is uit alle ouders met onbekende opleidingsniveaus in 2021. Uit een verkennende analyse bleek dat dit een selectieve groep ouders is naar een aantal achtergrondkenmerken en dat bovendien de bestaande ophooggewichten uit het Opleidingsniveaubestand van 2021 niet volledig kunnen corrigeren voor deze selectiviteit. Er is daarom, voor de drie deelpopulaties A, B en C apart, een herweging uitgevoerd via lineair wegen (Bethlehem, 2007). Na deze herweging heeft de deelverzameling V voor zowel moeders als vaders exact dezelfde (gewogen) verdeling als de hele populatie voor de volgende kenmerken:

  • opleidingsniveau andere ouder [8] (alleen bij deelpopulaties B en C)
  • inkomen ouder [21]
  • herkomstgroepering ouder [8]
  • type economische activiteit werkgever ouder [12]
  • leeftijd ouder [5]

Deze kenmerken zijn gekozen omdat ze in de stepwise-analyse naar voren kwamen als de kenmerken die het sterkst samenhangen met opleidingsniveau.

We berekenen vergelijkbare evaluatiematen als bij de simulatiestudie:

  1. Per model berekenen we de gemiddelde geïmputeerde verdeling van opleidingsniveau bij de ouders in deelverzameling V en vergelijken deze met de werkelijke verdeling voor deze ouders (zoals waargenomen in 2022). Hierbij wordt rekening gehouden met de gewichten na de herweging die hierboven is beschreven. Per model berekenen we het gemiddelde en de standaardfout van de afwijking tussen de twee verdelingen. Voor het bepalen van de standaardfout is er in dit geval, anders dan bij de simulatiestudie, geen herhaalde simulatie beschikbaar. In plaats daarvan berekenen we de variantieschatting \(\widehat{var}\left( {\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c} \right)\) die wordt afgeleid in Bijlage 3.
  2. Verder berekenen we per model de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten.
  3. Van de berekende onderwijsscores gebaseerd op de imputaties maken we per model een plot van de verdeling van de gevonden afwijkingen ten opzichte van de scores waarbij opleidingsniveau niet is geïmputeerd.

Bij het berekenen van deze maten maken we wederom onderscheid tussen de subgroepen waarbij alleen de vader, alleen de moeder, of beide ouders een geïmputeerd opleidingsniveau hebben. Ook bekijken we de evaluatiematen bij onderdeel 1 wederom voor deelpopulaties van kinderen van verschillende leeftijden.

3.3 Resultaten

3.3.1 Imputatie hulpvariabelen

De resultaten lieten zien dat het gebruik van donorimputatie bij een grote dataset, met het gebruik van veel achtergrondkenmerken aanloopt tegen geheugenproblemen. Zo moet er bij een methode als KNN voor elke persoon met ontbrekende waarden, een afstandsscore worden berekend tot de andere donoren in het bestand. Dit aantal loopt al snel op bij een grote dataset, waardoor een grote hoeveelheid informatie moet worden opgeslagen in het geheugen. Dit zal ook net zoals bij de predictive mean matching invloed kunnen hebben op de snelheid. Voor de huidige toepassing zijn deze methoden daarom minder geschikt.

De beslisboomtechnieken kunnen sneller werken omdat het maar eenmalig toegepast hoeft te worden op de dataset voor de groep donoren. Hierbij bleek een random forest model de snelste methode. Omdat de random forest methode zowel inhoudelijk past bij ons imputatiedoel (het imputeren van categorische en continue variabelen) en de snelste is binnen mice, zijn we verder gegaan met dit model voor de imputatie van de achtergrondkenmerken.

De snelheid van de methoden zijn eerst getest op een willekeurige steekproef van 100.000 uit de populatie bij de moeders en vaders. De volgende stap was het toepassen van het random forest model met mice op de gehele populatie voor de moeders en vaders. De huidige imputatie met mice bestond uit tien iteraties. We hebben daarbij ook getest of tien iteraties noodzakelijk is voor de random forest of dat minder interaties ook volstaat.

Om de imputatie voor burgerlijke staat, persoonlijk inkomen en de sociaal-economische categorie met de nieuwe methode te beoordelen, maken we twee vergelijkingen:

  • We bekijken de stabiliteit van de uitkomsten door telkens per ouder twee datasets te imputeren. Per kenmerk, zoals burgerlijke staat, bekijken we dan per geïmputeerde categorie, hoe deze verdeeld is in de imputaties voor de twee datasets. Op basis van het percentage wat overlapt over de twee imputatieronden, kunnen we dan de stabiliteit beoordelen. Daarnaast kunnen we zien of de categorieën die verschillen, ook inhoudelijk aan elkaar verwant zijn, of overduidelijk verkeerd zijn. Hoe hoger het percentage overlap, hoe stabieler de imputatie is. Voor het persoonlijk inkomen hebben we de imputatie ingedeeld in categorieën om eenzelfde vergelijking te kunnen maken.
  • We bekijken de verschillen tussen de oude methode (mice – pmm) en de nieuwe methode (mice – rf). Dit doen we door de frequentieverdeling van de kenmerken te vergelijken voor en na imputatie. Op persoonsniveau kan de imputatie wel variëren, maar op geaggregeerd niveau zou je verwachten dat de totale verdeling over de categorieën ongeveer gelijk blijft. Daarnaast bekijken we het verschil in de frequentieverdeling voor de oude en nieuwe methode. Hierin wil je vooral een methode die het dichtst bij de verdeling in de originele data blijft. Maar je wilt ook dat de methoden onderling niet sterk afwijken, wat zou aanduiden dat de imputaties niet stabiel zijn over verschillende methoden heen. Ook maken we een vergelijking van de verdeling over de geïmputeerde categorieën tussen de oude en nieuwe methoden, om de stabiliteit te beoordelen.

De resultaten lieten zien dat de random forest methode aanzienlijk sneller is op de totale populatie dan de oude methode. Daarnaast zien we dat de frequentieverdeling stabiel blijft voor de imputatie met zowel één als tien iteraties als over twee imputatieronden heen.

Na de keuze voor het nieuwe model, hebben we het model uitgebreid door extra achtergrondkenmerken toe te voegen aan de imputatie. We bekijken daarbij eerst of we de achtergrondkenmerken van de andere ouder mee kunnen nemen. Omdat de andere ouder niet altijd bekend is, geven we het model ook een kenmerk mee wat aangeeft of de andere ouder wel of niet in de BRP zit. Op deze manier geven we toch extra informatie mee over de groep die wel bekend is en niet bekend is. De kenmerken van die andere ouder die niet bekend is, zullen dan ook ontbreken. In dat geval zal mice ook die ontbrekende waarden imputeren. Omdat de kenmerken voor een groot deel van de andere ouders wel bekend zijn, zal dit toch voldoende informatie kunnen toevoegen om een bijdrage te leveren aan het imputatiemodel.

De resultaten worden weer vergeleken op de stabiliteit en met de methode waarbij alleen de kenmerken van de ouder zelf worden meegenomen. Hierin zien we een verbetering van het percentage overlap. Daarnaast zijn de categorieën die niet overlappen nu vaker inhoudelijk aan elkaar verwant dan voorheen.

Tot slot hebben we ook nog onderzocht of we het imputatiemodel nog kunnen uitbreiden met het opleidingsniveau van de ouder en/of andere ouder. In de gevallen dat we deze informatie wel hebben, kan dit ook weer een toegevoegde bijdrage leveren aan het imputatiemodel. De ontbrekende waarden zullen ook automatisch geïmputeerd worden door mice. Ook deze resultaten lieten zien dat de stabiliteit verbeterde na het toevoegen van het opleidingsniveau.

Voor de variabele burgerlijke staat van de moeder hebben we het totale effect geïllustreerd in de figuren 3.3.1. (huidige situatie) en 3.3.2 (implementatie alle beschreven wijzigingen). In de huidige situatie wordt in 2 opvolgende imputaties ongeveer 43 procent dezelfde waarde geïmputeerd. Na het toepassen van alle verbeteringen stijgt dit tot 67 procent. Voor de variabele burgerlijke staat was de verbetering van de stabiliteit het sterkst. Bij de overige variabelen was de verbetering minder sterk. Bij geen van de variabelen trad een verslechtering op.

3.3.1_Vergelijking_imputatie_huidig_burg_staat_moeder

3.3.2._Vergelijking_imputatie_oplniv_Burg_staat_moeder

3.3.2 Regressiemethodiek opleidingsniveau

Beide imputatiemodellen (multinomiale en continuation-ratio logistische regressie) zijn toegepast op hetzelfde bestand, namelijk het bestand waarmee de indicator voor 2022 is geproduceerd. Er is gekeken naar de volgende uitkomstmaten:

a. gemiddelde en standaarddeviatie (over 10 imputatieronden) van de verdeling van
opleidingsniveau vader of moeder na imputatie;
b. verdeling van onderwijsscores berekend op basis van geïmputeerde data;
c. verdeling verschillen tussen onderwijsscores berekend op basis van geïmputeerde data
met verschillende methoden:
correlatie;
heatmap van verschillen tussen scores (naar beneden afgerond op geheel getal);
staafdiagram van grootte van verschillen tussen scores.

De uitkomstmaten bij (b) en (c) zijn zowel berekend op alle data als op alleen de data van kinderen bij wie het opleidingsniveau van ten minste één ouder wordt geïmputeerd. Verder is, ter vergelijking, de huidige methode (op basis van continuation-ratio logistische regressie) twee keer onafhankelijk toegepast.
Bij alle uitkomstmaten was de conclusie steeds dat de verschillen die we zien tussen de twee verschillende modellen van een vergelijkbare omvang zijn als die bij herhaalde toepassing van het huidige model. Dat wil zeggen: veranderen van imputatiemethode leidt tot verschillen in de geïmputeerde waarden die niet groter zijn dan wat men zou zien als de huidige imputatiemethode twee keer onafhankelijk wordt uitgevoerd. In dit opzicht zou het overstappen op multinomiale logistische regressie een kleine impact hebben op de resultaten: de verschillen vallen binnen de ‘normale imputatieruis’ van de bestaande methode.

Verder was te zien dat de verdelingen na imputatie bij multinomiale logistische regressie niet systematisch afwijken van de verdeling bij continuation-ratio logistische regressie. Met name bij de moeders was te zien dat de relatief grootste afwijkingen voorkomen bij de hoogste opleidingsniveaus. Vanwege de manier waarop het continuation-ratio-model geschat wordt, is het aannemelijk dat de imputaties voor hogere opleidingsniveaus bij dit model minder nauwkeurig zijn dan de imputaties voor lagere opleidingsniveaus. Dat de verschillen tussen de methoden relatief groot waren bij de hoogste opleidingsniveaus is plausibel in het licht van deze aanname. Dit zou bovendien een aanwijzing kunnen zijn dat de imputaties bij multinomiale logistische regressie voor de hoogste opleidingsniveaus nauwkeuriger zijn dan bij de huidige methode.

3.3.3 Imputatie opleidingsniveau

Selectie van achtergrondkenmerken
Deze analyse is eenmaal uitgevoerd voor alle vaders of moeders met bekende opleidingsniveaus en eenmaal voor alleen de ouderparen met beide opleidingsniveaus bekend. Het kenmerk ‘opleidingsniveau andere ouder’ is alleen meegenomen bij deze tweede groep. Deze tweede analyse is relevant voor het imputeren van onbekende waarden als het opleidingsniveau van de andere ouder beschikbaar is, de eerste analyse is relevant voor het imputeren als beide opleidingsniveaus onbekend zijn. De uiteindelijk gekozen imputatiemodellen mogen voor beide situaties verschillen.

Tabel 3.3.3 en 3.3.4 tonen de uitkomsten van de analyses voor de eerste groep, tabel 3.3.5 en 3.3.6 voor de tweede groep. Kenmerken/indelingen die gemarkeerd zijn, zijn behouden voor het vervolg (de stepwise-analyse). De niet-gekozen indelingen leidden niet tot een duidelijke verbetering ten opzichte van de gekozen indelingen. Het enige kenmerk dat in deze fase geheel is afgevallen is de leeftijd van het kind, aangezien dit kenmerk geen meerwaarde bleek te hebben boven de leeftijd van de ouder zelf.

3.3.3 Uitkomsten bivariate analyses voor opleidingsniveau moeder in de deelpopulatie moeders met een bekend opleidingsniveau
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante14906983,60,16230,3793
Leeftijd moeder [5*]S14740694,60,16810,3882
Leeftijd moeder [8]14725961,80,16860,3884
Leeftijd moeder [in jaren]14816131,00,16500,3818
Burgerlijke staat moeder [3*]14826593,60,16490,3840
Burgerlijke staat moeder [4]S14824399,40,16500,3841
Herkomstgroepering moeder [8*]S14322913,10,18310,4083
Inkomen moeder [4*]S13488710,10,21400,4755
Inkomen moeder [5]13470075,00,21560,4753
Inkomen moeder [6]S13346684,30,22150,4826
Inkomen moeder [11]S13227184,00,22770,4887
Inkomen moeder [21]S13172711,10,23060,4919
Inkomen moeder [continu]13516276,90,21420,4713
Welvaart huishouden [5]S14041453,80,19440,4371
Welvaart huishouden [6]14012920,90,19560,4386
Welvaart huishouden [11]S13967297,80,19750,4411
Welvaart huishouden [21]S13919176,50,19920,4442
Sociaaleconomische categorie moeder [2*]S14359812,60,18020,4122
Sociaaleconomische categorie moeder [13]S14149862,20,18870,4249
Type economische activiteit werkgever
moeder [12]S14057107,10,19010,4290
Deeltijdfactor werk moeder [5]S14147939,00,18840,4255
Deeltijdfactor werk moeder [6]14152732,20,18820,4246
Deeltijdfactor werk moeder [11]S14128718,60,18920,4259
Stedelijkheidsgraad buurt [6*]S14789235,70,16620,3824
Leeftijd kind [in jaren]14755577,20,16680,3851

3.3.4 Uitkomsten bivariate analyses voor opleidingsniveau vader in de deelpopulatie vaders met een bekend opleidingsniveau
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante13181728,00,16140,3851
Leeftijd vader [5*]S13053641,00,16720,3942
Leeftijd vader [8]13040331,40,16770,3946
Leeftijd vader [in jaren]13088529,70,16500,3902
Burgerlijke staat vader [3*]13140265,50,16300,3881
Burgerlijke staat vader [4]S13139959,50,16300,3882
Herkomstgroepering vader [8*]S12715446,40,17850,4128
Inkomen vader [4*]S11968938,20,21120,4798
Inkomen vader [5]12364547,40,19370,4469
Inkomen vader [6]S12181841,10,20200,4637
Inkomen vader [11]S11926443,50,21340,4834
Inkomen vader [21]S11840266,80,21830,4879
Inkomen vader [continu]12083656,50,20510,4679
Welvaart huishouden [5]S12454769,00,19190,4399
Welvaart huishouden [6]12425657,80,19330,4417
Welvaart huishouden [11]S12375915,10,19580,4446
Welvaart huishouden [21]S12332717,60,19780,4477
Sociaaleconomische categorie vader [2*]S12919262,80,17110,4029
Sociaaleconomische categorie vader [13]S12746566,20,17880,4146
Type economische activiteit werkgever
vader [12]S12305263,20,19690,4521
Deeltijdfactor werk vader [5]S12883572,90,17210,4042
Deeltijdfactor werk vader [6]12891954,70,17190,4036
Deeltijdfactor werk vader [11]S12877831,30,17250,4048
Stedelijkheidsgraad buurt [6*]S13063363,00,16600,3884
Leeftijd kind [in jaren]13148700,40,16240,3862

3.3.5 Uitkomsten bivariate analyses voor opleidingsniveau moeder in de deelpopulatie ouderparen met beide opleidingsniveaus bekend
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante10681952,80,17190,3954
Opleidingsniveau vader [8*]S9397405,20,24320,5126
Leeftijd moeder [5*]S10523154,20,17980,4082
Leeftijd moeder [8]10512707,80,18030,4085
Leeftijd moeder [in jaren]10594659,00,17560,3998
Burgerlijke staat moeder [3*]10629956,80,17410,3992
Burgerlijke staat moeder [4]S10629794,30,17410,3992
Herkomstgroepering moeder [8*]S10267050,50,19110,4227
Inkomen moeder [4*]S9579981,50,22840,4969
Inkomen moeder [5]9564547,10,23040,4967
Inkomen moeder [6]S9475028,10,23670,5035
Inkomen moeder [11]S9388746,30,24320,5091
Inkomen moeder [21]S9348504,20,24610,5122
Inkomen moeder [continu]9603157,80,22850,4920
Welvaart huishouden [5]S9966883,30,20910,4608
Welvaart huishouden [6]9942577,60,21060,4625
Welvaart huishouden [11]S9904527,90,21280,4654
Welvaart huishouden [21]S9869388,90,21460,4685
Sociaaleconomische categorie moeder [2*]S10271129,60,18960,4281
Sociaaleconomische categorie moeder [13]S10121420,90,19840,4408
Type economische activiteit werkgever
moeder [12]S10053796,60,19960,4454
Deeltijdfactor werk moeder [5]S10102008,10,19910,4430
Deeltijdfactor werk moeder [6]10107260,10,19880,4418
Deeltijdfactor werk moeder [11]S10086733,40,20020,4433
Stedelijkheidsgraad buurt [6*]S10595742,00,17580,3985
Leeftijd kind [in jaren]10573179,10,17590,4004

3.3.6 Uitkomsten bivariate analyses voor opleidingsniveau vader in de deelpopulatie ouderparen met beide opleidingsniveaus bekend
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante10830481,90,16320,3873
Opleidingsniveau moeder [8*]S9545934,30,23270,5016
Leeftijd vader [5*]S10694950,80,17060,3991
Leeftijd vader [8]10685288,60,17110,3995
Leeftijd vader [in jaren]10731134,60,16800,3941
Burgerlijke staat vader [3*]10788264,10,16530,3909
Burgerlijke staat vader [4]S10788234,60,16530,3910
Herkomstgroepering vader [8*]S10453133,60,17970,4143
Inkomen vader [4*]S9807622,10,21490,4841
Inkomen vader [5]10129236,40,19700,4519
Inkomen vader [6]S9979488,60,20540,4687
Inkomen vader [11]S9769592,20,21710,4881
Inkomen vader [21]S9697800,10,22240,4927
Inkomen vader [continu]9894364,50,20920,4730
Welvaart huishouden [5]S10166966,80,19760,4485
Welvaart huishouden [6]10141294,60,19920,4504
Welvaart huishouden [11]S10099224,30,20190,4534
Welvaart huishouden [21]S10063916,30,20380,4564
Sociaaleconomische categorie vader [2*]S10598106,30,17350,4063
Sociaaleconomische categorie vader [13]S10458999,00,18100,4178
Type economische activiteit werkgever
vader [12]S10081898,50,20040,4571
Deeltijdfactor werk vader [5]S10566704,60,17460,4077
Deeltijdfactor werk vader [6]10573936,60,17430,4072
Deeltijdfactor werk vader [11]S10560012,50,17500,4085
Stedelijkheidsgraad buurt [6*]S10731617,00,16790,3908
Leeftijd kind [in jaren]10790578,00,16470,3890

Vervolgens is, voor moeder en vader apart, een forward stepwise-analyse uitgevoerd, wederom op basis van alleen de ouders met bekende opleidingsniveaus, met de geselecteerde kenmerken (een S in de kolom ‘selectie’) uit tabel 3.3.3 tot en met 3.3.6 als mogelijke hulpvariabelen om uit te kiezen. Tijdens deze analyse worden multinomiale logistische regressiemodellen geschat. In elke ronde wordt steeds het kenmerk toegevoegd dat leidt tot de grootste verbetering van de AIC-waarde, totdat er geen verbetering in AIC-waarde meer optreedt. Om de rekentijd te beperken zijn in deze analyse alleen de ouders meegenomen voor wie het opleidingsniveau in de EBB is waargenomen, terwijl bij het schatten van de modellen rekening is gehouden met de ophooggewichten uit het Opleidingsniveaubestand.

Ook deze analyse is tweemaal uitgevoerd: eenmaal voor alle vaders of moeders met bekende opleidingsniveaus en eenmaal voor alleen de ouderparen met beide opleidingsniveaus bekend, waarbij voor die laatste groep ook het kenmerk ‘opleidingsniveau andere ouder’ is meegenomen. Tabel 3.3.7 en 3.3.8 tonen de uitkomsten voor de eerste groep, tabel 3.3.9 en 3.3.10 voor de tweede groep.

3.3.7 Uitkomsten stepwise-analyse voor opleidingsniveau moeder in de deelpopulatie moeders met een bekend opleidingsniveau (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante76246197,7
21 + inkomen moeder [21]1405860071,2
32 + herkomstgroepering moeder [8*]495560602,4
43 + type economische activiteit werkgever moeder [12]775475840,0
54 + welvaart huishouden [21]1405439609,6
65 + leeftijd moeder [5*]285411758,9
76 + sociaaleconomische categorie moeder [13]845391979,0
87 + deeltijdfactor werk moeder [11]635374429,2
98 + stedelijkheidsgraad buurt [6*]355357229,0
109 + burgerlijke staat moeder [4]215352360,2
1110 + inkomen moeder [4*]215348643,3
1211 + deeltijdfactor werk moeder [5]145348159,1

3.3.8 Uitkomsten stepwise-analyse voor opleidingsniveau vader in de deelpopulatie vaders met een bekend opleidingsniveau (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante76902311,9
21 + inkomen vader [21]1406559602,7
32 + herkomstgroepering vader [8*]496329333,3
43 + type economische activiteit werkgever vader [12]776135087,0
54 + leeftijd vader [5*]286085007,3
65 + welvaart huishouden [21]1406053999,5
76 + sociaaleconomische categorie vader [13]776027150,2
87 + stedelijkheidsgraad buurt [6*]356002161,8
98 + deeltijdfactor werk vader [11]635987212,4
109 + inkomen vader [4*]215979859,2
1110 + burgerlijke staat vader [4]215977025,6
1211 + deeltijdfactor werk vader [5]145976284,2

3.3.9 Uitkomsten stepwise-analyse voor opleidingsniveau moeder in de deelpopulatie ouderparen met beide opleidingsniveaus bekend (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante75490300,0
21 + opleidingsniveau vader [8*]495146998,2
32 + inkomen moeder [21]1404884665,2
43 + herkomstgroepering moeder [8*]494692281,5
54 + type economische activiteit werkgever moeder [12]774634321,3
65 + leeftijd moeder [5*]284606179,7
76 + welvaart huishouden [21]1404588531,4
87 + deeltijdfactor werk moeder [11]634575446,2
98 + sociaaleconomische categorie moeder [13]704563273,1
109 + stedelijkheidsgraad buurt [6*]354554583,7
1110 + inkomen moeder [4*]214552206,9
1211 + burgerlijke staat moeder [4]214549987,4
1312 + deeltijdfactor werk moeder [5]144549384,4

3.3.10 Uitkomsten stepwise-analyse voor opleidingsniveau vader in de deelpopulatie ouderparen met beide opleidingsniveaus bekend (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante76377786,2
21 + opleidingsniveau moeder [8*]495985374,1
32 + inkomen vader [21]1405745312,3
43 + type economische activiteit werkgever vader [12]775596804,9
54 + herkomstgroepering vader [8*]495472270,9
65 + leeftijd vader [5*]285420651,1
76 + sociaaleconomische categorie vader [13]775398554,1
87 + stedelijkheidsgraad buurt [6*]355382453,1
98 + welvaart huishouden [21]1405368744,6
109 + deeltijdfactor werk vader [11]635359711,5
1110 + inkomen vader [4*]215354488,6
1211 + burgerlijke staat vader [4]215350848,4
1312 + deeltijdfactor werk vader [5]145350239,3

De resultaten in tabellen 3.3.9 en 3.3.10 bevestigen dat het opleidingsniveau van de andere ouder, indien beschikbaar, het beste kenmerk is om opleidingsniveau te modelleren (zoals was aangenomen in de huidige imputatiemethode). Het inkomen van de ouder zelf is het kenmerk dat daarna de meeste voorspelkracht heeft.

Op basis van de uitkomsten van de stepwise-analyses is besloten om de volgende modellen te testen in een verdere simulatie- en validatiestudie. Per deelpopulatie worden hieronder het kleinste en grootste model weergegeven dat is getest. Alle tussenliggende modellen waarbij steeds één extra term wordt toegevoegd, in de volgorde uit de stepwise-analyse, zijn ook getest.

  • Deelpopulatie C (moeders):
    • KLEINSTE MODEL:
      opleidingsniveau vader [8] × (inkomen moeder [21])
    • GROOTSTE MODEL:
      opleidingsniveau moeder [8] × (inkomen vader [21] + type economische activiteit werkgever vader [12] + herkomstgroepering vader [8] + leeftijd vader [5] + sociaaleconomische categorie vader [13] + stedelijkheidsgraad buurt [6] + welvaart huishouden [21] + deeltijdfactor werk vader [11] + burgerlijke staat vader [4] + deeltijdfactor werk vader [5])
  • Deelpopulatie B (vaders):
    • KLEINSTE MODEL:
      opleidingsniveau moeder [8] × (inkomen vader [21])
    • GROOTSTE MODEL:
      opleidingsniveau moeder [8] × (inkomen vader [21] + type economische activiteit werkgever vader [12] + herkomstgroepering vader [8] + leeftijd vader [5] + sociaaleconomische categorie vader [13] + stedelijkheidsgraad buurt [6] + welvaart huishouden [21] + deeltijdfactor werk vader [11] + burgerlijke staat vader [4] + deeltijdfactor werk vader [5])
  • Deelpopulatie A (moeders):
    • KLEINSTE MODEL:
      inkomen moeder [21] × (herkomstgroepering moeder [8])
    • GROOTSTE MODEL:
      inkomen moeder [21] × (herkomstgroepering moeder [8] + type economische activiteit werkgever moeder [12] + welvaart huishouden [21] + leeftijd moeder [5] + sociaaleconomische categorie moeder [13] + deeltijdfactor werk moeder [11] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [4] + deeltijdfactor werk moeder [5])
  • Deelpopulatie A (vaders):
    dezelfde modellen als bij deelpopulatie B

Simulatiestudie
De figuren 3.3.11 en 3.3.12 tonen het verschil tussen de geïmputeerde verdeling en echte verdeling van het opleidingsniveau van de moeder. In de kolommen is onderscheid gemaakt tussen de situatie waarbij alleen opleidingsniveau van de moeder wordt geïmputeerd (3.3.11) en waarbij opleidingsniveau van beide ouders wordt geïmputeerd (3.3.12). Elk punt vertegenwoordigt een imputatiemodel, waarbij model 1 het meest eenvoudige model is en model 10 het meest uitgebreide model. De foutenbalk rond een punt is gebaseerd op de spreiding over de simulatieronden heen. Dat de spreiding groter is bij de groep met beide opleidingsniveaus onbekend komt vooral doordat de steekproefomvang bij deze groep relatief klein is, vanwege de manier waarop de aanvullende ontbrekende waarden zijn gesimuleerd.

3_3_11_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_ma_onb

3_3_12_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_beide_onb

De geschatte verdelingen op basis van de verschillende imputatiemodellen liggen niet ver uit elkaar. Specifiek voor de uitsplitsing naar leeftijd van het kind is een duidelijke verbetering te zien op het moment dat de leeftijd van de moeder wordt opgenomen in het model (model 4 versus model 3). Daarna blijven de uitkomsten redelijk stabiel. De figuren 3.3.13 en 3.3.14 tonen vergelijkbare uitkomsten voor het imputeren van het opleidingsniveau van de vader.

3_3_13_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_pa_onb

3_3_14_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_beide_onb

Tabel 3.3.15 tot en met 3.3.18 tonen uitkomsten met betrekking tot de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten (κ0 en κ1). Tabel 3.3.15 gaat over de maat κ0 voor imputaties bij moeders. De derde kolom toont de gemiddelde waarde van κ0 over simulatieronden heen. De vierde kolom toont het verschil tussen de gemiddelde κ0 bij een bepaald model en het huidige model; de zesde kolom toont het verschil tussen de gemiddelde κ0 bij een bepaald model en het direct voorafgaande model qua complexiteit. In de kolommen vijf en zeven zijn waarden met een ‘S’gemarkeerd als zij positief zijn en minimaal twee keer zo groot als de bijbehorende standaardfout over simulatieronden heen. Dat wil zeggen: een gemakeerde waarde in de vierde of zesde kolom geeft aan dat een bepaald model een significante verbetering geeft ten opzichte van het huidige model of het voorafgaande model qua complexiteit. De tabellen 3.3.16, 3.3.17 en 3.3.18 zijn op dezelfde manier opgebouwd. Te zien is dat alle voldoende complexe modellen een significante verbetering in κ0 en κ1 laten zien ten opzichte van het huidige model, zowel bij moeders als bij vaders. De meest complexe modellen geven echter geen significante verbetering meer ten opzichte van de voorafgaande, iets minder complexe modellen.

Afgaand op dit laatste criterium lijkt bij moeders model 7 een goed compromis te zijn tussen complexiteit van het model en nauwkeurigheid van de imputaties als het opleidingsniveau van beide ouders onbekend is. Als het opleidingsniveau van de vader wel bekend is scoren model 8 en 9 nog iets beter met betrekking tot maat κ0 (wel significant) en maat κ1 (niet significant). Bij vaders zijn de resultaten minder eenduidig. Hier lijkt model 8 een redelijk compromis als het opleidingsniveau van de moeder wel bekend is. Als het opleidingsniveau van de moeder niet bekend is, treedt nog wel een duidelijke verbetering op tot en met model 7, al is deze verbetering niet altijd statistisch significant.

3.3.15 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (κ0) voor moeders
Deel-populatie1)κ0 (gem.)Δκ0 huidig (gem.)Signifi-cantie2)Δκ0
cumulatief (gem.)
Signifi-cantie2)
C huidig0,2426
C10,2327-0,0099
C20,2422-0,00040,0095S
C30,25050,0079S0,0083S
C40,25520,0125S0,0046S
C50,25760,0149S0,0024S
C60,25930,0167S0,0017S
C70,26120,0186S0,0019S
C80,26260,0200S0,0014S
C90,26370,0211S0,0011S
C100,26290,0203S-0,0008
A huidig0,2123
A10,21340,0012
A20,22370,0114S0,0102S
A30,22880,0165S0,0051S
A40,23390,0217S0,0051S
A50,23990,0276S0,0060S
A60,24640,0342S0,0065S
A70,24910,0369S0,0027S
A80,25030,0381S0,0012
A90,25040,0381S0,0001 
1) C = alleen moeder onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan.
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

3.3.16 Uitkomsten met betrekking tot fractie imputaties maximaal één categorie naast de juiste categorie (κ1) voor moeders
Deel-populatie1)κ1 (gem.)Δκ1 huidig (gem.)Signifi-cantie2)Δκ1
cumulatief (gem.)
Signifi-cantie2)
C huidig0,5331
C10,5219-0,0111
C20,5304-0,00270,0085S
C30,53970,0067S0,0094S
C40,54510,0121S0,0054S
C50,54790,0148S0,0027S
C60,55070,0177S0,0029S
C70,55410,0210S0,0033S
C80,55490,0218S0,0008
C90,55590,0228S0,0010
C100,55580,0227S-0,0001
A huidig0,4864
A10,4860-0,0004
A20,49470,0082S0,0087
A30,50110,0147S0,0065S
A40,50920,0228S0,0081S
A50,51670,0303S0,0075S
A60,52320,0368S0,0066S
A70,52960,0432S0,0064S
A80,52920,0428S-0,0004
A90,53200,0456S0,0027
A100,52840,0420S-0,0035 
1) C = alleen moeder onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan. 
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

3.3.17 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (κ0) voor vaders
Deel-populatie1)κ0 (gem.)Δκ0 huidig (gem.)Signifi-cantie2)Δκ0
cumulatief (gem.)
Signifi-cantie2)
B huidig0,2350
B10,2238-0,0112
B20,23980,0048S0,0160
B30,24630,0114S0,0066
B40,24960,0146S0,0032
B50,25090,0159S0,0013
B60,25390,0189S0,0030
B70,25490,0200S0,0010
B80,25670,0218S0,0018
B90,25650,0215S-0,0002
B100,25740,0224S0,0009
A huidig0,2132
A10,1984-0,0148
A20,21900,0057S0,0205
A30,23220,0189S0,0132
A40,23520,0220S0,0031
A50,23880,0256S0,0036
A60,23740,0242S-0,0014
A70,24090,0276S0,0035
A80,24010,0269S-0,0008
A90,24150,0282S0,0014
A100,23830,0251S-0,0031 
1) B = alleen vader onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan.
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

3.3.18 Uitkomsten met betrekking tot fractie imputaties maximaal één categorie naast de juiste categorie (κ1) voor vaders
Deel-populatie1)κ1 (gem.)Δκ1 huidig (gem.)Signifi-cantie2)Δκ1
cumulatief (gem.)
Signifi-cantie2)
B huidig0,4948
B10,4837-0,0110
B20,50680,0121S0,0231S
B30,51160,0169S0,0048S
B40,51590,0212S0,0043S
B70,52080,0261S0,0011S
B80,52290,0281S0,0020S
B90,52330,0286S0,0005
B100,52340,0286S0,0001
A huidig0,4574
A10,4410-0,0164
A20,46940,0120S0,0284S
A30,48020,0229S0,0109S
A40,48840,0310S0,0082S
A50,49050,0332S0,0021
A60,49080,0334S0,0002
A70,49340,0360S0,0026
A80,49180,0345S-0,0015
A90,49420,0369S0,0024
A100,49200,0346S-0,0022 
1) B = alleen vader onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan.
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

Tabel 3.3.19 toont per model en per deelpopulatie de vertekening en de wortel van de gemiddelde kwadratische afwijking (RMSE) van de onderwijsscores op basis van geïmputeerde opleidingsniveaus. Hierbij is de vertekening gedefinieerd als het gemiddelde verschil tussen de scores op basis van imputaties en op basis van echte waarden, en de RMSE als de standaarddeviatie van dit verschil tussen scores. Een imputatiemodel werkt beter naarmate de vertekening en RMSE dichter bij 0 liggen. Te zien is dat voor alle drie de deelpopulaties de meest complexe modellen leidden tot de kleinste (absolute) vertekening en ook de kleinste RMSE. De uitkomsten voor modellen 7 t/m 10 liggen steeds dicht bij elkaar.

3.3.19 Verschillen tussen onderwijsscores berekend op basis van geïmputeerde en echte opleidingsniveaus: vertekening en RMSE per imputatiemodel
deelpopulatiemodelvertekeningRMSE
alleen moeder onbekend (C)huidig-0,15882,4113
1-0,34852,3904
2-0,31932,3914
3-0,32222,3709
4-0,14352,3752
5-0,14302,3649
6-0,13742,3553
7-0,13552,3465
8-0,14082,3457
9-0,13282,3397
10-0,13392,3349
alleen vader onbekend (B)huidig-0,01281,9888
10,03232,0168
20,00111,9354
30,02011,9319
4-0,00871,9104
5-0,01381,9067
6-0,01741,903
7-0,02261,8989
8-0,01431,8903
9-0,01541,8875
10-0,01701,8879
beide onbekend (A)huidig-0,34724,2333
1-0,59544,285
2-0,59194,1013
3-0,55854,1229
4-0,34534,0584
5-0,37563,9713
6-0,33733,9398
7-0,30833,9218
8-0,35173,932
9-0,33323,9141
10-0,32953,9035

Validatiestudie
Figuren 3.3.20 tot en met 3.3.23 tonen de verschillen tussen de geschatte verdeling van opleidingsniveau voor moeders en vaders op basis van de geïmputeerde waarden en de waargenomen waarden uit 2022 (als proxy voor de echte waarden in 2021). De opbouw van deze figuren is hetzelfde als bij de figuren 3.3.11 tot en met 3.3.14, alleen is de foutenbalk nu gebaseerd op de variantiebenadering uit Bijlage 3.

3_3_20_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_ma_onb

3_3_21_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_beide_onb

In vergelijking met de simulatiestudie zijn nu iets grotere afwijkingen te zien. Net als in de simulatiestudie, zijn de uitkomsten van de verschillende imputatiemodellen redelijk vergelijkbaar, in elk geval vanaf het moment dat de leeftijd van de ouder is opgenomen in het model (model 4).

3_3_22_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_pa_onb

3_3_23_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_beide_onb

Tabel 3.3.24 en 3.3.25 laten uitkomsten zien over κ0 en κ1, de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten, voor moeders (tabel 3.3.24) en vaders (tabel 3.3.25). Bij de meest complexe modellen is een kleine verbetering in κ0 en κ1 te zien ten opzichte van het huidige imputatiemodel. De verschillen tussen de meest complexe modellen onderling zijn echter klein en het meest complexe model scoort niet per se het beste. De ‘beste’ modellen die bij de resultaten van de simulatiestudie zijn voorgesteld als compromis lijken ook op basis van de resultaten in de tabellen 3.3.24 en 3.3.25 een redelijke keuze.

3.3.24 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (K0) of maximaal één categorie naast de juiste categorie (K1) voor moeders
deelpopulatiemodel
κ0 κ1
alleen moeder onbekend (C)huidig0,22110,4923
10,20570,4674
20,21560,4825
30,21990,4897
40,22590,4926
50,23140,5032
60,22210,4880
70,23460,5000
80,23280,5018
90,23460,5003
100,22620,5020
beide onbekend (A)huidig0,20490,4719
10,19930,4543
20,20740,4689
30,20350,4641
40,20250,4663
50,21050,4795
60,21940,4953
70,22690,5010
80,21640,4906
90,21670,4924
100,22330,4990

3.3.25 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (κ0) of maximaal één categorie naast de juiste categorie (κ1) voor vaders
deelpopulatiemodel
κ0κ1
alleen vader onbekend (B)huidig0,20330,4481
10,19200,4347
20,20520,4627
30,20490,4600
40,21490,4603
50,21520,4655
60,21630,4704
70,22730,4807
80,22490,4880
90,21950,4757
100,21910,4737
beide onbekend (A)huidig0,19660,4277
10,18230,4173
20,18620,4263
30,20500,4392
40,21100,4454
50,20690,4484
60,21410,4564
70,21640,4548
80,20960,4503
90,21020,4567
100,21460,4600

Tabel 3.3.26 toont de vertekening en RMSE, op dezelfde manier als eerder in tabel 3.3.19. Ook hier zijn de conclusies hetzelfde als bij de simulatiestudie. De uitkomsten voor modellen 7 t/m 10 liggen steeds dicht bij elkaar.

3.3.26 Verschillen tussen onderwijsscores berekend op basis van geïmputeerde en ‘echte’ (d.w.z. 2022) opleidingsniveaus: vertekening en RMSE per imputatiemodel
deelpopulatiemodelvertekeningRMSE
alleen moeder onbekend (C)huidig0,90612,6337
10,69672,5924
20,76772,5953
30,71502,6246
40,82812,6388
50,81602,6106
60,84632,6036
70,84592,5987
80,86932,5791
90,86072,5856
100,87122,5944
alleen vader onbekend (B)huidig0,38242,1936
10,50552,2453
20,50562,1810
30,45772,1933
40,45412,1978
50,47172,1961
60,44442,1752
70,45422,1910
80,48172,1846
90,46292,1830
100,46282,1879
beide onbekend (A)huidig0,71782,8088
10,61552,8126
20,62302,7719
30,62982,7838
40,71362,7951
50,72842,7566
60,70482,7127
70,70222,7226
80,71952,7217
90,71882,7299
100,70712,7115

3.4 Conclusies

Imputatie hulpvariabelen

Voor de imputatie van de achtergrondkenmerken, die uiteindelijk gebruikt zullen worden voor de imputatie van het opleidingsniveau, stellen we een nieuwe methode voor. Ten eerste zullen we de methode versnellen en beter passend maken bij de kenmerken door een random forest model te gebruiken met het mice package. Ten tweede breiden we de kenmerken uit door ook de kenmerken van de andere ouder mee te nemen. Tot slot voegen we ook nog kenmerken toe met betrekking tot het opleidingsniveau van de ouders waar deze wel bekend is. De aanpassingen laten zien dat de imputaties stabieler worden en in totaal een frequentieverdeling hebben voor de kenmerken die aansluit bij de originele dataset met ontbrekende waarden.

Regressiemethodiek opleidingsniveau

De uitkomsten van de analyse hebben laten zien dat de verschillen vallen binnen de ‘normale imputatieruis’ van de bestaande methode. Omdat bij multinomiale logistische regressie minder maatwerk nodig is in de programmatuur en meer gebruik kan worden gemaakt van standaard beschikbare programmatuur is het aan te bevelen om in de toekomst multinomiale logistische regressie te gebruiken voor het imputeren van opleidingsniveaus voor gebruik bij de risico-indicator onderwijsachterstanden.

Imputatie opleidingsniveau

Afgaand op de simulatiestudie en validatiestudie lijken de imputatiemodellen 7 t/m 10 voor moeders en vaders de beste resultaten te geven, waarbij de resultaten voor deze modellen onderling van vergelijkbare kwaliteit zijn. Met name op basis van de conclusies die zijn getrokken uit tabellen 3.3.15 t/m 3.3.18 stellen we voor om de volgende modellen te kiezen:

  • Deelpopulatie C (moeders) – model 9:
    opleidingsniveau vader [8] × (inkomen moeder [21] + herkomstgroepering moeder [8] + type economische activiteit werkgever moeder [12] + leeftijd moeder [5] + welvaart huishouden [21] + deeltijdfactor werk moeder [11] + sociaaleconomische categorie moeder [13] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [4])
  • Deelpopulatie B (vaders) – model 8:
    opleidingsniveau moeder [8] × (inkomen vader [21] + type economische activiteit werkgever vader [12] + herkomstgroepering vader [8] + leeftijd vader [5] + sociaaleconomische categorie vader [13] + stedelijkheidsgraad buurt [6] + welvaart huishouden [21] + deeltijdfactor werk vader [11])
  • Deelpopulatie A (moeders) – model 7:
    inkomen moeder [21] × (herkomstgroepering moeder [8] + type economische activiteit werkgever moeder [12] + welvaart huishouden [21] + leeftijd moeder [5] + sociaaleconomische categorie moeder [13] + deeltijdfactor werk moeder [11] + stedelijkheidsgraad buurt [6])
  • Deelpopulatie A (vaders):
    hetzelfde model als bij deelpopulatie B

(NB: voor vaders in deelpopulatie A is het eerder geïmputeerde opleidingsniveau van de moeder beschikbaar als kenmerk voor het imputatiemodel. Daarom kan voor de vaders in deelpopulatie A hetzelfde imputatiemodel worden gebruikt als in deelpopulatie B).

5) Zie paragraaf 4.5 van de plausibiliteitsanalyses van achterstandsscores van peildatum 1 oktober 2021.