Onderzoek herijking risico-indicator onderwijsachterstanden – fase 1

Over deze publicatie

Om onderwijsachterstanden in het primair onderwijs (po) te verminderen kent het ministerie van Onderwijs, Cultuur en Wetenschap (OCW) extra middelen toe aan scholen en gemeenten. Het ministerie verdeelt deze middelen aan de hand van de door het Centraal Bureau voor de Statistiek (CBS) ontwikkelde risico-indicator onderwijsachterstanden. Op verzoek van het ministerie doet het CBS onderzoek naar het actualiseren van het model dat voor deze indicator wordt gebruikt.

In het huidige rapport staan een vijftal vooronderzoeken centraal: het effect van het uitstellen van middeling bij het berekenen van de onderwijsscores, verbetering van de imputatiemethode van ontbrekende opleidingsniveaus, verbetering van de imputatiemethode van onderwijsscores, uniformering van eindtoetsscores en een expertraadpleging met betrekking tot relevante achtergrondkenmerken voor het ontstaan van onderwijsachterstanden.

1. Inleiding

In het huidige onderwijsachterstandenbeleid voor het primair onderwijs en het gemeentelijke onderwijsachterstandenbeleid maakt het ministerie van Onderwijs, Cultuur en Wetenschap (OCW) gebruik van de risico-indicator onderwijsachterstanden die het Centraal Bureau voor de Statistiek (CBS) eerder in opdracht van het ministerie heeft ontwikkeld1). Namelijk door het CBS met deze indicator voor alle peuters van 2,5 tot 4 jaar en alle basisschoolleerlingen een onderwijsscore te laten berekenen en die scores te laten optellen conform de Besluiten2) tot achterstandsscores per school en per gemeente. Deze drukken dan de verwachte onderwijsachterstandsproblematiek op scholen en in gemeenten uit, op basis waarvan OCW het onderwijsachterstandenbudget over de scholen en gemeenten zal verdelen. In 2019 was dit beleid voor het eerst van kracht.

Om de risico-indicator onderwijsachterstanden actueel te houden, heeft OCW te kennen gegeven de indicator regelmatig te willen evalueren. Hierdoor kunnen nieuwe ontwikkelingen mee worden genomen in de indicator. De eerste evaluatie is uitgevoerd in 2021 en betrof een beperkte herziening waarbij vooral is gekeken naar de actualisatie van de coëfficiënten en schaalwaarden van het model3). De resultaten van deze herziening zijn in 2022 voor het eerst toegepast bij het berekenen van de achterstandsscores voor scholen en in 2023 voor gemeenten. In de periode 2023 tot 2025 heeft OCW een grote evaluatie voorzien waarbij de gehele indicator tegen het licht zal worden gehouden.

Ten behoeve van de evaluatie in de periode 2023 – 2025 heeft OCW via het Nationaal Regieorgaan Onderwijsonderzoek een intelligentiemeting uit laten voeren onder een representatieve steekproef van de basisschoolleerlingen in groep 6 van het schooljaar 2020/’21. Aangevuld met de eindtoetsscores van schooljaar 2022/’23 en relevante achtergrondkenmerken van de betreffende leerlingen, kan deze intelligentiemeting vervolgens worden gebruikt om een nieuw model te ontwikkelen waarbij onderwijsachterstanden wordt geschat.

Deze evaluatie zal uit een drietal fasen bestaan. In de eerste fase staan een aantal voorbereidende onderzoeken voor het nieuw te schatten model voor onderwijsachterstanden centraal. De tweede fase zal vervolgens in het teken staan van dit nieuw te schatten model voor onderwijsachterstanden. Hierbij worden de bevindingen uit de eerste fase verwerkt in het nieuw te schatten model. In de derde fase zullen de uitkomsten van de eerste en tweede fase verwerkt worden in een gestandaardiseerde productiestatistiek. Dit rapport heeft betrekking op de eerste fase en bestaat uit vijf onderdelen.

Naast de methodologische onderzoeken over de ontwikkeling van de indicator1), heeft het CBS na de ingebruikname van de indicator in 2018 diverse plausibiliteits- en monitoringonderzoeken gepubliceerd4). In deze onderzoeken is gekeken naar de werking van de indicator over de jaren heen. Op basis van deze onderzoeken zijn een drietal verbetermogelijkheden geïdentificeerd: het uitstellen van het middelen van de onderwijsscores tot na het berekenen van de achterstandsscores, het verbeteren van het imputatiemodel voor het opleidingsniveau van de ouders en het verbeteren van het imputatiemodel voor de onderwijsscores voor kinderen in de populatie waarvoor geen onderwijsscore kan worden berekend. Deze drie verbetertrajecten zullen in de hoofstukken 2 tot en met 4 aan de orde komen. In hoofdstuk 5 onderzoeken we op welke wijze voor de diverse eindtoetsen een uniforme prestatiemaatstaf kan worden ontwikkeld. Als laatste presenteren we in hoofdstuk 6 de resultaten van een expertraadpleging naar factoren die van invloed zijn op het risico op onderwijsachterstanden.

1) Over het eerdere onderzoek zijn vijf rapporten verschenen, het eerste methoderapport, tweede methoderapport , derde methoderapport , vierde methoderapport en het samenvattend rapport.
2) Besluit van 27 augustus 2018 tot wijziging van het Besluit bekostiging WPO in verband met het aanpassen van de groeiregeling en van het onderwijsachterstandenbeleid in het primair onderwijs (Staatsblad 2018, 334), en Besluit van 27 augustus 2018, houdende regels met betrekking tot specifieke uitkeringen ten behoeve van het gemeentelijk onderwijsachterstandenbeleid (Besluit specifieke uitkeringen gemeentelijk onderwijsachterstandenbeleid) (Staatsblad 2018, 315).
3) De resultaten van dit onderzoek zijn vastgelegd in een rapport: Herziening onderwijsachterstandenindicator primair onderwijs 2021.
4) Om zicht te houden op de werking van de onderwijsachterstandenindicator publiceert het CBS jaarlijks plausibiliteitsanalyses en een monitoronderzoek. De meest recente plausibiliteitsanalyse heeft betrekking op de achterstandsscores voor gemeenten. Het laatste monitoringonderzoek heeft betrekking op de periode 2017 - 2022.

2. Uitstellen middeling onderwijsscores

2.1 Inleiding

In de huidige methodiek van de risico-indicator onderwijsachterstanden wordt het opleidingsniveau van ouders waar dit niet bekend is tien keer geïmputeerd. Vervolgens wordt voor iedere imputatieronde een onderwijsscore berekend voor alle peuters en basisschoolleerlingen van wie beide ouders bekend zijn in de Basis Registratie Personen (BRP). Direct hierna wordt er een gemiddelde onderwijsscore berekend van deze tien losse berekeningen. Dit gemiddelde wordt vervolgens in het vervolg gebruikt. Voor kinderen van wie van één of beide ouders het opleidingsniveau ontbreekt zal de gemiddelde score over tien imputatieronden vaak boven de doelgroepgrens van 15% uitkomen, ook als enkele van de tien afzonderlijke scores daar wél onder liggen. Deze kinderen wegen door deze middeling dan helemaal niet mee in de achterstandsscore op schoolniveau, terwijl de spreiding in de imputaties in feite laat zien dat ze met een bepaalde kans wel behoren bij de groep kinderen met een verwachte achterstand. Dit verschijnsel werkt ook door als deze kinderen vervolgens als donor worden gebruikt voor het imputeren van scores voor kinderen met onbekende ouders. Dit kan worden voorkomen door de scores uit de tien imputatieronden zo lang mogelijk afzonderlijk te behandelen en pas te middelen nadat de scores zijn geaggregeerd naar school- of gemeenteniveau. In dit deelonderzoek zullen de effecten van deze aanpassing op de achterstandsscores van scholen en gemeenten daarom geïsoleerd worden bekeken.

2.2 Data en methoden

Voor dit onderzoek hebben we gebruik gemaakt van de microdatabestanden van de risico-indicator onderwijsachterstanden voor de jaren 2019, 2020 en 2021. Met behulp van deze data vergelijken we de huidige methode met een methode waarbij de middeling pas aan het einde van het proces wordt toegepast. Vanaf het berekenen van de onderwijsscores verloopt het huidige proces globaal als volgt:

  • Voor elk kind worden 10 onderwijsscores berekend.
  • Vervolgens wordt het gemiddelde over deze 10 scores berekend.
  • Daarna worden ontbrekende waardes voor dit gemiddelde geïmputeerd.
  • Tenslotte wordt er per school of gemeente één achterstandsscore berekend over deze gemiddelde score.

Door de middeling zo laat mogelijk toe te passen verandert het proces als volgt:

  • Voor elk kind worden 10 onderwijsscores berekend.
  • Vervolgens worden voor elk van deze 10 scores ontbrekende waardes geïmputeerd.
  • Daarna worden er 10 achterstandsscores berekend op basis van de 10 onderwijsscores.
  • Tenslotte worden deze achterstandsscores gemiddeld per school of gemeente.

Zoals te lezen in het vierde methoderapport, was de verwachting dat het uitstellen van de middeling zou leiden tot een verbetering van de scores doordat bij het imputeren per kind en per ronde een andere imputatiedonor gekozen kan worden. Dit zou moeten leiden tot een robuustere schatting van de onderwijsscore, en als resultaat ook de achterstandsscore, met name voor kinderen van wie het opleidingsniveau van beide ouders onbekend is. Dit is ook de verwachting omdat de spreiding van achterstandsscores bij deze groep relatief groot is, waardoor het relatief vaak voor kan komen dat het gemiddelde van 10 imputatierondes boven de grenswaarde van 15% ligt terwijl deze voor een deel van de individuele scores eronder ligt. Dit betekent in feite dat er een kans is dat ze bij de groep met een verwachte achterstand horen. Bij de oude methode wegen deze kinderen helemaal niet mee in het berekenen van achterstandsscores op schoolniveaus. Wanneer middeling wordt uitgesteld, wegen deze leerlingen wel mee in rondes waarin hun scores onder de grenswaarde liggen. Zo wordt de kans dat ze onder de grenswaarde liggen toch meegenomen in de uiteindelijke berekening van de achterstandsscores. De methodes werden met elkaar vergeleken voor drie jaren: 2019, 2020 en 2021. Ze zijn vergeleken op verschillende aspecten.

Stabiliteit. Als verschillen in onderwijsscores jaar op jaar kleiner zijn, dan is dat een indicatie dat er minder ruis in de berekening zit. Immers is de aanname dat “ware” onderwijsscores relatief stabiel zouden moeten zijn over de tijd heen. Een deel van de verschillen tussen jaren komt door de methode die gebruikt wordt. Bijvoorbeeld door verschillen in geïmputeerde onderwijsscores. In principe is het wenselijk om dat effect te minimaliseren. Om de methodes te vergelijken op hun stabiliteit is een analyse uitgevoerd die ook bij plausibiliteitscontroles van de risico-indicator onderwijsachterstanden wordt uitgevoerd. Hierbij zijn de verschillen in onderwijsscores tussen de jaren 2020 en 2021 op persoonsniveau uitgerekend per imputatiegroep. Dit is gedaan voor zowel de huidige als de nieuwe methode.

Versnippering en herverdeeleffecten. Door de verandering van de methode kan het voorkomen dat scholen die bij de huidige methode niet in aanmerking komen voor aanvullende financiering uit het onderwijsachterstandenbudget bij de nieuwe methode – uitstellen van middeling – wel in aanmerking komen voor extra middelen. Andersom – eerst wel extra middelen, daarna niet – kan ook voorkomen. Tevens kijken we of het aantal scholen dat in aanmerking komt voor extra middelen wijzigt. Dit is gedaan om in kaart te brengen in welke mate het aanpassen van de methode zou leiden tot “versnippering” van het budget. Dat wil zeggen dat veel scholen slechts een klein aandeel van het budget zouden krijgen.

Betrouwbaarheid. Voor het jaar 2021 zijn de varianties en betrouwbaarheidsmarges van de twee methodes met elkaar vergeleken. Bij deze vergelijking werd drie keer de achterstandsscore uitgerekend, waarna de variantie van de score werd bepaald. Deze vergelijking wordt gedaan aan de hand van de parameter K. Kg is een parameter die de bijdrage van een achterstandsleerling in stratum g aan de variantie van de achterstandsscore van de school waarop zij zitten uitdrukt bij twee verschillende (onafhankelijke) berekeningen van achterstandsscores. Kg is een aggregaat van de gemiddelde waarde van de bijdrage en de variantie daaromheen, gewogen naar de kans dat een willekeurige leerling uit stratum g een onderwijsscore heeft die bij minimaal één van de berekeningen onder de grenswaarde van 15% valt. Meer informatie over de berekening en afleiding van Kg is te vinden in Bijlage 2.

Kg is in dit rapport geschat door voor de populatie van 2021 het volledige bijschattingsproces drie keer onafhankelijk uit te voeren. Dit geeft drie mogelijke paarsgewijze vergelijkingen tussen onderwijsscores: (yi1,yi2), (yi1,yi3) en (yi2,yi3) met elk een schatting van Kg. Deze zijn vervolgens gemiddeld. Ook rapporteren we de standaarddeviaties gebaseerd op de spreiding in uitkomsten over deze drie paarsgewijze vergelijkingen. K is vergeleken voor uitgestelde en niet-uitgestelde middeling. Verder zijn in dit onderzoek drie strata onderzocht: drie verschillende subgroepen waarvoor de onderwijsscore wordt geïmputeerd.

2.3 Resultaten

2.3.1 Verschillen in onderwijsscores

De verschillen in individuele onderwijsscores tussen de jaren 2020 en 2021 zijn te zien in figuur 2.3.1 tot 2.3.4. De verwachting was dat het uitstellen van de middeling van onderwijsscores de verschillen tussen onderwijsscores uit opeenvolgende jaren kleiner zou maken. Dit bleek ook het geval: met name voor groepen van wie één of beide ouders onbekend zijn kwamen extreme verschillen (lager dan -2.5 of 2.5 of meer) tussen de jaren minder vaak voor, en minder extreme verschillen juist vaker. Over het geheel genomen namen de verschillen in onderwijsscores van personen tussen opeenvolgende jaren dus af. Dit verschil was het grootste bij kinderen van wie de score was geïmputeerd omdat de vader onbekend is. Bij kinderen die niet staan ingeschreven in de BRP (figuur 2.3.4) zijn wel wat verschuivingen te zien, maar er kan geen duidelijke conclusie getrokken worden dat uitstellen van de middeling een verbetering is.

2.3.1. Verschillen onderwijsscores 2020 tov 2021 per methode - Beide ouders onbekend
VerschilHuidige methode (Aantal (x1000))Nieuwe methode (Aantal (x1000))
lager dan -2.510,2487,691
-2.5 tot -15,5326,282
-1 tot -0.52,0272,808
-0.5 tot -0.11,7982,501
-0.1 tot 01,491,448
0 tot 0.11,9621,975
0.1 tot 0.51,7012,687
0.5 tot 12,0813,107
1 tot 2.56,0447,095
2.5 of meer11,3948,683

2.3.2. Verschillen onderwijsscores 2020 tov 2021 per methode - moeder onbekend
VerschilHuidige methode (Aantal (x1000))Nieuwe methode (Aantal (x1000))
lager dan -2.50,4920,34
-2.5 tot -10,2210,281
-1 tot -0.50,0840,125
-0.5 tot -0.10,0660,118
-0.1 tot 00,0480,064
0 tot 0.10,080,071
0.1 tot 0.50,0740,103
0.5 tot 10,1080,135
1 tot 2.50,2670,331
2.5 of meer0,5470,419

2.3.3. Verschillen onderwijsscores 2020 tov 2021 per methode - vader onbekend
VerschilHuidige methode (Aantal (x1000))Nieuwe methode (Aantal (x1000))
lager dan -2.510,2487,691
-2.5 tot -15,5326,282
-1 tot -0.52,0272,808
-0.5 tot -0.11,7982,501
-0.1 tot 01,491,448
0 tot 0.11,9621,975
0.1 tot 0.51,7012,687
0.5 tot 12,0813,107
1 tot 2.56,0447,095
2.5 of meer11,3948,683

2.3.4. Verschillen onderwijsscores 2020 tov 2021 per methode - kind niet in BRP
VerschilHuidige methode (Aantal (x1000))Nieuwe methode (Aantal (x1000))
lager dan -2.50,3270,336
-2.5 tot -10,1680,187
-1 tot -0.50,0540,061
-0.5 tot -0.10,0570,05
-0.1 tot 00,0360,026
0 tot 0.10,0350,034
0.1 tot 0.50,0490,047
0.5 tot 10,0490,054
1 tot 2.50,1820,17
2.5 of meer0,3860,378

2.3.2 Kenmerken van verschillen in achterstandsscores van scholen

In de volgende analyses worden voor verschillende (sub)groepen scholen beschrijvende kenmerken van de jaar-op-jaar verschillen in achterstandsscores getoond. Hierbij is met name de standaarddeviatie een belangrijk kenmerk, omdat deze de mate van spreiding van de jaar-op-jaar verschillen voor de gehele verdeling van een gegeven groep beschrijft. Minima en maxima worden ook getoond, maar deze zijn minder informatief omdat dit slechts de hoogste positieve of negatieve jaar-op-jaar verandering betreft, zonder informatie over de hoeveelheid scholen die in de buurt van die waarde zitten. De minima en maxima betreffen dus vrijwel altijd uitbijters. Wel zouden ze eventueel informatie kunnen verschaffen over of een methode voor een selecte groep scholen beter of slechter werkt. Tenslotte wordt het gemiddelde verschil getoond. Deze gemiddelden moeten rond de 0 zitten en niet teveel verschillen tussen de gebruikte methodes.

In tabel 2.3.5 staan de kenmerken van verschillen in bruto achterstandsscore, dat wil zeggen zonder het toepassen van de drempel, van alle scholen beschreven. In deze tabel staat dus in principe de verdeling van jaar-op-jaar verschillen van achterstandsscores van alle scholen. Wanneer middeling wordt uitgesteld, verandert de verdeling van de jaar-op-jaar verschillen iets ten opzichte van de huidige methode. De grootste verschillen nemen iets toe, te zien in de toename van de onder- en bovengrens, terwijl de algehele spreiding, te zien in de standaarddeviatie, juist afneemt (-2%). Met name dat laatste ligt in de lijn der verwachting: doordat de middeling later in het proces plaatsvindt, wordt het uitrekenen van de achterstandsscore tien keer herhaald, wat in theorie zou moeten leiden tot robuustere uitkomsten en dus minder spreiding (kleinere verschillen) tussen jaren. Het gemiddelde verschil is nagenoeg hetzelfde voor beide methodes.

2.3.5 Kenmerken van verschillen in bruto achterstandsscores van alle scholen
MethodeAantal scholenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig6 215-424,20-1,09321,3139,56
Nieuw6 215-424,78-1,21374,9338,79

Tabel 2.3.6 beschrijft de kenmerken van verschillen in netto achterstandsscores van scholen, dat wil zeggen met het toepassen van de drempel, die in zowel 2020 als 2021 middelen kregen toebedeeld uit het onderwijsachterstandenbudget. Wanneer middeling wordt uitgesteld, nemen de grootste verschillen wederom toe vergeleken met de huidige methode. Echter neemt zowel het gemiddelde verschil als de standaarddeviatie van het verschil af. Dit betekent dat, hoewel voor enkele scholen de verschillen groter worden wanneer middeling wordt uitgesteld, de algehele spreiding van verschillen in achterstandsscores van scholen die middelen uit het achterstandenbudget krijgen kleiner wordt. De afname van de standaarddeviatie is ook sterker (-5%) dan bij de verschillen in bruto achterstandsscores van alle scholen. Dit kan suggereren dat het uitstellen van de middeling van achterstandsscores een positiever effect heeft voor scholen die in beide jaren middelen krijgen uit het onderwijsachterstandenbudget. Eén van de mogelijke oorzaken hiervan is dat het uitstellen van middeling de imputatie van onderwijsscores robuuster maakt, zoals te lezen in paragraaf 2.3.1. Dat zou betekenen dat scholen waarvan bij relatief veel leerlingen de onderwijsscore is geïmputeerd, meer baat hebben bij het uitstellen van middeling. Om dit te onderzoeken is ook specifiek gekeken naar scholen waarvan een relatief groot deel van de leerlingen geïmputeerd is. Er is voor gekozen om naar scholen te kijken waarvan bij 10% of meer van de leerlingen de onderwijsscore is geïmputeerd, en scholen waarvan bij 25% of meer van de leerlingen de onderwijsscore is geïmputeerd.

2.3.6 Kenmerken van verschillen in netto achterstandsscores van scholen die in beide jaren een positieve achterstandsscore hadden
MethodeAantal scholenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig2 313-330,92-2,04284,4849,38
Nieuw2 438-316,93-0,60320,4246,88

2.3.7 Kenmerken van verschillen in achterstandsscores van scholen met 10% of meer geïmputeerde leerlingen
MethodeAantal scholenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig1 204-330,92-2,96284,4858,31
Nieuw1 204-316,930,22320,4256,84

Bij scholen waarvan bij 10% van de leerlingen de onderwijsscore is geïmputeerd, neemt de standaarddeviatie, net als bij de gehele populatie scholen, af (-2,5%) wanneer middeling wordt uitgesteld ten opzichte van de huidige methode. Deze afname is wel minder sterk dan bij alle scholen die in beide jaren middelen krijgen uit het onderwijsachterstandenbudget. Het gemiddelde verschil neemt ook een beetje af, net als het maximale negatieve verschil. Het maximale positieve verschil wordt juist groter. Om te onderzoeken in welke mate deze verschillen te maken hebben met jaar-op-jaar verschillen in het aantal imputaties op een school, is ook gekeken naar scholen met 10% of meer leerlingen met geïmputeerde onderwijsscores, waarvan het jaar-op-jaar verschil in percentage leerlingen met geïmputeerde onderwijsscores niet hoger was dan ± 5% (tabel 2.3.8).

2.3.8 Kenmerken van verschillen in achterstandsscores van scholen met 10% of meer geïmputeerde leerlingen, ± 5%
MethodeAantal scholenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig1 107-216,07-5,28216,1653,27
Nieuw1 107-291,58-2,72214,2450,76

Bij scholen waarvan bij minimaal 10% van de leerlingen de onderwijsscore is geïmputeerd was en waarbij er geen grote jaar-op-jaar verschillen waren in het percentage imputaties, nemen zowel het gemiddelde verschil als de standaard deviatie (-5%) af wanneer middeling wordt uitgesteld ten opzichte van de huidige methode. Het maximale negatieve verschil neemt juist toe. Ook hier kan geconcludeerd worden dat individuele scholen misschien grotere verschillen vertonen jaar op jaar, maar de algehele spreiding van verschillen voor alle scholen in deze subset verkleint.

2.3.9 Kenmerken van verschillen in achterstandsscores van scholen met 25% of meer geïmputeerde leerlingen
MethodeAantal scholenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig239-216,07-0,28284,4880,02
Nieuw239-212,535,48320,4279,30

Bij scholen waarvan bij minimaal 25% van de leerlingen de onderwijsscore is geïmputeerd, neemt de standaarddeviatie wederom af; zie tabel 2.3.9. Deze afname is wel relatief klein. Net als in voorgaande vergelijkingen neemt het maximale positieve verschil toe. Anders dan bij andere vergelijkingen neemt het gemiddelde verschil iets toe wanneer middeling wordt uitgesteld. Dat verschil is echter niet groot. Ook voor deze subgroep is verder gekeken naar scholen die kleine jaar-op-jaar verschillen hadden in het aantal imputaties, te zien in tabel 2.3.10.

2.3.10 Kenmerken van verschillen in achterstandsscores van scholen met 25% of meer geïmputeerde leerlingen, ± 5%
MethodeAantal scholenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig196-216,07-10,11216,1670,13
Nieuw196-212,53-6,83208,3467,37

Bij deze scholen neemt de standaarddeviatie af wanneer middeling wordt uitgesteld. Dit effect is iets sterker dan in de gehele groep scholen met meer dan 25% imputaties. Anders dan in tabel 2.3.8 is te zien, nemen ook het gemiddelde verschil en het maximale positieve verschil iets af ten opzichte van de huidige methode.

2.3.3 Kenmerken van jaar-op-jaar verschillen in bruto en netto achterstandsscores op gemeenteniveau

Tabel 2.3.11 toont jaar-op-jaar verschillen in bruto achterstandsscores voor gemeentes, uitgesplitst naar methode. Hieruit is op te maken dat wanneer middeling wordt uitgesteld, alle kenmerken lager uitvallen ten opzichte van de huidige methode. In het bijzonder neemt de standaarddeviatie af met 27%. Dat is een aanzienlijk verschil, en veel groter dan de verschillen die te zien waren op schoolniveau.

2.3.11 Kenmerken van verschillen in bruto achterstandsscores voor alle gemeenten
MethodeAantal gemeentenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig352-4204,36-33,46653,53318,6
Nieuw352-3291,34-31,25326,86232,17

Tabel 2.3.12 toont jaar-op-jaar verschillen in netto achterstandsscores voor alle gemeentes, uitgesplitst naar methode. Net als bij de bruto achterstandsscores nemen alle kenmerken af wanneer middeling wordt uitgesteld ten opzichte van de huidige methode. In het bijzonder neemt de standaarddeviatie af met 31%.

2.3.12 Kenmerken van verschillen in netto achterstandsscores voor alle gemeenten
MethodeAantal gemeentenOndergrensGemiddeldeBovengrensStandaardeviatie
Huidig352-3 702,31-23,06662,43286,73
Nieuw352-2772,3-20,70317,46198,44

2.3.4 Verschillen in verdeling van het onderwijsachterstandenbudget wanneer middeling zou worden uitgesteld.

In tabel 2.3.13 wordt per jaar getoond hoeveel extra scholen middelen zouden krijgen wanneer middeling zou worden uitgesteld ten opzichte van de huidige methode. Dat aantal varieert van 159 (2021) tot 281 (2019). Daarnaast is te zien hoeveel procent van het onderwijsachterstandenbudget naar deze scholen zou gaan per jaar. Dit varieert van 0,410% (2021) tot 0,728% (2019). Dit zijn relatief lage percentages, waardoor geconcludeerd kan worden dat het uitstellen van middeling van achterstandsscores niet leidt tot versnippering van het budget.

2.3.13 Aantal scholen per jaar dat onder de huidige methode geen geld uit het onderwijsachterstandenbudget krijgt, en als middeling wordt uitgesteld wel
201920202021
Aantal281200159
% budget0,728%0,465%0,410%

Tenslotte is ook onderzocht hoeveel scholen volgens de huidige methode wel middelen krijgen uit het onderwijsachterstandenbudget, maar wanneer middeling wordt uitgesteld niet meer. In 2019 zouden dit 49 scholen zijn; in 2020 62 scholen, en in 2021 67 scholen. Er zijn dus maar weinig scholen die volgens de huidige methode wel middelen toebedeeld krijgen en dat niet meer zouden krijgen wanneer middeling wordt uitgesteld.

2.3.5 Vergelijking van parameter K met en zonder uitstellen van middeling

Zoals genoemd in de methodesectie is de parameter K uitgerekend voor achterstandsscores waarbij middeling is uitgesteld en scores waarbij dat niet het geval was. In tabel 2.3.14 zijn de parameterwaarden te zien voor de verschillende strata. Zoals genoemd zijn hier alleen de strata geanalyseerd waarin de opleidingsniveaus van de moeder, de vader of beide ouders onbekend zijn, omdat het uitstellen van de middeling in principe alleen op deze leerlingen effect heeft. Daarnaast zijn dit ook de strata die het meeste invloed hebben op de variantie van de achterstandsscores (en de hoogste K waarde hebben). In principe is een lage waarde voor K wenselijk, omdat dit een lagere variantie in achterstandsscores tot gevolg heeft.

2.3.14 Waarden van K en standaarddeviatie van K per stratum met en zonder uitgestelde middeling
StratumK (uitgestelde middeling)K (zonder uitgestelde middeling)
Beide onbekend0,8827,866
Vader onbekend0,5524,399
Moeder onbekend0,5634,549
Beide onbekend (sd)0,0350,048
Vader onbekend (sd)0,0070,060
Moeder onbekend (sd)0,0330,235

Zowel de waarde van K als de standaarddeviatie van K zijn aanzienlijk lager voor alle strata wanneer middeling wordt uitgesteld dan wanneer dit niet wordt gedaan. Dit betekent dat wanneer de middeling van achterstandsscores wordt uitgesteld, leerlingen van wie het opleidingsniveau van minimaal één ouder wordt geïmputeerd aanzienlijk minder bijdragen aan de variantie in achterstandsscore van de school waarop zij zitten. Dit leidt vervolgens tot significant minder variantie in achterstandsscores van scholen of gemeentes in het algemeen, maar in het bijzonder van die scholen of gemeentes waarin veel leerlingen aanwezig zijn van wie één of beide ouders onbekend zijn.

2.4 Conclusies

In dit onderzoek werd onderzocht welke effecten het uitstellen van middeling bij het berekenen van achterstandsscores heeft. Hier is gekeken naar de verdeling van jaar-op-jaar verschillen van individuele onderwijsscores, de verdeling van financiering op basis van achterstandsscores, de verdeling van jaar-op-jaar verschillen in achterstandsscores op school- en gemeenteniveau, en de variantiebijdrage aan achterstandsscores van leerlingen van wie het opleidingsniveau van één of beide ouders geïmputeerd is.

Uit de resultaten van het onderzoek blijkt dat het uitstellen van middeling van achterstandsscores leidt tot kleinere verschillen in individuele onderwijsscores tussen verschillende jaren, met name voor leerlingen van wie het opleidingsniveau van één of beide ouders onbekend is. Bij kinderen die niet bekend zijn in de BRP is dit nauwelijks het geval. Ook is de spreiding van jaar-op-jaar verschillen in zowel bruto (zonder drempel) als netto (met drempel) achterstandsscores lager wanneer middeling wordt uitgesteld. Deze vermindering is bescheiden, maar is wel groter wanneer wordt gekeken naar scholen die in beide jaren relatief veel geïmputeerde leerlingen hadden. Daarentegen neemt de spreiding van jaar-op-jaar verschillen in achterstandsscores op gemeenteniveau wel fors af wanneer middeling wordt uitgesteld.

Daarnaast leidt uitstelling van middeling tot een lagere variantiebijdrage van leerlingen van wie het opleidingsniveau van één of beide ouders geïmputeerd was doordat voor deze groepen zowel de waarde als de standaarddeviatie van parameter K lager is wanneer middeling wordt uitgesteld. Het effect hiervan is groot: het uitstellen van middeling verlaagde de grootte van K met 85-90%. Het gevolg hiervan is dat de standaardfout van achterstandsscores kleiner wordt, wat leidt tot minder variantie in achterstandsscores voor scholen met veel leerlingen die behoren tot de genoemde groepen. Dat is een positief resultaat omdat de ervaring leert dat juist scholen met relatief veel geïmputeerde leerlingen veel fluctueren in hun achterstandsscores over verschillende jaren ten gevolge van fluctuaties in geïmputeerde scores. Dat betekent dat deze scholen deels verschillen in achterstandsscores door de gebruikte methode en niet door veranderingen in variabelen onderliggend aan achterstandsscores. Het verminderen van deze variantie leidt dus tot consistentere achterstandsscores over meerdere jaren, wat ook beter aansluit bij de “echte” situatie. Dat wil zeggen, veranderingen komen in mindere mate door onzekerheid bij het imputeren van ontbrekende informatie en dus relatief in meerdere mate door veranderingen in de daadwerkelijke situatie van een school. Dit is dan ook een mogelijke verklaring voor het feit dat uitstellen van middeling leidt tot minder spreiding van jaar-op-jaar verschillen in achterstandsscores op zowel school- als gemeenteniveau.

Tenslotte is onderzocht welke effecten het uitstellen van middeling zou hebben op de daadwerkelijke verdeling van het onderwijsachterstandenbudget. Met name of dit zou leiden tot “versnippering” van het budget, waarbij veel scholen relatief weinig budget zouden ontvangen met als gevolg dat deze scholen slechts beperkt effectieve maatregelen zouden kunnen nemen om onderwijsachterstanden te bestrijden. Een ander mogelijk gevolg dat werd onderzocht was of verandering in methodiek zou leiden tot een grote verschuiving in welke scholen middelen uit het onderwijsachterstandenbudget toebedeeld zouden krijgen. In dit onderzoek is geen indicatie gevonden dat deze zaken in belangrijke mate zouden plaatsvinden wanneer besloten wordt om middeling van achterstandsscores uit te stellen.

Kortom, Het uitstellen van het middelen van achterstandsscores lijkt positieve gevolgen te hebben voor de robuustheid van individuele onderwijsscores, en achterstandsscores op school- en gemeenteniveau. Daarnaast lijken geanticipeerde nadelen niet, of in zeer beperkte mate, aanwezig.

3. Imputatie ontbrekende opleidingsniveaus

3.1 Inleiding

Het opleidingsniveau van de ouders is een belangrijke voorspeller met betrekking tot het risico op onderwijsachterstand van een kind (CBS, 2019). Voor ouders die zijn ingeschreven in de Basisregistratie Persoonsgegevens is dit kenmerk beschikbaar uit het Opleidingsniveaubestand van het CBS. De opleidingsniveaus in dit bestand zijn deels afgeleid uit centrale opleidingsregisters en deels uit steekproefdata van de Enquête Beroepsbevolking (EBB).

Voor een aanzienlijk deel van de ouders in de BRP is geen opleidingsniveau bekend in het Opleidingsniveaubestand (Linder et al., 2011). Deels komt dit doordat centrale opleidingsregisters nog niet lang worden bijgehouden: voor het hoger onderwijs sinds het midden van de jaren 1980, voor het voortgezet onderwijs en mbo rond de eeuwwisseling en voor het primair onderwijs vanaf 2010. Mensen die hun opleiding al hadden afgerond voordat de relevante registers beschikbaar kwamen zijn daarom alleen op steekproefbasis waargenomen in de EBB. Verder ontbreekt in de registers alle informatie over opleidingen die mensen in het buitenland hebben gevolgd. Van oudere mensen en mensen die op latere leeftijd naar Nederland zijn gekomen is daarom relatief vaak geen opleidingsniveau bekend. Omdat de EBB-data elk jaar worden aangevuld met een nieuwe steekproef, neemt het percentage ontbrekende opleidingsniveaus in het bestand in de loop van de tijd af.

In het Opleidingsniveaubestand heeft elke persoon met een bekend opleidingsniveau een ophooggewicht. Dit gewicht is gelijk aan 1 als de informatie uit een register komt en ongelijk aan 1 als de informatie (alleen) uit de EBB komt. Met deze ophooggewichten kan een goede schatting worden gemaakt van de verdeling van opleidingsniveau voor de hele Nederlandse bevolking.
Binnen de groep kinderen van wie beide ouders voorkomen in de BRP onderscheiden we vier deelpopulaties:

  1. het opleidingsniveau van zowel de moeder als de vader is onbekend;
  2. het opleidingsniveau van de moeder is bekend, het opleidingsniveau van de vader niet;
  3. het opleidingsniveau van de vader is bekend, het opleidingsniveau van de moeder niet;
  4. het opleidingsniveau van zowel de moeder als de vader is bekend.

3.1.1 Omvang deelpopulaties
deelpopulatiekinderen t/m 27 jaarkinderen t/m 12 jaar
A15,50%7,90%
B17,20%13,20%
C11,70%7,80%
D55,60%71,10%

Tabel 3.1.1 geeft een indruk van de omvang van het probleem met ontbrekende waarden: hoe ouder de kinderen, hoe meer ouders er voorkomen met een onbekend opleidingsniveau. Van alle kinderen in de BRP tot en met 27 jaar heeft ongeveer 44% ten minste één ouder met een onbekend opleidingsniveau. In ruim 15% van de gevallen zijn beide opleidingsniveaus onbekend. Bij kinderen tot en met 12 jaar (primair onderwijs en jonger) komen minder ontbrekende waarden voor, doordat de ouders gemiddeld jonger zijn. Binnen deze groep heeft ongeveer 29% ten minste één ouder met een onbekend opleidingsniveau, terwijl voor slechts 8% het opleidingsniveau van beide ouders tegelijk onbekend is. Verder is te zien dat het opleidingsniveau van de vader relatief vaker ontbreekt dan het opleidingsniveau van de moeder.

Om toch het risico op onderwijsachterstand in te kunnen schatten, worden de onbekende opleidingsniveaus alsnog geschat en geïmputeerd met specifieke statistische methoden. Bij het imputeren wordt gebruikgemaakt van andere kenmerken die wel bekend zijn uit registraties en die samenhangen met het opleidingsniveau van een persoon, zoals het inkomen en (indien bekend) het opleidingsniveau van de partner. Op basis van dergelijke kenmerken wordt een schatting gemaakt van de onbekende opleidingsniveaus. Omdat deze schattingsmodellen een bepaalde mate aan variatie kennen, kunnen meerdere schattingen voor één persoon tot verschillende uitkomsten leiden. Op individueel niveau zal deze schatting daardoor niet altijd kloppen, maar gemiddeld over grotere groepen mensen geven de uitkomsten een betrouwbare schatting van de werkelijke verdeling van het opleidingsniveau. Het verbeteren van de schattingsmethode kan leiden tot een kleinere variatie in uitkomsten en dientengevolge een stabielere schatting over de tijd.

De plausibiliteitsanalyses die het CBS jaarlijks met betrekking tot de achterstandsscores publiceert, laten een aantal zaken hieromtrent zien. Op populatieniveau laten de jaar-op-jaar vergelijkingen zien dat de uitkomsten vergelijkbaar zijn met voorgaande jaren met een licht opwaartse trend van het opleidingsniveau. Tevens laten deze jaar-op-jaar vergelijkingen zien dat de onderwijsscores van jaar op jaar aanzienlijk sterker fluctueren bij kinderen van wie bij één of beide ouders het opleidingsniveaus is geïmputeerd in vergelijking tot kinderen van wie van beide ouders het opleidingsniveau bekend is5).

Hoewel deze fluctuaties zich op populatieniveau uitmiddelen, hoeft dit niet het geval te zijn bij kleinere subpopulaties. De leerlingenpopulatie van een school is zo’n kleinere subpopulatie. Het gevolg is dat de achterstandsscore van een school waar relatief veel opleidingsniveaus worden geïmputeerd instabieler is. Verbetering van de methoden voor het imputeren van ontbrekende opleidingsniveaus van de ouders van kinderen kan leiden tot een stabielere achterstandsscore en dus een betere voorspelbaarheid van het toegekende budget door OCW. Verbetering van de imputatiemethodiek kan worden gezocht in het verbeteren van de variabelen die nu al worden gebruikt (inkomen, opleidingsniveau partner, herkomst, burgerlijke staat, inkomstenbron en mate van stedelijkheid), in het toevoegen van nieuwe variabelen en het gebruik van een andere statistische methode voor het schatten en imputeren van ontbrekende opleidingsniveaus. De huidige methodiek voor de risico-indicator maakt gebruik van ‘continuation-ratio logistische regressie’. Multinomiale logistische regressie is daarbij een logisch alternatief om te onderzoeken.

Ook de kenmerken die gebruikt worden bij het schatten van ontbrekende opleidingsniveaus bevatten soms voor een klein deel ontbrekende waarden. Deze kenmerken worden nu compleet gemaakt middels een mice-methodiek (multiple imputations with chained equations). Afhankelijk van het type variabele wordt voor een bepaalde standaardmethode gekozen. Voor numerieke data is dat predictive mean matching, logistische regressie voor binaire data en multinomiale regressie en proportional odds regressie voor respectievelijk ongeordende en geordende categorische data met meer dan twee categorieën. Door de omvang van de populatie is deze manier van imputeren zeer rekenintensief.

Dit deelonderzoek bestaat daarom zelf ook weer uit een drietal onderdelen: verbetering van de imputatie van ontbrekende waarden bij hulpvariabelen; een vergelijking van alternatieve regressiemethodieken voor de imputatie van ontbrekende opleidingsniveaus en een onderzoek naar de verbetering van de imputatie van ontbrekende opleidingsniveaus met behulp van meer en/of betere achtergrondkenmerken.

3.2 Data en methoden

3.2.1 Imputatie hulpvariabelen

Voor de imputatie van hulpvariabelen wordt er geïmputeerd met het mice-package (van Buuren en Groothuis-Oudshoorn, 2011) in R, waarbij gebruikt wordt gemaakt van multipele imputatie. In de huidige toepassing voor de risico-indicator onderwijsachterstanden worden met mice de standaard methoden gebruikt, die afhankelijk zijn van het type kenmerk dat wordt geïmputeerd. Bij een numeriek kenmerk, zoals het inkomen, wordt er gebruik gemaakt van predictive mean matching. Bij de andere categorische kenmerken wordt er gebruik gemaakt van polytome (multinomiale) regressie. Bij de methode predictive mean matching voor numerieke kenmerken wordt er voor elke persoon met ontbrekende waarden, een ‘donor’ gezocht die geen ontbrekende waarden heeft. Deze donor wordt gevonden door een regressiemodel toe te passen op de groep zonder ontbrekende waarden, met behulp van een set achtergrondkenmerken. Het regressiemodel berekent een voorspelde waarde per persoon, door de samenhang te bekijken tussen de achtergrondkenmerken en het te imputeren kenmerk. Vervolgens wordt er een donor gevonden door de persoon te koppelen aan iemand met een vergelijkbare voorspelde waarde door het regressiemodel. De methode voor categorische variabelen, polytome (multinomiale) regressie, is een verlenging van een logistisch regressiemodel, waarbij de kans op een categorie voor meer dan twee uitkomsten geschat wordt. Per categorie wordt er een logistisch regressiemodel geschat, voor de categorie in vergelijking met een referentiegroep.

Het gebruik van de verschillende standaardmethoden in mice kost veel rekentijd. Doordat er tien iteraties worden uitgevoerd én we dit toepassen op een grote dataset is de rekenintensiteit erg hoog. Bij predictive mean matching kan de rekentijd oplopen doordat het tijd kost een donor te vinden voor elke persoon met ontbrekende waarden. Daarnaast kost polytome regressie veel tijd omdat voor iedere categorie een apart logistisch regressiemodel geschat moet worden.

Daarom onderzoeken we of we de imputatie sneller kunnen maken zonder in te boeten op de kwaliteit van de imputatie. Daarnaast onderzoeken we welke imputatietechniek beter aansluit bij het gebruik van zowel continue als categorische achtergrondkenmerken. Om de imputatie van het opleidingsniveau te verbeteren, is het ook van belang om de imputatie van de andere ontbrekende registerkenmerken te verbeteren. We onderzoeken daarom ook of het imputatiemodel verbeterd kan worden door aanvullende achtergrondkenmerken te gebruiken.

Omdat de methode predictive mean matching vooral geschikt is voor continue variabelen, testen we methoden die kunnen omgaan met zowel categorische als continue variabelen. We testen hiervoor andere technieken voor donorimputatie en technieken gebaseerd op beslisbomen.

Voor de donorimputatie testen we twee technieken: 1) K-Nearest Neighbours (KNN) en 2) Hotdeck imputatie. Bij KNN wordt er een afstand berekend op basis van een set achtergrondkenmerken, met een gekozen afstandsfunctie. Vervolgens wordt de afstand berekend tussen de donoren en ontvangers, waarna een donor wordt geselecteerd uit de K dichtstbijzijnde donoren. Bij de hotdeck imputatie worden er homogene groepjes gevormd op basis van de achtergrondkenmerken, waarna een willekeurige donor wordt geselecteerd binnen het groepje. Deze technieken kunnen goed toegepast worden als er meerdere kenmerken tegelijk ontbreken. Daarnaast kunnen ze omgaan met categorische variabelen.

Daarnaast is er gekeken naar technieken die gebruikmaken van beslisbomen: 1) Classification and Regression Trees (CART) en 2) Random forest. Beide technieken zijn machine learning algoritmen voor het maken van beslisbomen. In een beslisboom wordt de data opgedeeld in subgroepen op basis van de achtergrondkenmerken die het meest onderscheidend zijn. CART kan gebruikt worden voor continue en categoriale variabelen. Een random forest gaat hierin nog verder door niet één, maar meerdere beslisbomen te schatten. Bij imputatie zal de beslisboom eerst op de groep geschat worden zonder ontbrekende waarden, waarna voor de groep met ontbrekende waarden een voorspelde waarde of categorie berekend kan worden voor de ontbrekende waarde. De imputatietechnieken zijn beoordeeld op een tweetal aspecten: stabiliteit en snelheid.

3.2.2 Regressiemethodiek opleidingsniveau

Binnen de risico-indicator onderwijsachterstanden wordt gewerkt met een indeling van opleidingsniveau in acht categorieën. Het idee achter de imputatiemethode is dat voor elke ouder in het bestand eerst een kansverdeling over de acht categorieën wordt geschat: (p1i,…,p8i), waarbij pci de kans is dat persoon i opleidingsniveau c heeft (c∈{1,…,8}). Vervolgens wordt met deze kansen een trekking gedaan om één van de categorieën te imputeren bij persoon i. Om stabielere resultaten te vinden wordt deze procedure J=10 keer herhaald, zodat uiteindelijk bij elke persoon met een onbekend opleidingsniveau tien waarden worden geïmputeerd.

In de imputatiemethode worden de kansen pci gemodelleerd via een variant op logistische regressie. Het bekende binaire logistische regressiemodel is bedoeld voor kenmerken met twee categorieën en kan daarom hier niet direct worden toegepast. De meest eenvoudige uitbreiding naar meer dan twee categorieën is multinomiale logistische regressie. Hierbij wordt een model van de volgende vorm gebruikt (Agresti, 2013):

$$\log\left( \frac{p_{ci}}{p_{8i}} \right) = \beta_{c0} + \beta_{c1}x_{1i} + \ldots + \beta_{cL}x_{Li},\ \ \ \ \ (c = 1,\ldots,7).$$

De laatste (achtste) categorie van opleidingsniveau is hierbij de referentiecategorie. De variabelen x1i,…,xLi  zijn achtergrondkenmerken in het imputatiemodel.

Voor het imputeren van opleidingsniveau binnen de huidige indicator wordt een andere variant op logistische regressie gebruikt: continuation-ratio logistische regressie. Zie Agresti (2013) of CBS (2016) voor een beschrijving van dit model. Het belangrijkste verschil met multinomiale logistische regressie is dat continuation-ratio regressie expliciet rekening houdt met het feit dat opleidingsniveau een ordinale variabele is, met een ordening in de categorieën van laag naar hoog. In theorie zou dit tot betere imputaties kunnen leiden, al verdwijnt dit voordeel als de steekproef waarop het model geschat wordt voldoende groot is. Daar staat tegenover dat multinomiale logistische regressie twee voordelen heeft ten opzichte van continuation-ratio logistische regressie:

  • De imputatiemethode is eenvoudiger te implementeren omdat standaard-software beschikbaar is voor het schatten van dit model (zoals het R-pakket nnet). Dit maakt de code eenvoudiger te onderhouden dan bij continuation-ratio logistische regressie, waarvoor een eigen implementatie moest worden geschreven.
  • In een eerdere toepassing bij de Volkstelling bleek dat multinomiale logistische regressie leidde tot stabielere uitkomsten dan continuation-ratio logistische regressie (Daalmans, 2021).

We hebben daarom onderzocht of multinomiale logistische regressie een geschikt alternatief is voor het imputeren van opleidingsniveau bij de onderwijsachterstandsindicator. Voor de analyse voor dit onderdeel is de dataset gebruikt waarmee ook de risico-indicator onderwijsachterstanden voor peildatum 1 februari 2022 is berekend.

3.2.3 Imputatie opleidingsniveau

Voor de huidige indicator voor onderwijsachterstanden is een methode ontwikkeld om de ontbrekende opleidingsniveaus te imputeren (CBS, 2016). Deze methode bestaat uit drie stappen:

  1. Imputeer de ontbrekende opleidingsniveaus bij moeders in deelpopulatie C, gebruikmakend van de beschikbare informatie uit deelpopulatie D.
  2. Imputeer de ontbrekende opleidingsniveaus bij vaders in deelpopulatie B, gebruikmakend van de beschikbare informatie uit deelpopulatie C en D.
  3. Imputeer de ontbrekende opleidingsniveaus bij moeders en vaders in deelpopulatie A, gebruikmakend van de beschikbare informatie uit deelpopulatie B, C en D.

Er blijkt een relatief sterke samenhang te bestaan tussen de opleidingsniveaus van beide ouders van hetzelfde kind. In stap 1 en 2 wordt daarom gebruikgemaakt van het bekende opleidingsniveau van de ene ouder bij het imputeren van het onbekende opleidingsniveau van de andere ouder. In stap 3, bij de deelpopulatie waar beide opleidingsniveaus onbekend zijn, wordt eerst het opleidingsniveau van de moeder geïmputeerd. Vervolgens wordt het opleidingsniveau van de vader geïmputeerd, waarbij rekening wordt gehouden met het geïmputeerde opleidingsniveau van de moeder, zodat de samenhang tussen de twee kenmerken behouden blijft.

De bestaande imputatiemethode maakt gebruik van de volgende modellen voor de drie deelpopulaties C, B en A (een getal tussen haken geeft aan in hoeveel categorieën het betreffende kenmerk is ingedeeld.):

  • Deelpopulatie C (moeders):
    opleidingsniveau vader [8] × (inkomen moeder [4] + herkomstgroepering moeder [8] + leeftijd moeder [5] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [3] + sociaaleconomische categorie moeder [2])
  • Deelpopulatie B (vaders):
    opleidingsniveau moeder [8] × (inkomen vader [4] + herkomstgroepering vader [8] + leeftijd vader [5] + stedelijkheidsgraad buurt [6] + burgerlijke staat vader [3] + sociaaleconomische categorie vader [2])
  • Deelpopulatie A (moeders):
    inkomen moeder [4] × (herkomstgroepering moeder [8] + leeftijd moeder [5] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [3] + sociaaleconomische categorie moeder [2])
  • Deelpopulatie A (vaders):
    hetzelfde model als bij deelpopulatie B

Doel van dit onderzoek is om te bepalen of deze modellen kunnen worden verbeterd door andere kenmerken te kiezen en/of andere indelingen van de bestaande kenmerken te gebruiken. De volgende aanpak is gevolgd, waarbij gebruik is gemaakt van een populatiebestand over 2021:

  • Op inhoudelijke gronden is een voorselectie gemaakt van kenmerken die mogelijk interessant zijn voor het imputeren van opleidingsniveau. Bij sommige kenmerken zijn verschillende mogelijke indelingen voorgesteld. Op basis van een stapsgewijze regressieanalyse is per kenmerk één indeling geselecteerd en zijn de geselecteerde kenmerken gerangschikt in aflopende volgorde van hun voorspelkracht voor opleidingsniveau.
  • Verschillende modellen die gebruikmaken van de geselecteerde kenmerken uit de stapsgewijze regressieanalyse zijn vergeleken in een simulatiestudie. Hierbij zijn extra ontbrekende waarden aangebracht bij ouders met bekende opleidingsniveaus, zodat de kwaliteit van de imputaties kan worden geëvalueerd.
  • Voor een extra validatie is gezocht naar ouders met een onbekend opleidingsniveau in het bestand van 2021 maar een bekend opleidingsniveau in het bestand van 2022. Voor deze ouders zijn de imputaties uit de modellen voor 2021 vergeleken met de waargenomen opleidingsniveaus uit 2022, onder de aanname dat het opleidingsniveau in de tussentijd niet is veranderd.

Kenmerken zijn interessant als hulpvariabele voor het imputeren van opleidingsniveau als ze (sterk) samenhangen met opleidingsniveau en/of een grote kans hebben om opgenomen te worden in het uiteindelijke analysemodel voor onderwijsachterstanden. Kenmerken die aan beide criteria tegelijk voldoen zijn daarbij het meest interessant.

Op basis van bovenstaande overweging en beschikbaarheid van data in het Stelsel van Sociaal-statistische Bestanden (SSB) bij het CBS is de volgende longlist gemaakt van kenmerken om te onderzoeken:

  • opleidingsniveau andere ouder [8*]
  • leeftijd ouder [5*, 8 of in jaren]
  • burgerlijke staat ouder [3* of 4]
  • herkomstgroepering ouder [8*]
  • inkomen ouder [4*, 5, 6, 11, 21 of continu]
  • welvaart huishouden [5, 6, 11 of 21]
  • sociaaleconomische categorie ouder [2* of 13]
  • type economische activiteit werkgever ouder [12]
  • deeltijdfactor werk ouder [5, 6 of 11]
  • stedelijkheidsgraad buurt [6*]
  • leeftijd kind [in jaren]

Een getal tussen haken geeft aan in hoeveel categorieën het betreffende kenmerk is ingedeeld. Een asterisk * geeft aan dat de betreffende indeling is gebruikt in het huidige imputatiemodel.

Selectie van kenmerken
Vervolgens selecteren we met een combinatie van bivariate analyses en een stepwise-procedure de kenmerken die een bijdrage leveren aan het schatten van ontbrekende opleidingsniveaus. Voor moeder en vader apart wordt de bivariate relatie tussen opleidingsniveau en elk kenmerk apart geanalyseerd door een multinomiale logistische regressie te schatten voor opleidingsniveau met één kenmerk tegelijk als voorspeller, voor ouders met bekende opleidingsniveaus. Als evaluatiematen kijken we per model naar de AIC (Agresti, 2013) en naar de verwachte fractie imputaties die exact gelijk zijn aan de juiste categorie (κ0) of daar maximaal één categorie naast zitten (κ1):

$$\begin{align} E\left(\kappa_{0} \right) &= \sum_{l = 1}^{L}\frac{N_{l}}{N}\sum_{c = 1}^{8}p_{lc}^{2},\\ E\left( \kappa_{1} \right) &= E\left( \kappa_{0} \right) + 2\sum_{l = 1}^{L}\frac{N_{l}}{N}\sum_{c = 1}^{7}{p_{lc}}p_{l(c + 1)}. \end{align}$$

Hierbij is L het aantal categorieën van de hulpvariabele; N is het totaal aantal records in de dataset; Nl het aantal records met categorie l op de hulpvariabele; ten slotte is plc de fractie records met categorie l op de hulpvariabele en opleidingsniveau c, als fractie van Nl. Voor een afleiding van de formules voor E(κ0) en E(κ1), zie Scholtus en Pannekoek (2015). Een model past beter bij de data als de AIC lager is en leidt naar verwachting tot betere imputaties als E(κ0) en E(κ1) hoger zijn.

Simulatiestudie
Na de selectie van de kenmerken kunnen we met een simulatie een schatting maken van de mate waarin de modellen met de geselecteerde kenmerken ontbrekende opleidingsniveaus correct voorspellen. De opzet van de simulatiestudie is als volgt:

a. Binnen de groep kinderen voor wie het opleidingsniveau van beide ouders bekend is
verwijderen we steeds willekeurig voor (ongeveer) 5% van de ouders de
waargenomen opleidingsniveaus. (De manier waarop dit gebeurt luistert vrij nauw,
omdat de extra ontbrekende waarden min of meer dezelfde verdeling moeten hebben
als de waarden die in het oorspronkelijke bestand al ontbreken, anders werkt de
imputatiemethode voor deze extra ontbrekende waarden niet goed. Zie de toelichting
hieronder). We herhalen dit voor S=5 simulatieronden.
b. Per simulatieronde voeren we J=10 imputaties uit van alle ouders met onbekende
opleidingsniveaus (inclusief de zojuist verwijderde waarden) met elk van de
geselecteerde modellen. Ter vergelijking passen we daarnaast ook het imputatiemodel
uit de huidige indicator toe (maar wel gebruikmakend van multinomiale logistische
regressie).
c. Per simulatieronde en model berekenen we onderwijsscores [volgens de huidige
regeling zoals beschreven in CBS (2019)] op basis van de tien imputaties voor de
kinderen met ouders met verwijderde opleidingsniveaus en vergelijken deze met de
onderwijsscores die zouden zijn berekend als de opleidingsniveaus niet waren
verwijderd.

Toelichting bij stap (a): om bij het simuleren van nieuwe ontbrekende waarden aan te sluiten bij de werkelijke verdeling van ontbrekende waarden in het Opleidingsniveaubestand wordt de volgende aanpak gevolgd. Bij de moeders worden extra ontbrekende waarden gesimuleerd binnen de personen voor wie het opleidingsniveau (ook) in de EBB is waargenomen, waarbij de kans om te ontbreken per record evenredig is met het gewicht van de moeder uit het Opleidingsniveaubestand. Het achterliggende idee is dat een record met gewicht = w in feite w moeders in de echte populatie representeert, die allemaal hadden kunnen ontbreken. De ontbrekende waarden worden gesimuleerd door eerst een pseudopopulatie te genereren met van elk beschikbaar record w kopieën (afgerond op het dichtstbijzijnde gehele getal) en daaruit een enkelvoudig aselecte steekproef van 5% te trekken. Van alle moeders van wie minimaal één kopie is getrokken in de steekproef wordt het opleidingsniveau ontbrekend gemaakt. Bij de vaders werkt dit analoog. Gemakshalve worden de ontbrekende waarden bij moeders en vaders onafhankelijk van elkaar gesimuleerd.

NB: bij de ontwikkeling van het imputatiemodel voor de oorspronkelijke indicator is een soortgelijke aanpak gevolgd (CBS, 2016), alleen kon daar gebruik worden gemaakt van data uit het COOL-onderzoek, waarin het opleidingsniveau van beide ouders altijd was waargenomen (zij het volgens een andere indeling dan in het Opleidingsniveaubestand). Een simulatiestudie kon daarom worden gedaan door ontbrekende waarden aan te brengen in de COOL-data voor precies die ouders van wie het opleidingsniveau ontbrak in het Opleidingsniveaubestand. Dit leidde vanzelf tot een realistisch patroon van ontbrekende waarden.

We berekenen de volgende evaluatiematen:

  1. Per simulatieronde en model berekenen we de gemiddelde geïmputeerde verdeling van opleidingsniveau bij de ouders met verwijderde opleidingsniveaus en vergelijken deze met de werkelijke verdeling voor deze ouders. Per model berekenen we het gemiddelde en de standaarddeviatie van de afwijking tussen de twee verdelingen (over simulatieronden heen) en zetten deze uit in een plot.
  2. Verder berekenen we per simulatieronde en model de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten (corresponderend met de maten κ0 en κ1, maar nu als gesimuleerde fracties in plaats van de theoretische verwachting). Per model berekenen we het gemiddelde en de standaardfout van deze gemiddelde fracties (over simulatieronden heen). Ook kijken we naar het verschil tussen deze fracties voor elk model ten opzichte van het huidige imputatiemodel, en naar de verschillen tussen opeenvolgende modellen qua complexiteit.
  3. Van de berekende onderwijsscores gebaseerd op de imputaties maken we per model een plot van de verdeling van de gevonden afwijkingen ten opzichte van de scores waarbij opleidingsniveau niet is geïmputeerd.

Bij het berekenen van deze maten maken we onderscheid tussen deelpopulaties waarbij alleen de vader, alleen de moeder, of beide ouders geïmputeerde opleidingsniveaus hebben. Verder bekijken we de maten bij onderdeel 1 ook voor deelpopulaties van kinderen van verschillende leeftijden.

Het imputatiemodel dat gemiddeld de kleinste afwijkingen geeft t.o.v. de situatie zonder verwijderde waarden heeft de voorkeur. Als de resultaten van 1, 2 en 3 niet eenduidig zijn, is een betere prestatie bij 3 in principe belangrijker dan een betere prestatie bij 1 en 2.

Validatiestudie
Voor de validatiestudie maken we gebruik van de verzameling V van ouders voor wie het opleidingsniveau ontbreekt in het bestand van 2021 maar is waargenomen in het bestand van 2022. De aanname hierbij is dat het opleidingsniveau van deze ouders uit het bestand van 2022 een goede proxywaarneming is voor hun opleidingsniveau in 2021.

Dezelfde imputatiemodellen als in de simulatiestudie zijn onderzocht. Voor deze validatiestudie zijn deze modellen toegepast op het bestand van 2021 met de ontbrekende waarden die in werkelijkheid voorkomen in dat bestand. Zoals gebruikelijk worden er J=10 imputaties per persoon gemaakt. Na afloop wordt de kwaliteit van de imputaties geëvalueerd op alleen de deelverzameling V.

Een probleem met deze validatiestudie is dat de deelverzameling V geen representatieve steekproef is uit alle ouders met onbekende opleidingsniveaus in 2021. Uit een verkennende analyse bleek dat dit een selectieve groep ouders is naar een aantal achtergrondkenmerken en dat bovendien de bestaande ophooggewichten uit het Opleidingsniveaubestand van 2021 niet volledig kunnen corrigeren voor deze selectiviteit. Er is daarom, voor de drie deelpopulaties A, B en C apart, een herweging uitgevoerd via lineair wegen (Bethlehem, 2007). Na deze herweging heeft de deelverzameling V voor zowel moeders als vaders exact dezelfde (gewogen) verdeling als de hele populatie voor de volgende kenmerken:

  • opleidingsniveau andere ouder [8] (alleen bij deelpopulaties B en C)
  • inkomen ouder [21]
  • herkomstgroepering ouder [8]
  • type economische activiteit werkgever ouder [12]
  • leeftijd ouder [5]

Deze kenmerken zijn gekozen omdat ze in de stepwise-analyse naar voren kwamen als de kenmerken die het sterkst samenhangen met opleidingsniveau.

We berekenen vergelijkbare evaluatiematen als bij de simulatiestudie:

  1. Per model berekenen we de gemiddelde geïmputeerde verdeling van opleidingsniveau bij de ouders in deelverzameling V en vergelijken deze met de werkelijke verdeling voor deze ouders (zoals waargenomen in 2022). Hierbij wordt rekening gehouden met de gewichten na de herweging die hierboven is beschreven. Per model berekenen we het gemiddelde en de standaardfout van de afwijking tussen de twee verdelingen. Voor het bepalen van de standaardfout is er in dit geval, anders dan bij de simulatiestudie, geen herhaalde simulatie beschikbaar. In plaats daarvan berekenen we de variantieschatting \(\widehat{var}\left( {\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c} \right)\) die wordt afgeleid in Bijlage 3.
  2. Verder berekenen we per model de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten.
  3. Van de berekende onderwijsscores gebaseerd op de imputaties maken we per model een plot van de verdeling van de gevonden afwijkingen ten opzichte van de scores waarbij opleidingsniveau niet is geïmputeerd.

Bij het berekenen van deze maten maken we wederom onderscheid tussen de subgroepen waarbij alleen de vader, alleen de moeder, of beide ouders een geïmputeerd opleidingsniveau hebben. Ook bekijken we de evaluatiematen bij onderdeel 1 wederom voor deelpopulaties van kinderen van verschillende leeftijden.

3.3 Resultaten

3.3.1 Imputatie hulpvariabelen

De resultaten lieten zien dat het gebruik van donorimputatie bij een grote dataset, met het gebruik van veel achtergrondkenmerken aanloopt tegen geheugenproblemen. Zo moet er bij een methode als KNN voor elke persoon met ontbrekende waarden, een afstandsscore worden berekend tot de andere donoren in het bestand. Dit aantal loopt al snel op bij een grote dataset, waardoor een grote hoeveelheid informatie moet worden opgeslagen in het geheugen. Dit zal ook net zoals bij de predictive mean matching invloed kunnen hebben op de snelheid. Voor de huidige toepassing zijn deze methoden daarom minder geschikt.

De beslisboomtechnieken kunnen sneller werken omdat het maar eenmalig toegepast hoeft te worden op de dataset voor de groep donoren. Hierbij bleek een random forest model de snelste methode. Omdat de random forest methode zowel inhoudelijk past bij ons imputatiedoel (het imputeren van categorische en continue variabelen) en de snelste is binnen mice, zijn we verder gegaan met dit model voor de imputatie van de achtergrondkenmerken.

De snelheid van de methoden zijn eerst getest op een willekeurige steekproef van 100.000 uit de populatie bij de moeders en vaders. De volgende stap was het toepassen van het random forest model met mice op de gehele populatie voor de moeders en vaders. De huidige imputatie met mice bestond uit tien iteraties. We hebben daarbij ook getest of tien iteraties noodzakelijk is voor de random forest of dat minder interaties ook volstaat.

Om de imputatie voor burgerlijke staat, persoonlijk inkomen en de sociaal-economische categorie met de nieuwe methode te beoordelen, maken we twee vergelijkingen:

  • We bekijken de stabiliteit van de uitkomsten door telkens per ouder twee datasets te imputeren. Per kenmerk, zoals burgerlijke staat, bekijken we dan per geïmputeerde categorie, hoe deze verdeeld is in de imputaties voor de twee datasets. Op basis van het percentage wat overlapt over de twee imputatieronden, kunnen we dan de stabiliteit beoordelen. Daarnaast kunnen we zien of de categorieën die verschillen, ook inhoudelijk aan elkaar verwant zijn, of overduidelijk verkeerd zijn. Hoe hoger het percentage overlap, hoe stabieler de imputatie is. Voor het persoonlijk inkomen hebben we de imputatie ingedeeld in categorieën om eenzelfde vergelijking te kunnen maken.
  • We bekijken de verschillen tussen de oude methode (mice – pmm) en de nieuwe methode (mice – rf). Dit doen we door de frequentieverdeling van de kenmerken te vergelijken voor en na imputatie. Op persoonsniveau kan de imputatie wel variëren, maar op geaggregeerd niveau zou je verwachten dat de totale verdeling over de categorieën ongeveer gelijk blijft. Daarnaast bekijken we het verschil in de frequentieverdeling voor de oude en nieuwe methode. Hierin wil je vooral een methode die het dichtst bij de verdeling in de originele data blijft. Maar je wilt ook dat de methoden onderling niet sterk afwijken, wat zou aanduiden dat de imputaties niet stabiel zijn over verschillende methoden heen. Ook maken we een vergelijking van de verdeling over de geïmputeerde categorieën tussen de oude en nieuwe methoden, om de stabiliteit te beoordelen.

De resultaten lieten zien dat de random forest methode aanzienlijk sneller is op de totale populatie dan de oude methode. Daarnaast zien we dat de frequentieverdeling stabiel blijft voor de imputatie met zowel één als tien iteraties als over twee imputatieronden heen.

Na de keuze voor het nieuwe model, hebben we het model uitgebreid door extra achtergrondkenmerken toe te voegen aan de imputatie. We bekijken daarbij eerst of we de achtergrondkenmerken van de andere ouder mee kunnen nemen. Omdat de andere ouder niet altijd bekend is, geven we het model ook een kenmerk mee wat aangeeft of de andere ouder wel of niet in de BRP zit. Op deze manier geven we toch extra informatie mee over de groep die wel bekend is en niet bekend is. De kenmerken van die andere ouder die niet bekend is, zullen dan ook ontbreken. In dat geval zal mice ook die ontbrekende waarden imputeren. Omdat de kenmerken voor een groot deel van de andere ouders wel bekend zijn, zal dit toch voldoende informatie kunnen toevoegen om een bijdrage te leveren aan het imputatiemodel.

De resultaten worden weer vergeleken op de stabiliteit en met de methode waarbij alleen de kenmerken van de ouder zelf worden meegenomen. Hierin zien we een verbetering van het percentage overlap. Daarnaast zijn de categorieën die niet overlappen nu vaker inhoudelijk aan elkaar verwant dan voorheen.

Tot slot hebben we ook nog onderzocht of we het imputatiemodel nog kunnen uitbreiden met het opleidingsniveau van de ouder en/of andere ouder. In de gevallen dat we deze informatie wel hebben, kan dit ook weer een toegevoegde bijdrage leveren aan het imputatiemodel. De ontbrekende waarden zullen ook automatisch geïmputeerd worden door mice. Ook deze resultaten lieten zien dat de stabiliteit verbeterde na het toevoegen van het opleidingsniveau.

Voor de variabele burgerlijke staat van de moeder hebben we het totale effect geïllustreerd in de figuren 3.3.1. (huidige situatie) en 3.3.2 (implementatie alle beschreven wijzigingen). In de huidige situatie wordt in 2 opvolgende imputaties ongeveer 43 procent dezelfde waarde geïmputeerd. Na het toepassen van alle verbeteringen stijgt dit tot 67 procent. Voor de variabele burgerlijke staat was de verbetering van de stabiliteit het sterkst. Bij de overige variabelen was de verbetering minder sterk. Bij geen van de variabelen trad een verslechtering op.

3.3.1_Vergelijking_imputatie_huidig_burg_staat_moeder

3.3.2._Vergelijking_imputatie_oplniv_Burg_staat_moeder

3.3.2 Regressiemethodiek opleidingsniveau

Beide imputatiemodellen (multinomiale en continuation-ratio logistische regressie) zijn toegepast op hetzelfde bestand, namelijk het bestand waarmee de indicator voor 2022 is geproduceerd. Er is gekeken naar de volgende uitkomstmaten:

a. gemiddelde en standaarddeviatie (over 10 imputatieronden) van de verdeling van
opleidingsniveau vader of moeder na imputatie;
b. verdeling van onderwijsscores berekend op basis van geïmputeerde data;
c. verdeling verschillen tussen onderwijsscores berekend op basis van geïmputeerde data
met verschillende methoden:
correlatie;
heatmap van verschillen tussen scores (naar beneden afgerond op geheel getal);
staafdiagram van grootte van verschillen tussen scores.

De uitkomstmaten bij (b) en (c) zijn zowel berekend op alle data als op alleen de data van kinderen bij wie het opleidingsniveau van ten minste één ouder wordt geïmputeerd. Verder is, ter vergelijking, de huidige methode (op basis van continuation-ratio logistische regressie) twee keer onafhankelijk toegepast.
Bij alle uitkomstmaten was de conclusie steeds dat de verschillen die we zien tussen de twee verschillende modellen van een vergelijkbare omvang zijn als die bij herhaalde toepassing van het huidige model. Dat wil zeggen: veranderen van imputatiemethode leidt tot verschillen in de geïmputeerde waarden die niet groter zijn dan wat men zou zien als de huidige imputatiemethode twee keer onafhankelijk wordt uitgevoerd. In dit opzicht zou het overstappen op multinomiale logistische regressie een kleine impact hebben op de resultaten: de verschillen vallen binnen de ‘normale imputatieruis’ van de bestaande methode.

Verder was te zien dat de verdelingen na imputatie bij multinomiale logistische regressie niet systematisch afwijken van de verdeling bij continuation-ratio logistische regressie. Met name bij de moeders was te zien dat de relatief grootste afwijkingen voorkomen bij de hoogste opleidingsniveaus. Vanwege de manier waarop het continuation-ratio-model geschat wordt, is het aannemelijk dat de imputaties voor hogere opleidingsniveaus bij dit model minder nauwkeurig zijn dan de imputaties voor lagere opleidingsniveaus. Dat de verschillen tussen de methoden relatief groot waren bij de hoogste opleidingsniveaus is plausibel in het licht van deze aanname. Dit zou bovendien een aanwijzing kunnen zijn dat de imputaties bij multinomiale logistische regressie voor de hoogste opleidingsniveaus nauwkeuriger zijn dan bij de huidige methode.

3.3.3 Imputatie opleidingsniveau

Selectie van achtergrondkenmerken
Deze analyse is eenmaal uitgevoerd voor alle vaders of moeders met bekende opleidingsniveaus en eenmaal voor alleen de ouderparen met beide opleidingsniveaus bekend. Het kenmerk ‘opleidingsniveau andere ouder’ is alleen meegenomen bij deze tweede groep. Deze tweede analyse is relevant voor het imputeren van onbekende waarden als het opleidingsniveau van de andere ouder beschikbaar is, de eerste analyse is relevant voor het imputeren als beide opleidingsniveaus onbekend zijn. De uiteindelijk gekozen imputatiemodellen mogen voor beide situaties verschillen.

Tabel 3.3.3 en 3.3.4 tonen de uitkomsten van de analyses voor de eerste groep, tabel 3.3.5 en 3.3.6 voor de tweede groep. Kenmerken/indelingen die gemarkeerd zijn, zijn behouden voor het vervolg (de stepwise-analyse). De niet-gekozen indelingen leidden niet tot een duidelijke verbetering ten opzichte van de gekozen indelingen. Het enige kenmerk dat in deze fase geheel is afgevallen is de leeftijd van het kind, aangezien dit kenmerk geen meerwaarde bleek te hebben boven de leeftijd van de ouder zelf.

3.3.3 Uitkomsten bivariate analyses voor opleidingsniveau moeder in de deelpopulatie moeders met een bekend opleidingsniveau
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante14906983,60,16230,3793
Leeftijd moeder [5*]S14740694,60,16810,3882
Leeftijd moeder [8]14725961,80,16860,3884
Leeftijd moeder [in jaren]14816131,00,16500,3818
Burgerlijke staat moeder [3*]14826593,60,16490,3840
Burgerlijke staat moeder [4]S14824399,40,16500,3841
Herkomstgroepering moeder [8*]S14322913,10,18310,4083
Inkomen moeder [4*]S13488710,10,21400,4755
Inkomen moeder [5]13470075,00,21560,4753
Inkomen moeder [6]S13346684,30,22150,4826
Inkomen moeder [11]S13227184,00,22770,4887
Inkomen moeder [21]S13172711,10,23060,4919
Inkomen moeder [continu]13516276,90,21420,4713
Welvaart huishouden [5]S14041453,80,19440,4371
Welvaart huishouden [6]14012920,90,19560,4386
Welvaart huishouden [11]S13967297,80,19750,4411
Welvaart huishouden [21]S13919176,50,19920,4442
Sociaaleconomische categorie moeder [2*]S14359812,60,18020,4122
Sociaaleconomische categorie moeder [13]S14149862,20,18870,4249
Type economische activiteit werkgever
moeder [12]S14057107,10,19010,4290
Deeltijdfactor werk moeder [5]S14147939,00,18840,4255
Deeltijdfactor werk moeder [6]14152732,20,18820,4246
Deeltijdfactor werk moeder [11]S14128718,60,18920,4259
Stedelijkheidsgraad buurt [6*]S14789235,70,16620,3824
Leeftijd kind [in jaren]14755577,20,16680,3851

3.3.4 Uitkomsten bivariate analyses voor opleidingsniveau vader in de deelpopulatie vaders met een bekend opleidingsniveau
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante13181728,00,16140,3851
Leeftijd vader [5*]S13053641,00,16720,3942
Leeftijd vader [8]13040331,40,16770,3946
Leeftijd vader [in jaren]13088529,70,16500,3902
Burgerlijke staat vader [3*]13140265,50,16300,3881
Burgerlijke staat vader [4]S13139959,50,16300,3882
Herkomstgroepering vader [8*]S12715446,40,17850,4128
Inkomen vader [4*]S11968938,20,21120,4798
Inkomen vader [5]12364547,40,19370,4469
Inkomen vader [6]S12181841,10,20200,4637
Inkomen vader [11]S11926443,50,21340,4834
Inkomen vader [21]S11840266,80,21830,4879
Inkomen vader [continu]12083656,50,20510,4679
Welvaart huishouden [5]S12454769,00,19190,4399
Welvaart huishouden [6]12425657,80,19330,4417
Welvaart huishouden [11]S12375915,10,19580,4446
Welvaart huishouden [21]S12332717,60,19780,4477
Sociaaleconomische categorie vader [2*]S12919262,80,17110,4029
Sociaaleconomische categorie vader [13]S12746566,20,17880,4146
Type economische activiteit werkgever
vader [12]S12305263,20,19690,4521
Deeltijdfactor werk vader [5]S12883572,90,17210,4042
Deeltijdfactor werk vader [6]12891954,70,17190,4036
Deeltijdfactor werk vader [11]S12877831,30,17250,4048
Stedelijkheidsgraad buurt [6*]S13063363,00,16600,3884
Leeftijd kind [in jaren]13148700,40,16240,3862

3.3.5 Uitkomsten bivariate analyses voor opleidingsniveau moeder in de deelpopulatie ouderparen met beide opleidingsniveaus bekend
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante10681952,80,17190,3954
Opleidingsniveau vader [8*]S9397405,20,24320,5126
Leeftijd moeder [5*]S10523154,20,17980,4082
Leeftijd moeder [8]10512707,80,18030,4085
Leeftijd moeder [in jaren]10594659,00,17560,3998
Burgerlijke staat moeder [3*]10629956,80,17410,3992
Burgerlijke staat moeder [4]S10629794,30,17410,3992
Herkomstgroepering moeder [8*]S10267050,50,19110,4227
Inkomen moeder [4*]S9579981,50,22840,4969
Inkomen moeder [5]9564547,10,23040,4967
Inkomen moeder [6]S9475028,10,23670,5035
Inkomen moeder [11]S9388746,30,24320,5091
Inkomen moeder [21]S9348504,20,24610,5122
Inkomen moeder [continu]9603157,80,22850,4920
Welvaart huishouden [5]S9966883,30,20910,4608
Welvaart huishouden [6]9942577,60,21060,4625
Welvaart huishouden [11]S9904527,90,21280,4654
Welvaart huishouden [21]S9869388,90,21460,4685
Sociaaleconomische categorie moeder [2*]S10271129,60,18960,4281
Sociaaleconomische categorie moeder [13]S10121420,90,19840,4408
Type economische activiteit werkgever
moeder [12]S10053796,60,19960,4454
Deeltijdfactor werk moeder [5]S10102008,10,19910,4430
Deeltijdfactor werk moeder [6]10107260,10,19880,4418
Deeltijdfactor werk moeder [11]S10086733,40,20020,4433
Stedelijkheidsgraad buurt [6*]S10595742,00,17580,3985
Leeftijd kind [in jaren]10573179,10,17590,4004

3.3.6 Uitkomsten bivariate analyses voor opleidingsniveau vader in de deelpopulatie ouderparen met beide opleidingsniveaus bekend
VariabeleSelectieAICE(κ0)E(κ1)
Alleen constante10830481,90,16320,3873
Opleidingsniveau moeder [8*]S9545934,30,23270,5016
Leeftijd vader [5*]S10694950,80,17060,3991
Leeftijd vader [8]10685288,60,17110,3995
Leeftijd vader [in jaren]10731134,60,16800,3941
Burgerlijke staat vader [3*]10788264,10,16530,3909
Burgerlijke staat vader [4]S10788234,60,16530,3910
Herkomstgroepering vader [8*]S10453133,60,17970,4143
Inkomen vader [4*]S9807622,10,21490,4841
Inkomen vader [5]10129236,40,19700,4519
Inkomen vader [6]S9979488,60,20540,4687
Inkomen vader [11]S9769592,20,21710,4881
Inkomen vader [21]S9697800,10,22240,4927
Inkomen vader [continu]9894364,50,20920,4730
Welvaart huishouden [5]S10166966,80,19760,4485
Welvaart huishouden [6]10141294,60,19920,4504
Welvaart huishouden [11]S10099224,30,20190,4534
Welvaart huishouden [21]S10063916,30,20380,4564
Sociaaleconomische categorie vader [2*]S10598106,30,17350,4063
Sociaaleconomische categorie vader [13]S10458999,00,18100,4178
Type economische activiteit werkgever
vader [12]S10081898,50,20040,4571
Deeltijdfactor werk vader [5]S10566704,60,17460,4077
Deeltijdfactor werk vader [6]10573936,60,17430,4072
Deeltijdfactor werk vader [11]S10560012,50,17500,4085
Stedelijkheidsgraad buurt [6*]S10731617,00,16790,3908
Leeftijd kind [in jaren]10790578,00,16470,3890

Vervolgens is, voor moeder en vader apart, een forward stepwise-analyse uitgevoerd, wederom op basis van alleen de ouders met bekende opleidingsniveaus, met de geselecteerde kenmerken (een S in de kolom ‘selectie’) uit tabel 3.3.3 tot en met 3.3.6 als mogelijke hulpvariabelen om uit te kiezen. Tijdens deze analyse worden multinomiale logistische regressiemodellen geschat. In elke ronde wordt steeds het kenmerk toegevoegd dat leidt tot de grootste verbetering van de AIC-waarde, totdat er geen verbetering in AIC-waarde meer optreedt. Om de rekentijd te beperken zijn in deze analyse alleen de ouders meegenomen voor wie het opleidingsniveau in de EBB is waargenomen, terwijl bij het schatten van de modellen rekening is gehouden met de ophooggewichten uit het Opleidingsniveaubestand.

Ook deze analyse is tweemaal uitgevoerd: eenmaal voor alle vaders of moeders met bekende opleidingsniveaus en eenmaal voor alleen de ouderparen met beide opleidingsniveaus bekend, waarbij voor die laatste groep ook het kenmerk ‘opleidingsniveau andere ouder’ is meegenomen. Tabel 3.3.7 en 3.3.8 tonen de uitkomsten voor de eerste groep, tabel 3.3.9 en 3.3.10 voor de tweede groep.

3.3.7 Uitkomsten stepwise-analyse voor opleidingsniveau moeder in de deelpopulatie moeders met een bekend opleidingsniveau (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante76246197,7
21 + inkomen moeder [21]1405860071,2
32 + herkomstgroepering moeder [8*]495560602,4
43 + type economische activiteit werkgever moeder [12]775475840,0
54 + welvaart huishouden [21]1405439609,6
65 + leeftijd moeder [5*]285411758,9
76 + sociaaleconomische categorie moeder [13]845391979,0
87 + deeltijdfactor werk moeder [11]635374429,2
98 + stedelijkheidsgraad buurt [6*]355357229,0
109 + burgerlijke staat moeder [4]215352360,2
1110 + inkomen moeder [4*]215348643,3
1211 + deeltijdfactor werk moeder [5]145348159,1

3.3.8 Uitkomsten stepwise-analyse voor opleidingsniveau vader in de deelpopulatie vaders met een bekend opleidingsniveau (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante76902311,9
21 + inkomen vader [21]1406559602,7
32 + herkomstgroepering vader [8*]496329333,3
43 + type economische activiteit werkgever vader [12]776135087,0
54 + leeftijd vader [5*]286085007,3
65 + welvaart huishouden [21]1406053999,5
76 + sociaaleconomische categorie vader [13]776027150,2
87 + stedelijkheidsgraad buurt [6*]356002161,8
98 + deeltijdfactor werk vader [11]635987212,4
109 + inkomen vader [4*]215979859,2
1110 + burgerlijke staat vader [4]215977025,6
1211 + deeltijdfactor werk vader [5]145976284,2

3.3.9 Uitkomsten stepwise-analyse voor opleidingsniveau moeder in de deelpopulatie ouderparen met beide opleidingsniveaus bekend (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante75490300,0
21 + opleidingsniveau vader [8*]495146998,2
32 + inkomen moeder [21]1404884665,2
43 + herkomstgroepering moeder [8*]494692281,5
54 + type economische activiteit werkgever moeder [12]774634321,3
65 + leeftijd moeder [5*]284606179,7
76 + welvaart huishouden [21]1404588531,4
87 + deeltijdfactor werk moeder [11]634575446,2
98 + sociaaleconomische categorie moeder [13]704563273,1
109 + stedelijkheidsgraad buurt [6*]354554583,7
1110 + inkomen moeder [4*]214552206,9
1211 + burgerlijke staat moeder [4]214549987,4
1312 + deeltijdfactor werk moeder [5]144549384,4

3.3.10 Uitkomsten stepwise-analyse voor opleidingsniveau vader in de deelpopulatie ouderparen met beide opleidingsniveaus bekend (df = aantal extra te schatten parameters na toevoeging kenmerk)
stapmodeldfAIC
1alleen constante76377786,2
21 + opleidingsniveau moeder [8*]495985374,1
32 + inkomen vader [21]1405745312,3
43 + type economische activiteit werkgever vader [12]775596804,9
54 + herkomstgroepering vader [8*]495472270,9
65 + leeftijd vader [5*]285420651,1
76 + sociaaleconomische categorie vader [13]775398554,1
87 + stedelijkheidsgraad buurt [6*]355382453,1
98 + welvaart huishouden [21]1405368744,6
109 + deeltijdfactor werk vader [11]635359711,5
1110 + inkomen vader [4*]215354488,6
1211 + burgerlijke staat vader [4]215350848,4
1312 + deeltijdfactor werk vader [5]145350239,3

De resultaten in tabellen 3.3.9 en 3.3.10 bevestigen dat het opleidingsniveau van de andere ouder, indien beschikbaar, het beste kenmerk is om opleidingsniveau te modelleren (zoals was aangenomen in de huidige imputatiemethode). Het inkomen van de ouder zelf is het kenmerk dat daarna de meeste voorspelkracht heeft.

Op basis van de uitkomsten van de stepwise-analyses is besloten om de volgende modellen te testen in een verdere simulatie- en validatiestudie. Per deelpopulatie worden hieronder het kleinste en grootste model weergegeven dat is getest. Alle tussenliggende modellen waarbij steeds één extra term wordt toegevoegd, in de volgorde uit de stepwise-analyse, zijn ook getest.

  • Deelpopulatie C (moeders):
    • KLEINSTE MODEL:
      opleidingsniveau vader [8] × (inkomen moeder [21])
    • GROOTSTE MODEL:
      opleidingsniveau moeder [8] × (inkomen vader [21] + type economische activiteit werkgever vader [12] + herkomstgroepering vader [8] + leeftijd vader [5] + sociaaleconomische categorie vader [13] + stedelijkheidsgraad buurt [6] + welvaart huishouden [21] + deeltijdfactor werk vader [11] + burgerlijke staat vader [4] + deeltijdfactor werk vader [5])
  • Deelpopulatie B (vaders):
    • KLEINSTE MODEL:
      opleidingsniveau moeder [8] × (inkomen vader [21])
    • GROOTSTE MODEL:
      opleidingsniveau moeder [8] × (inkomen vader [21] + type economische activiteit werkgever vader [12] + herkomstgroepering vader [8] + leeftijd vader [5] + sociaaleconomische categorie vader [13] + stedelijkheidsgraad buurt [6] + welvaart huishouden [21] + deeltijdfactor werk vader [11] + burgerlijke staat vader [4] + deeltijdfactor werk vader [5])
  • Deelpopulatie A (moeders):
    • KLEINSTE MODEL:
      inkomen moeder [21] × (herkomstgroepering moeder [8])
    • GROOTSTE MODEL:
      inkomen moeder [21] × (herkomstgroepering moeder [8] + type economische activiteit werkgever moeder [12] + welvaart huishouden [21] + leeftijd moeder [5] + sociaaleconomische categorie moeder [13] + deeltijdfactor werk moeder [11] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [4] + deeltijdfactor werk moeder [5])
  • Deelpopulatie A (vaders):
    dezelfde modellen als bij deelpopulatie B

Simulatiestudie
De figuren 3.3.11 en 3.3.12 tonen het verschil tussen de geïmputeerde verdeling en echte verdeling van het opleidingsniveau van de moeder. In de kolommen is onderscheid gemaakt tussen de situatie waarbij alleen opleidingsniveau van de moeder wordt geïmputeerd (3.3.11) en waarbij opleidingsniveau van beide ouders wordt geïmputeerd (3.3.12). Elk punt vertegenwoordigt een imputatiemodel, waarbij model 1 het meest eenvoudige model is en model 10 het meest uitgebreide model. De foutenbalk rond een punt is gebaseerd op de spreiding over de simulatieronden heen. Dat de spreiding groter is bij de groep met beide opleidingsniveaus onbekend komt vooral doordat de steekproefomvang bij deze groep relatief klein is, vanwege de manier waarop de aanvullende ontbrekende waarden zijn gesimuleerd.

3_3_11_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_ma_onb

3_3_12_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_beide_onb

De geschatte verdelingen op basis van de verschillende imputatiemodellen liggen niet ver uit elkaar. Specifiek voor de uitsplitsing naar leeftijd van het kind is een duidelijke verbetering te zien op het moment dat de leeftijd van de moeder wordt opgenomen in het model (model 4 versus model 3). Daarna blijven de uitkomsten redelijk stabiel. De figuren 3.3.13 en 3.3.14 tonen vergelijkbare uitkomsten voor het imputeren van het opleidingsniveau van de vader.

3_3_13_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_pa_onb

3_3_14_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_beide_onb

Tabel 3.3.15 tot en met 3.3.18 tonen uitkomsten met betrekking tot de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten (κ0 en κ1). Tabel 3.3.15 gaat over de maat κ0 voor imputaties bij moeders. De derde kolom toont de gemiddelde waarde van κ0 over simulatieronden heen. De vierde kolom toont het verschil tussen de gemiddelde κ0 bij een bepaald model en het huidige model; de zesde kolom toont het verschil tussen de gemiddelde κ0 bij een bepaald model en het direct voorafgaande model qua complexiteit. In de kolommen vijf en zeven zijn waarden met een ‘S’gemarkeerd als zij positief zijn en minimaal twee keer zo groot als de bijbehorende standaardfout over simulatieronden heen. Dat wil zeggen: een gemakeerde waarde in de vierde of zesde kolom geeft aan dat een bepaald model een significante verbetering geeft ten opzichte van het huidige model of het voorafgaande model qua complexiteit. De tabellen 3.3.16, 3.3.17 en 3.3.18 zijn op dezelfde manier opgebouwd. Te zien is dat alle voldoende complexe modellen een significante verbetering in κ0 en κ1 laten zien ten opzichte van het huidige model, zowel bij moeders als bij vaders. De meest complexe modellen geven echter geen significante verbetering meer ten opzichte van de voorafgaande, iets minder complexe modellen.

Afgaand op dit laatste criterium lijkt bij moeders model 7 een goed compromis te zijn tussen complexiteit van het model en nauwkeurigheid van de imputaties als het opleidingsniveau van beide ouders onbekend is. Als het opleidingsniveau van de vader wel bekend is scoren model 8 en 9 nog iets beter met betrekking tot maat κ0 (wel significant) en maat κ1 (niet significant). Bij vaders zijn de resultaten minder eenduidig. Hier lijkt model 8 een redelijk compromis als het opleidingsniveau van de moeder wel bekend is. Als het opleidingsniveau van de moeder niet bekend is, treedt nog wel een duidelijke verbetering op tot en met model 7, al is deze verbetering niet altijd statistisch significant.

3.3.15 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (κ0) voor moeders
Deel-populatie1)κ0 (gem.)Δκ0 huidig (gem.)Signifi-cantie2)Δκ0
cumulatief (gem.)
Signifi-cantie2)
C huidig0,2426
C10,2327-0,0099
C20,2422-0,00040,0095S
C30,25050,0079S0,0083S
C40,25520,0125S0,0046S
C50,25760,0149S0,0024S
C60,25930,0167S0,0017S
C70,26120,0186S0,0019S
C80,26260,0200S0,0014S
C90,26370,0211S0,0011S
C100,26290,0203S-0,0008
A huidig0,2123
A10,21340,0012
A20,22370,0114S0,0102S
A30,22880,0165S0,0051S
A40,23390,0217S0,0051S
A50,23990,0276S0,0060S
A60,24640,0342S0,0065S
A70,24910,0369S0,0027S
A80,25030,0381S0,0012
A90,25040,0381S0,0001 
1) C = alleen moeder onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan.
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

3.3.16 Uitkomsten met betrekking tot fractie imputaties maximaal één categorie naast de juiste categorie (κ1) voor moeders
Deel-populatie1)κ1 (gem.)Δκ1 huidig (gem.)Signifi-cantie2)Δκ1
cumulatief (gem.)
Signifi-cantie2)
C huidig0,5331
C10,5219-0,0111
C20,5304-0,00270,0085S
C30,53970,0067S0,0094S
C40,54510,0121S0,0054S
C50,54790,0148S0,0027S
C60,55070,0177S0,0029S
C70,55410,0210S0,0033S
C80,55490,0218S0,0008
C90,55590,0228S0,0010
C100,55580,0227S-0,0001
A huidig0,4864
A10,4860-0,0004
A20,49470,0082S0,0087
A30,50110,0147S0,0065S
A40,50920,0228S0,0081S
A50,51670,0303S0,0075S
A60,52320,0368S0,0066S
A70,52960,0432S0,0064S
A80,52920,0428S-0,0004
A90,53200,0456S0,0027
A100,52840,0420S-0,0035 
1) C = alleen moeder onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan. 
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

3.3.17 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (κ0) voor vaders
Deel-populatie1)κ0 (gem.)Δκ0 huidig (gem.)Signifi-cantie2)Δκ0
cumulatief (gem.)
Signifi-cantie2)
B huidig0,2350
B10,2238-0,0112
B20,23980,0048S0,0160
B30,24630,0114S0,0066
B40,24960,0146S0,0032
B50,25090,0159S0,0013
B60,25390,0189S0,0030
B70,25490,0200S0,0010
B80,25670,0218S0,0018
B90,25650,0215S-0,0002
B100,25740,0224S0,0009
A huidig0,2132
A10,1984-0,0148
A20,21900,0057S0,0205
A30,23220,0189S0,0132
A40,23520,0220S0,0031
A50,23880,0256S0,0036
A60,23740,0242S-0,0014
A70,24090,0276S0,0035
A80,24010,0269S-0,0008
A90,24150,0282S0,0014
A100,23830,0251S-0,0031 
1) B = alleen vader onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan.
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

3.3.18 Uitkomsten met betrekking tot fractie imputaties maximaal één categorie naast de juiste categorie (κ1) voor vaders
Deel-populatie1)κ1 (gem.)Δκ1 huidig (gem.)Signifi-cantie2)Δκ1
cumulatief (gem.)
Signifi-cantie2)
B huidig0,4948
B10,4837-0,0110
B20,50680,0121S0,0231S
B30,51160,0169S0,0048S
B40,51590,0212S0,0043S
B70,52080,0261S0,0011S
B80,52290,0281S0,0020S
B90,52330,0286S0,0005
B100,52340,0286S0,0001
A huidig0,4574
A10,4410-0,0164
A20,46940,0120S0,0284S
A30,48020,0229S0,0109S
A40,48840,0310S0,0082S
A50,49050,0332S0,0021
A60,49080,0334S0,0002
A70,49340,0360S0,0026
A80,49180,0345S-0,0015
A90,49420,0369S0,0024
A100,49200,0346S-0,0022 
1) B = alleen vader onbekend, A = vaders en moeders onbekend.
De getallen duiden de modellen aan.
2) Het verschil is positief en minimaal twee keer zo groot als de bijbehorende standaardfout.

Tabel 3.3.19 toont per model en per deelpopulatie de vertekening en de wortel van de gemiddelde kwadratische afwijking (RMSE) van de onderwijsscores op basis van geïmputeerde opleidingsniveaus. Hierbij is de vertekening gedefinieerd als het gemiddelde verschil tussen de scores op basis van imputaties en op basis van echte waarden, en de RMSE als de standaarddeviatie van dit verschil tussen scores. Een imputatiemodel werkt beter naarmate de vertekening en RMSE dichter bij 0 liggen. Te zien is dat voor alle drie de deelpopulaties de meest complexe modellen leidden tot de kleinste (absolute) vertekening en ook de kleinste RMSE. De uitkomsten voor modellen 7 t/m 10 liggen steeds dicht bij elkaar.

3.3.19 Verschillen tussen onderwijsscores berekend op basis van geïmputeerde en echte opleidingsniveaus: vertekening en RMSE per imputatiemodel
deelpopulatiemodelvertekeningRMSE
alleen moeder onbekend (C)huidig-0,15882,4113
1-0,34852,3904
2-0,31932,3914
3-0,32222,3709
4-0,14352,3752
5-0,14302,3649
6-0,13742,3553
7-0,13552,3465
8-0,14082,3457
9-0,13282,3397
10-0,13392,3349
alleen vader onbekend (B)huidig-0,01281,9888
10,03232,0168
20,00111,9354
30,02011,9319
4-0,00871,9104
5-0,01381,9067
6-0,01741,903
7-0,02261,8989
8-0,01431,8903
9-0,01541,8875
10-0,01701,8879
beide onbekend (A)huidig-0,34724,2333
1-0,59544,285
2-0,59194,1013
3-0,55854,1229
4-0,34534,0584
5-0,37563,9713
6-0,33733,9398
7-0,30833,9218
8-0,35173,932
9-0,33323,9141
10-0,32953,9035

Validatiestudie
Figuren 3.3.20 tot en met 3.3.23 tonen de verschillen tussen de geschatte verdeling van opleidingsniveau voor moeders en vaders op basis van de geïmputeerde waarden en de waargenomen waarden uit 2022 (als proxy voor de echte waarden in 2021). De opbouw van deze figuren is hetzelfde als bij de figuren 3.3.11 tot en met 3.3.14, alleen is de foutenbalk nu gebaseerd op de variantiebenadering uit Bijlage 3.

3_3_20_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_ma_onb

3_3_21_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_moeder_beide_onb

In vergelijking met de simulatiestudie zijn nu iets grotere afwijkingen te zien. Net als in de simulatiestudie, zijn de uitkomsten van de verschillende imputatiemodellen redelijk vergelijkbaar, in elk geval vanaf het moment dat de leeftijd van de ouder is opgenomen in het model (model 4).

3_3_22_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_pa_onb

3_3_23_Verschil_tussen_geimputeerde_en_echte_verdeling_opleidingsniveau_vader_beide_onb

Tabel 3.3.24 en 3.3.25 laten uitkomsten zien over κ0 en κ1, de gerealiseerde fractie imputaties die exact gelijk zijn aan de juiste categorie of daar maximaal één categorie naast zitten, voor moeders (tabel 3.3.24) en vaders (tabel 3.3.25). Bij de meest complexe modellen is een kleine verbetering in κ0 en κ1 te zien ten opzichte van het huidige imputatiemodel. De verschillen tussen de meest complexe modellen onderling zijn echter klein en het meest complexe model scoort niet per se het beste. De ‘beste’ modellen die bij de resultaten van de simulatiestudie zijn voorgesteld als compromis lijken ook op basis van de resultaten in de tabellen 3.3.24 en 3.3.25 een redelijke keuze.

3.3.24 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (K0) of maximaal één categorie naast de juiste categorie (K1) voor moeders
deelpopulatiemodel
κ0 κ1
alleen moeder onbekend (C)huidig0,22110,4923
10,20570,4674
20,21560,4825
30,21990,4897
40,22590,4926
50,23140,5032
60,22210,4880
70,23460,5000
80,23280,5018
90,23460,5003
100,22620,5020
beide onbekend (A)huidig0,20490,4719
10,19930,4543
20,20740,4689
30,20350,4641
40,20250,4663
50,21050,4795
60,21940,4953
70,22690,5010
80,21640,4906
90,21670,4924
100,22330,4990

3.3.25 Uitkomsten met betrekking tot fractie imputaties exact gelijk aan de juiste categorie (κ0) of maximaal één categorie naast de juiste categorie (κ1) voor vaders
deelpopulatiemodel
κ0κ1
alleen vader onbekend (B)huidig0,20330,4481
10,19200,4347
20,20520,4627
30,20490,4600
40,21490,4603
50,21520,4655
60,21630,4704
70,22730,4807
80,22490,4880
90,21950,4757
100,21910,4737
beide onbekend (A)huidig0,19660,4277
10,18230,4173
20,18620,4263
30,20500,4392
40,21100,4454
50,20690,4484
60,21410,4564
70,21640,4548
80,20960,4503
90,21020,4567
100,21460,4600

Tabel 3.3.26 toont de vertekening en RMSE, op dezelfde manier als eerder in tabel 3.3.19. Ook hier zijn de conclusies hetzelfde als bij de simulatiestudie. De uitkomsten voor modellen 7 t/m 10 liggen steeds dicht bij elkaar.

3.3.26 Verschillen tussen onderwijsscores berekend op basis van geïmputeerde en ‘echte’ (d.w.z. 2022) opleidingsniveaus: vertekening en RMSE per imputatiemodel
deelpopulatiemodelvertekeningRMSE
alleen moeder onbekend (C)huidig0,90612,6337
10,69672,5924
20,76772,5953
30,71502,6246
40,82812,6388
50,81602,6106
60,84632,6036
70,84592,5987
80,86932,5791
90,86072,5856
100,87122,5944
alleen vader onbekend (B)huidig0,38242,1936
10,50552,2453
20,50562,1810
30,45772,1933
40,45412,1978
50,47172,1961
60,44442,1752
70,45422,1910
80,48172,1846
90,46292,1830
100,46282,1879
beide onbekend (A)huidig0,71782,8088
10,61552,8126
20,62302,7719
30,62982,7838
40,71362,7951
50,72842,7566
60,70482,7127
70,70222,7226
80,71952,7217
90,71882,7299
100,70712,7115

3.4 Conclusies

Imputatie hulpvariabelen

Voor de imputatie van de achtergrondkenmerken, die uiteindelijk gebruikt zullen worden voor de imputatie van het opleidingsniveau, stellen we een nieuwe methode voor. Ten eerste zullen we de methode versnellen en beter passend maken bij de kenmerken door een random forest model te gebruiken met het mice package. Ten tweede breiden we de kenmerken uit door ook de kenmerken van de andere ouder mee te nemen. Tot slot voegen we ook nog kenmerken toe met betrekking tot het opleidingsniveau van de ouders waar deze wel bekend is. De aanpassingen laten zien dat de imputaties stabieler worden en in totaal een frequentieverdeling hebben voor de kenmerken die aansluit bij de originele dataset met ontbrekende waarden.

Regressiemethodiek opleidingsniveau

De uitkomsten van de analyse hebben laten zien dat de verschillen vallen binnen de ‘normale imputatieruis’ van de bestaande methode. Omdat bij multinomiale logistische regressie minder maatwerk nodig is in de programmatuur en meer gebruik kan worden gemaakt van standaard beschikbare programmatuur is het aan te bevelen om in de toekomst multinomiale logistische regressie te gebruiken voor het imputeren van opleidingsniveaus voor gebruik bij de risico-indicator onderwijsachterstanden.

Imputatie opleidingsniveau

Afgaand op de simulatiestudie en validatiestudie lijken de imputatiemodellen 7 t/m 10 voor moeders en vaders de beste resultaten te geven, waarbij de resultaten voor deze modellen onderling van vergelijkbare kwaliteit zijn. Met name op basis van de conclusies die zijn getrokken uit tabellen 3.3.15 t/m 3.3.18 stellen we voor om de volgende modellen te kiezen:

  • Deelpopulatie C (moeders) – model 9:
    opleidingsniveau vader [8] × (inkomen moeder [21] + herkomstgroepering moeder [8] + type economische activiteit werkgever moeder [12] + leeftijd moeder [5] + welvaart huishouden [21] + deeltijdfactor werk moeder [11] + sociaaleconomische categorie moeder [13] + stedelijkheidsgraad buurt [6] + burgerlijke staat moeder [4])
  • Deelpopulatie B (vaders) – model 8:
    opleidingsniveau moeder [8] × (inkomen vader [21] + type economische activiteit werkgever vader [12] + herkomstgroepering vader [8] + leeftijd vader [5] + sociaaleconomische categorie vader [13] + stedelijkheidsgraad buurt [6] + welvaart huishouden [21] + deeltijdfactor werk vader [11])
  • Deelpopulatie A (moeders) – model 7:
    inkomen moeder [21] × (herkomstgroepering moeder [8] + type economische activiteit werkgever moeder [12] + welvaart huishouden [21] + leeftijd moeder [5] + sociaaleconomische categorie moeder [13] + deeltijdfactor werk moeder [11] + stedelijkheidsgraad buurt [6])
  • Deelpopulatie A (vaders):
    hetzelfde model als bij deelpopulatie B

(NB: voor vaders in deelpopulatie A is het eerder geïmputeerde opleidingsniveau van de moeder beschikbaar als kenmerk voor het imputatiemodel. Daarom kan voor de vaders in deelpopulatie A hetzelfde imputatiemodel worden gebruikt als in deelpopulatie B).

5) Zie paragraaf 4.5 van de plausibiliteitsanalyses van achterstandsscores van peildatum 1 oktober 2021.

4. Imputatie onderwijsscores

4.1 Inleiding

Binnen de systematiek van de huidige risico-indicator onderwijsachterstanden kan voor een klein deel van de kinderen geen risico op onderwijsachterstand worden berekend omdat er belangrijke achtergrondgegevens ontbreken. Meestal gaat dit om kinderen van wie we niet beschikken over informatie van één of beide ouders (ongeveer 5 procent van alle peuters van 2,5 tot 4 jaar en alle basisschoolleerlingen). Uit de plausibiliteitsanalyses van de achterstandsscores voor scholen en gemeenten die het CBS jaarlijks publiceert blijkt dat de (geïmputeerde) onderwijsscores van deze leerlingen jaar-op-jaar sterk kunnen fluctueren. Dit kan leiden tot sterke fluctuaties van de achterstandsscores (en dus het toegekende budget) van scholen waarbij voor een groot aandeel van de leerlingen de onderwijsscore wordt geïmputeerd. Het verbeteren van de imputatiemethode van onderwijsscores kan leiden tot kleinere verschillen in onderwijsscores jaar-op-jaar en mogelijk een stabielere toekenning van de verdeling van het onderwijsachterstandenbudget. Voor de herijking van het imputatiemodel onderzoeken we welke additionele achtergrondkenmerken kunnen worden meegenomen om onderwijsscores preciezer te kunnen schatten. Daarnaast onderzoeken we of de imputatiemethode verbeterd kan worden door het model op te splitsen naar subgroepen en te kijken naar verschillende voorspelmethodes om te zorgen voor meer stabiliteit in geïmputeerde scores op individueel niveau, schoolniveau en gemeenteniveau over de tijd.

4.2 Data en methoden

In dit onderzoek maken we gebruik van de data van de risico-indicator onderwijsachterstanden basisonderwijs. Dit bestand bevat de gegevens van alle kinderen van 2,5 tot 4 jaar en basisschoolleerlingen op 1 februari in de jaren 2022 en 2023. Omdat er voor een klein deel van de kinderen geen risico op onderwijsachterstand kan worden berekend, wordt de onderwijsscore geïmputeerd. Welke imputatiemethode wordt gebruikt is afhankelijk van welke informatie er wél beschikbaar is:

  • Een kind staat wel ingeschreven in de BRP, maar één of beide ouders niet.
  • Een kind staat niet ingeschreven in de BRP.
  • Een kind staat geregistreerd als asielzoeker en/of heeft een verblijfsvergunning gekregen.

Voor het verbeteren van de imputatie van onderwijsscores richtten we ons op de grootste groep van de kinderen waarvoor geïmputeerd moet worden: de kinderen die zelf wel staan ingeschreven in de BRP maar van wie één of beide ouders niet bekend zijn in de registers van het CBS.

Met behulp van predictive mean matching wordt er voor deze kinderen een onderwijsscore geïmputeerd. Dit imputatieproces bestaat uit 3 stappen. In de eerste stap wordt er op basis van een groep kinderen voor wie de onderwijsscore direct is bepaald (de donorgroep) een voorspelmodel geschat om onderwijsscores te kunnen voorspellen. In de tweede stap wordt dit voorspelmodel gebruikt om een onderwijsscore te schatten voor zowel de kinderen van wie geen onderwijsscore kon worden berekend (de te imputeren groep) als voor de kinderen uit de donorgroep. In de laatste stap wordt er voor de kinderen uit de te imputeren groep een donor geselecteerd van wie de voorspelde score dichtbij de voorspelde score van te imputeren score ligt. Vervolgens wordt dan de daadwerkelijke score van de donor overgenomen voor het kind uit de te imputeren groep. De uiteindelijke selectie van de donor is iets ingewikkelder en vindt tevens plaats in verschillende stappen; een uitgebreide beschrijving van de imputatiemethode is te vinden in het vierde methodologische rapport van de vorige herijking.

Om de huidige imputatiemethode van onderwijsscores te verbeteren richtten we ons in dit onderzoek op het optimaliseren van het voorspelmodel. De verbetering van het imputatiemodel delen we op in verschillende stappen, zoals weergegeven in figuur 4.2.1.

4.2.1 Stappen in analyse

2024LR079 InfographicStap 1 Stap 2 Stap 3 Differentiëren in imputatiemodel Stepwise analyse Opsplitsen voorspelmodel naar imputatiecategorie Vergelijken verschilscores op individueel niveau en schoolniveau ForwardselectieStap 1Stap 2Stap 3Differentiëren in imputatiemodelStepwise analyseOpsplitsen voorspelmodel naar imputatiecategorieVergelijken verschilscores op individueel niveau en schoolniveauForwardselectie

Gedurende deze stappen willen we de volgende onderzoeksvragen beantwoorden:

  • Hoe kunnen we het huidige imputatiemodel opsplitsen naar imputatiecategorie om zo de voorspelling van onderwijsscores te optimaliseren (stap 1)?
  • Welke (combinatie van) achtergrondkenmerken kan het best worden gebruikt om met een lineair-regressiemodel de onderwijsscore te schatten (stap 2)?
  • In hoeverre resulteert de aangepaste imputatiemethode in meer stabiliteit in onderwijsscores (individueel niveau) en achterstandsscores (schoolniveau en gemeenteniveau) ten opzichte van de huidige imputatiemethode (stap 3)?

Het imputatiemodel schatten we op een subset van de data met peildatum 1 februari 2023 (schooljaar 2022/’23) waarin enkel kinderen voorkomen van wie de onderwijsscore direct is bepaald en het opleidingsniveau van tenminste één van de ouders bekend is. Om de variabele selectie te valideren worden daarnaast de data met peildatum 1 februari 2022 (schooljaar 2021/’22) gebruikt.

Stap 1: Differentiëren imputatiemodel

De eerste stap betreft een meer gedifferentieerde aanpak van de imputatie van onderwijsscores met predictive mean matching. Het huidige voorspelmodel is uniform voor de drie te imputeren categorieën (vader onbekend, moeder onbekend, of beide ouders onbekend). Dit betekent dat een beperkt aantal achtergrondkenmerken kan worden gebruikt om de onderwijsscores te voorspellen, waardoor niet alle relevante informatie kan worden benut voor elke categorie. Deze aanpak kan resulteren in suboptimale voorspellingen van onderwijsscores, omdat het model gedwongen wordt om dezelfde set variabelen te gebruiken voor de drie categorieën, zelfs wanneer er mogelijk meer informatie beschikbaar is. We zouden bijvoorbeeld in de groep waarbij informatie van de moeder ontbreekt gegevens van de vader kunnen gebruiken om onderwijsscores beter te voorspellen. Het opsplitsen van het voorspelmodel voor de drie imputatiecategorieën en het aanpassen van de voorspellende variabelen aan de specifieke imputatiecategorie kan leiden tot meer accurate voorspellingen.

Door het voorspelmodel op te splitsen in drie verschillende modellen, kan er in stap 2 worden gekeken welke achtergrondkenmerken het best meegenomen kunnen worden voor de drie verschillende imputatiecategorieën.

Stap 2: Stepwise regressieanalyse

Om onderwijsscores zo nauwkeurig mogelijk te kunnen schatten wordt er onderzocht welke achtergrondkenmerken van het kind en de ouders het best kunnen worden toegevoegd aan het voorspelmodel. Hierbij wordt in eerste instantie enkel gekeken naar variabelen die al aanwezig zijn in de onderzoeksbestanden van de risico-indicator onderwijsachterstanden. Het huidige voorspelmodel bestaat uit de volgende achtergrondkenmerken:

  • Herkomst van het kind;
  • Verblijfsduur van moeder (wanneer bekend);
  • Huishoudinkomen (inkomen vader + moeder opgeteld, wanneer bekend);
  • Ouders wel/niet in schuldhulpverlening;
  • Nederlands onderwijs anderstaligen (NOAT).

Dit model willen we iets aanpassen en uitbreiden met een aantal achtergrondkenmerken van het kind en van de ouders (wanneer bekend én beschikbaar in de onderzoeksbestanden). Het NOAT kenmerk wordt niet meer meegenomen omdat dit kenmerk in de nabije toekomst niet meer beschikbaar is.

Kindkenmerken
De achtergrondkenmerken van het kind zijn bekend voor alle kinderen die staan ingeschreven in de BRP en kunnen dus voor alle drie de imputatiecategorieën worden toegevoegd aan het voorspelmodel. De volgende achtergrondkenmerken zullen worden toegevoegd aan de stepwise regressieanalyse: 

  • Leeftijd kind;
  • Leeftijd waarop het kind naar Nederland kwam (leeftijd van het kind minus de verblijfsduur van het kind);
  • Stedelijkheid van de buurt waarin het kind woont.

Ouderkenmerken
Voor de twee imputatiecategorieën waarvan tenminste één van beide ouders bekend is kunnen we een aantal achtergrondkenmerken toevoegen van de andere ouder om de onderwijsscore nauwkeuriger te kunnen schatten. De volgende achtergrondkenmerken zullen worden toegevoegd aan de stepwise regressieanalyse:

  • Opleidingsniveau vader/moeder;
  • Leeftijd vader/moeder;
  • Sociaal-economische categorie vader/moeder;
  • Burgerlijke staat vader/moeder;
  • Inkomen vader/moeder (hiervoor toetsen we juridisch inkomen opgesplitst in 10 en 20 percentielen);
  • Verblijfsduur vader/moeder (hiervoor toetsen we zowel een categorische variabele als een continue variabele).

Wat het inkomen van ouders betreft was het initiële plan om inkomen als continue variabele mee te nemen in het voorspelmodel. Op deze manier zou zoveel mogelijk informatie kunnen worden gebruikt om onderwijsscores van leerlingen te voorspellen. Bij het inspecteren van de verschillende variabelen bleek echter dat er voor juridisch inkomen uitzonderlijke uitschieters aanwezig waren. Omdat dit kan resulteren in een schending van assumpties hebben we besloten om de variabele juridisch inkomen aan te passen naar percentielen om zo uitschieters te voorkomen.

Stepwise regressieanalyse
Door het uitvoeren van een stepwise regressieanalyse kunnen de belangrijkste achtergrondkenmerken worden geselecteerd. Met behulp van een forward search wordt gezocht naar het best passende model voor onze data:

  • Start met een leeg regressiemodel (bevat enkel een constante term).
  • Het regressiemodel wordt stap voor stap opgebouwd door steeds één kenmerk toe te voegen. Bij elke stap wordt het kenmerk geselecteerd dat leidt tot de grootste verbetering in het Bayesiaanse Informatie Criterium (BIC).
  • Dit proces wordt herhaald totdat het toevoegen van extra kenmerken niet langer resulteert in een significante verbetering van de BIC-waarde.

Met behulp van deze methode kunnen we een voorspelmodel ontwikkelen voor de drie imputatiecategorieën waarbij er een goede balans is tussen de complexiteit van het model en de nauwkeurigheid van de voorspellingen van onderwijsscores. De resultaten van de forward search geven een bepaalde volgorde van de achtergrondkenmerken, waarbij de kenmerken die het belangrijkst zijn voor het schatten van de onderwijsscores als eerste worden toegevoegd.

Daarnaast voeren we ter vergelijking ook een backward search uit:

  • Start met een volledig regressiemodel (bevat alle achtergrondkenmerken).
  • Het regressiemodel wordt stap voor stap afgebouwd door steeds één kenmerk weg te laten. Bij elke stap wordt het kenmerk geselecteerd dat leidt tot de grootste verbetering in het Bayesiaanse Informatie Criterium (BIC).
  • Dit proces wordt herhaald totdat het verwijderen van kenmerken niet langer resulteert in een significante verbetering van de BIC-waarde.

Tot slot is er onderzocht of de selectie van de achtergrondkenmerken hetzelfde is bij het uitvoeren van een gecombineerde forward en backward search. Hierbij worden beide methodes achter elkaar uitgevoerd, bij een forward-backward search kunnen de toegevoegde kenmerken later weer worden verwijderd, en bij een backward-forward search juist andersom. De stepwise analyses worden in eerste instantie uitgevoerd op de data met peildatum 1 februari 2023, maar worden herhaald op de data met peildatum 1 februari 2022 om te zien in hoeverre de selectie en volgorde van achtergrondkenmerken overeenkomt voor beide peildata.

Definitief voorspelmodel
In het huidige imputatiemodel wordt er een eenvoudig lineair regressiemodel geschat voor de verwachte onderwijsscore. Een lineair regressiemodel kan worden gebruikt om de relatie tussen twee (of in dit geval meerdere) variabelen te onderzoeken en kwantificeren. Het voordeel van een lineair regressiemodel is dat dit eenvoudig te begrijpen is en de coëfficiënten van de achtergrondkenmerken makkelijk te interpreteren zijn. Daarnaast zijn lineaire modellen snel te trainen en werken ze efficiënt voor grote datasets. Een nadeel is echter dat het model lineaire samenhang tussen variabelen veronderstelt, wat beperkend kan zijn voor de nauwkeurigheid van schattingen voor onderwijsscores als de relatie tussen de achtergrondkenmerken en onderwijsscores in de realiteit complexer blijkt te zijn. Daarom is het van belang dat voor geselecteerde achtergrondkenmerken de lineariteit van het verband met de uitkomstvariabele in het voorspelmodel, de onderwijsscore, beoordeeld wordt.

Daarnaast is het van belang dat er wordt gekeken of sommige achtergrondkenmerken mogelijk sterk aan elkaar gerelateerd zijn (multicollineariteit). Dit kan als gevolg hebben dat de effectgroottes per kenmerk niet goed meetbaar zijn. Om te toetsen of er sprake is van multicollineariteit berekenen we de Variance Inflation Factor (VIF) per kenmerk. Een VIF waarde hoger dan 5 wordt vaak als problematisch gezien. Ten slotte toetsen we ook nog de normaliteit en heteroscedasticiteit van de 3 voorspelmodellen.

Stap 3: Evaluatie van nieuwe imputatiemethode

Om de werking van de nieuwe imputatiemethode ten opzichte van de huidige methode te kunnen toetsen zal er worden gekeken of de nieuwe methode zorgt voor meer stabiliteit in geïmputeerde scores over de tijd. Deze toetsing zal plaatsvinden op drie niveaus, namelijk op individueel-, school-, en gemeenteniveau.

Op individueel niveau zullen de verschillen in onderwijsscores van 2023 ten opzichte van 2022 vergeleken worden voor de huidige en de nieuwe imputatiemethode. Er wordt dan gekeken naar de leerlingen van wie de onderwijsscore direct is geïmputeerd omdat A) moeder onbekend is, B) vader onbekend is, en C) beide ouders onbekend zijn. De verwachting is dat door het uitbreiden van het voorspelmodel met name voor groep A en B de onderwijsscores preciezer worden voorspeld en daardoor stabieler over de jaren heen.

Omdat het CBS gebruik maakt van registerdata is het bijvoorbeeld mogelijk dat informatie over de vader van leerling A in 2022 ontbreekt, terwijl in 2023 de vader van leerling A wel staat geregistreerd. Dat betekent dat de onderwijsscore van leerling A in 2022 moest worden geïmputeerd, terwijl in 2023 de onderwijsscore wel berekend kon worden. Van het totaal aantal leerlingen (N = 146979) uit de drie imputatiecategorieën is 33,5% gewisseld tussen de jaren 2022 en 2023. Dit gaat over een wisseling binnen de drie imputatiecategorieën (bijvoorbeeld van beide ouders onbekend naar vader onbekend), of een wisseling van wel of geen imputatie van onderwijsscore. Voor een correcte vergelijking van de huidige en nieuwe imputatiemethodes van onderwijsscores op individueel niveau is het belangrijk om enkel te kijken naar leerlingen die in 2022 en 2023 niet gewisseld zijn van imputatiecategorie (N = 97694).

In lijn met de individuele scores verwachten we ook voor de geaggregeerde achterstandsscores per school meer stabiliteit over de jaren heen. Om dit te onderzoeken zullen de verschillen in achterstandsscores van 2023 ten opzichte van 2022 worden vergeleken voor de huidige en de nieuwe imputatiemethode. Dit wordt gedaan voor alle scholen in Nederland, voor scholen waarvan minstens tien procent van de onderwijsscores direct is geïmputeerd, en scholen waarvan minstens 25 procent van de onderwijsscores direct is geïmputeerd.

Het CBS telt per school de scores op van de leerlingen die landelijk gezien tot de vijftien procent laagst scorende leerlingen behoren: de bruto achterstandsscore. Om versnippering van het budget tegen te gaan wordt er een drempelwaarde in mindering gebracht op deze achterstandsscore: de netto achterstandsscore. Hierdoor ontvangen alleen scholen met een relatief hoge achterstandsscore middelen. De drempelwaarde hangt af van het totaal aantal leerlingen op een school: hoe meer leerlingen, des te hoger de drempelwaarde.

Voor de evaluatie van de imputatiemethode kijken we naar de stabiliteit van achterstandsscores van jaar op jaar. In dat geval is het zinvoller om te kijken naar de verschillen in bruto achterstandsscores, omdat het hanteren van een drempelwaarde deze verschillen licht kan vervormen. Als voorbeeld: school A behaalde in 2022 een bruto achterstandsscore van 850 punten, maar na toepassing van de drempelwaarde werd de netto achterstandsscore 0 vanwege het grote aantal leerlingen. In 2023 steeg de bruto achterstandsscore naar 950 punten. Omdat het aantal leerlingen iets afnam, daalde ook de drempelwaarde, waardoor de netto achterstandsscore voor 2023 op 250 uitkwam. Bij gebruik van de netto achterstandsscore lijkt het verschil tussen de jaren 250 punten te zijn, terwijl het feitelijke verschil in bruto achterstandsscore slechts 150 punten bedraagt.
Echter, voor het ministerie van OCW is het ook informatief om te weten wat de nieuwe imputatiemethode voor gevolgen heeft voor de stabiliteit in uiteindelijke netto-achterstandsscores op basis waarvan de middelen worden verdeeld. Daarom zullen voor de totale populatie scholen in Nederland zowel de bruto als netto achterstandsscores worden vergeleken. Om de meest extreme vertekening van verschilscores van de netto achterstandsscores te beperken worden voor deze analyse enkel scholen meegenomen waarvoor de achterstandsscore in géén van de jaren teruggezet is op 0. In andere woorden, er zijn in deze subset enkel scholen meegenomen die in beide jaren een achterstandsscore boven de drempel hadden en dus middelen ontvingen van het ministerie van OCW. Voor de specifieke subgroepen van scholen waarvan minstens 10% van de onderwijsscores direct is geïmputeerd, en scholen waarvan minstens 25% van de onderwijsscores direct is geïmputeerd zullen enkel de bruto-achterstandsscores worden vergeleken.

De verwachting is dat de spreiding van de verschilscores jaar-op-jaar kleiner zal zijn voor de nieuwe imputatiemethode, en dan met name voor de scholen met veel leerlingen waarvoor de onderwijsscore direct moet worden geïmputeerd. Ten slotte zullen ook de verschillen in bruto en netto achterstandsscores van de gemeenten tussen 2023 en 2022 worden vergeleken. Ook hier wordt meer stabiliteit in achterstandsscores verwacht, wat betekent dat de spreiding van verschilscores voor de nieuwe imputatiemethode kleiner zal zijn dan de huidige imputatiemethode.

4.3 Resultaten

Stap 1: Differentiëren imputatiemodel

Om de onderwijsscores voor de groep kinderen van wie minstens één van beide ouders ontbreekt in de BRP nauwkeuriger te kunnen voorspellen, zoals beschreven in paragraaf 4.1, is het imputatiemodel opgesplitst in drie rondes (voor de drie imputatiecategorieën). De onderwijsscores worden in stappen geïmputeerd: in de eerste ronde voor de kinderen van wie de moeder onbekend is, in de tweede ronde voor de kinderen van wie de vader onbekend is, en in de derde ronde voor de kinderen van wie beide ouders onbekend zijn. Dit betekent dat er drie verschillende voorspelmodellen kunnen worden toegepast, waarbij de meegenomen achtergrondvariabelen afhankelijk zijn van de imputatiecategorie. De achtergrondkenmerken die mogelijk meegenomen kunnen worden zijn weergegeven in tabel 4.3.1. Welke kenmerken daadwerkelijk geselecteerd worden, wordt duidelijk uit de stepwise regressieanalyse. De stepwise regressieanalyse werd uitgevoerd voor model 1 en model 2, waarbij variabelen met achtergrondkenmerken van zowel het kind als de ouders werden geëvalueerd. Voor model 3, waarbij informatie over beide ouders ontbreekt, is geen afzonderlijke analyse uitgevoerd; in plaats daarvan zijn op basis van de resultaten van de stepwise regressieanalyse van model 1 en 2 alleen de beschikbare variabelen (achtergrondkenmerken van het kind) geselecteerd.

4.3.1 Achtergrondkenmerken die meegenomen kunnen worden per imputatiemodel in vergelijking met het huidige imputatiemodel
AchtergrondkenmerkModel 1 Model 2Model 3Huidig model
Moeder onbekendVader onbekendBeide onbekend
Herkomst kind.XXXX
Huishoudinkomen X
Ouders wel/niet in schuldhulpverleningXXX
Leeftijd kindXXX
Leeftijd kind naar Nederland XXX
Stedelijkheid van de buurt XXX
Opleidingsniveau ouderXX X
Leeftijd ouderXX
Sociaal-economische categorie ouderXX
Burgerlijke staat ouderXX
Inkomen ouder (in 10 percentielen)XX
Inkomen ouder (in 20 percentielen)XX
Verblijfsduur ouder (in jaren)XX
Verblijfsduur ouder (categorisch)XX

Stap 2: Stepwise regressieanalyse

Na de differentiatie van het huidige imputatiemodel in drie voorspelmodellen en de voorselectie van mogelijke kenmerken is er een stepwise regressieanalyse toegepast. Dit is gedaan om de kenmerken te selecteren die samen de beste voorspelmodellen vormen. Voor zowel model 1 (moeder onbekend) als model 2 (vader onbekend) is er een forward en backward search uitgevoerd en een combinatie van beide. Het doel is om een zo compact mogelijk model over te houden met de belangrijkste achtergrondkenmerken. Voor de verschillende methodes (forward, backward, en combinatie van beide) zijn de modelverbeteringen stapsgewijs vergeleken op basis van de BIC-waarde. De drie methodes leverden elk dezelfde selectie van achtergrondkenmerken voor de individuele voorspelmodellen. Voor het presenteren van de resultaten van de stepwise regressieanalyse zijn de modelkenmerken van de forward selectie als uitgangspunt gebruikt.

Voor de lineaire voorspelmodellen was enkel de volgorde van achtergrondkenmerken van belang bij het selecteren van verschillende vormen van dezelfde variabele, namelijk de variabelen inkomen ouder en verblijfsduur ouder. Voor de variabele inkomen ouder hebben we twee opties toegevoegd, namelijk inkomen in 10 en inkomen in 20 percentielen. Voor verblijfsduur van ouder hebben we ook twee verschillende opties onderzocht, namelijk verblijfsduur ouder in jaren en verblijfsduur ouder in drie categorieën (0-5 jaar, 5-10 jaar en meer dan 10 jaar). Wanneer beide opties voor deze variabelen werden geselecteerd door de stepwise procedure werd enkel de eerst geselecteerde optie gekozen voor het definitieve model.

De volgorde van de geselecteerde kenmerken voor model 1 en model 2 is terug te zien in tabel 4.3.2. De stepwise procedure voor model 1 (moeder onbekend) stopte na de selectie van het twaalfde kenmerk, omdat er volgens het model geen extra verklaringskracht werd toegevoegd. De stepwise procedure voor model 2 (vader onbekend) selecteerde alle toegevoegde kenmerken. Voor zowel model 1 als model 2 werd van inkomen ouder de variabele in 20 percentielen als eerste geselecteerd. Met betrekking tot verblijfsduur werd de categorische variabele als eerste gekozen.

4.3.2 Vergelijking stepwise selectie achtergrondkenmerken model 1 en 2
VolgordeModel 1 (moeder ontbreekt)Model 2 (vader ontbreekt)
1Opleidingsniveau vaderOpleidingsniveau moeder
2Herkomst kindHerkomst kind
3Ouders wel/niet in schuldsaneringVerblijfsduur moeder (categorisch)
4Inkomen vader (in 20 percentielen)Leeftijd moeder
5Verblijfsduur vader (categorisch)Ouders wel/niet in schuldsanering
6Leeftijd vaderInkomen moeder (in 20 percentielen)
7Leeftijd kindBurgerlijke staat moeder
8Sociaal economische categorie vaderLeeftijd kind
9Burgerlijke staat vaderSociaal economische categorie moeder
10Leeftijd kind naar NederlandStedelijkheid van de buurt
11Verblijfsduur vader (in jaren)Verblijfsduur moeder (in jaren)
12Stedelijkheid van de buurtLeeftijd kind
13-Inkomen moeder (in 10 percentielen)

Bovenstaande stepwise regressieanalyse is uitgevoerd op data met peildatum 1 februari 2023. Om de stabiliteit van de twee voorspelmodellen te onderzoeken is de forward stepwise procedure tevens toegepast op data van een jaar eerder, namelijk peildatum 1 februari 2022. De selectie en volgorde van de achtergrondkenmerken van model 1 kwamen voor beide jaren exact overeen. Voor model 2 was er een klein verschil, kenmerk 4 en 5 zijn omgedraaid, en de tweede optie van de variabele inkomen ouder (in 10 percentielen) werd niet geselecteerd, zie tabel 4.3.3.

4.3.3 Vergelijking stepwise selectie achtergrondkenmerken model 2 tussen data van 2023 en 2022
VolgordeData 2023Data 2022
1Opleidingsniveau moederOpleidingsniveau moeder
2Herkomst kindHerkomst kind
3Verblijfsduur moeder (categorisch)Verblijfsduur moeder (categorisch)
4Leeftijd moederOuders wel/niet in schuldsanering
5Ouders wel/niet in schuldsaneringLeeftijd moeder
6Inkomen moeder (in 20 percentielen)Inkomen moeder (in 20 percentielen)
7Burgerlijke staat moederBurgerlijke staat moeder
8Leeftijd kindLeeftijd kind
9Sociaal economische categorie moederSociaal economische categorie moeder
10Stedelijkheid van de buurtStedelijkheid van de buurt
11Verblijfsduur moeder (in jaren)Verblijfsduur moeder (in jaren)
12Leeftijd kind naar NederlandLeeftijd kind naar Nederland
13Inkomen moeder (in 10 percentielen)

De conclusies van de selectie van achtergrondkenmerken zijn daarom onveranderd en resulteren in de volgende selectie van kenmerken voor model 1 en 2 (waarbij één van de ouders ontbreekt):

  • Opleidingsniveau ouder;
  • Herkomst kind;
  • Ouders wel/niet in schuldsanering;
  • Inkomen ouder (in 20 percentielen);
  • Verblijfsduur ouder (categorisch);
  • Leeftijd ouder;
  • Leeftijd kind;
  • Sociaal economische categorie ouder;
  • Burgerlijke staat ouder;
  • Leeftijd kind naar Nederland;
  • Verblijfsduur ouder (in jaren);
  • Stedelijkheid van de buurt.

Voor model 3, waarbij beide ouders ontbreken, ontbreekt voor een groot aantal van bovenstaande achtergrondkenmerken informatie. Voor dit voorspelmodel blijft een selectie van de volgende achtergrondkenmerken over:

  • Herkomst kind;
  • Leeftijd kind;
  • Leeftijd kind naar Nederland;
  • Stedelijkheid van de buurt.

De forward stepwise procedure voegt telkens één achtergrondkenmerk toe aan het voorspelmodel. Bij elke stap wordt het kenmerk geselecteerd dat leidt tot de grootste verbetering in BIC, waarbij een lagere BIC-waarde een betere modelkwaliteit betekent, zie figuur 4.3.4. In de figuur is te zien dat hoe meer kenmerken er worden opgenomen in het model, hoe lager de BIC waarde is en des te beter het voorspelmodel de onderwijsscore van een leerling kan schatten. De BIC neemt voor zowel model 1 als 2 het sterkst af na het toevoegen van het opleidingsniveau van de ouder. Ook na het toevoegen van het tweede achtergrondkenmerk, herkomst van het kind, neemt de BIC nog zichtbaar sterk af. Voor beide modellen geldt dat het toevoegen van het twaalfde kenmerk nog steeds voor een sterke daling zorgt (model 1: -784 en model 2: -378). In model twee wordt inkomen van de moeder (in 10 percentielen) als laatste kenmerk toegevoegd, maar de modelkwaliteit neemt hierbij nog nauwelijks toe (BIC daalt met 43 punten).

4.3.4. BIC-waarden voor model 1 en 2 naar het aantal toegevoegde achtergrondkenmerken
volgordemodel 1 (moeder ontbreekt)model 2 (vader ontbreekt)
036377993637799
11915803,279782081351978,44276075
21720466,275625031086213,34839467
31706568,472820241041289,9739666
41697811,376280421021854,68892776
51689032,976222761005033,71876224
61681947,0423644993072,832140157
71672259,74713793985406,199646535
81668851,68033408981481,622260564
91665978,20559002977887,16636602
101664386,56335636974930,624557848
111663446,04919983973733,159121658
121662662,10260982973355,23274757
13NA973312,586739611

Om de betrouwbaarheid van de lineaire regressie voor bovenstaand model te controleren zijn er controles gedaan op een aantal assumpties, waaronder:

  • Lineariteit
  • Normaliteit
  • Heteroscedasticiteit
  • Multicollineariteit
  • Uitschieters

De assumpties worden gecontroleerd zodat we betrouwbare parameterschattingen krijgen en de resultaten te generaliseren zijn naar de populatie. De assumpties van lineariteit, normaliteit en heteroscedasticiteit zijn visueel gecontroleerd, de multicollineariteit is beoordeeld aan de hand van de Variance Inflation Factor (VIF), en uitschieters zijn visueel geïnspecteerd aan de hand van Cook’s D maat.

In de controles zagen we een schending van de assumpties lineariteit, normaliteit en heteroscedasticiteit, specifiek voor het model waar beide ouders ontbreken. Dit model is beperkter in omvang vanwege minder beschikbare voorspellers door het ontbreken van beide ouders. Dit kan resulteren in meer variatie in de residuen (het verschil tussen de werkelijke en voorspelde score). Omdat we in dit onderzoek met een grote dataset werken en vooral kijken naar de regressiecoëfficiënten en niet direct naar de significantiewaarden van de resultaten, zal de schending van deze assumpties waarschijnlijk niet direct invloed hebben op de interpretatie van de resultaten. Voor de overige twee modellen, waarbij enkel vader of moeder ontbreekt, wees de visuele inspectie niet op een schending van assumpties van lineariteit, normaliteit of heteroscedasticiteit. Ook de controles op multicollineariteit wezen niet op collineariteit in ons voorspelmodel. Doorgaans worden de volgende rule-of-thumb grenswaarden gebruikt: VIF > 20 onbruikbaar, > 10 hoge mate van collineariteit, > 5 enige mate van collineariteit. De VIF-waarden waren voor alle drie de modellen kleiner dan 3. In de subset die gebruik werd voor het schatten van het lineaire voorspelmodel zijn twee records met een onwaarschijnlijk hoge leeftijd (35 en 32 jaar) geëxcludeerd. Deze leeftijden wijzen mogelijk op een registratiefout en zijn om vertekeningen in het voorspelmodel te voorkomen verwijderd voor onze analyses.

4.3.5 Fitindices voor de drie lineaire regressiemodellen
20232022
ModelR2MSERMSE R2MSERMSE
1: Moeder ontbreekt0,743,151,77 0,743,161,78
2: Vader ontbreekt0,841,961,40 0,841,961,40
3: Beide ouders ontbreken0,1210,793,29 0,1210,853,29

Na de selectie van variabelen in de stepwise regressieanalyse en het beoordelen van de assumpties zijn de fitindices van de drie afzonderlijke voorspelmodellen bepaald, zie tabel 4.3.5. De verklaarde variantie (R2) van voorspelmodel 1 en 2 zijn redelijk hoog, waarbij de hogere R2 van model 2 (vader ontbreekt) er op lijkt te wijzen dat de achtergrondkenmerken van moeder de variabiliteit iets sterker lijken te voorspellen in model 2 dan de achtergrondkenmerken van vader in model 1. Echter zijn de verschillen tussen deze modellen niet getoetst, waardoor er geen uitspraken gedaan kunnen worden over of deze verschillen daadwerkelijk statistisch significant zijn. Model 3, waarbij informatie over beide ouders ontbreekt, presteert een stuk minder goed dan de modellen waarbij informatie van één van beide ouders wordt gebruikt. Dit is terug te zien in de lagere verklaarde variantie (R2) en hogere gemiddelde standaardfouten (MSE en RMSE). Het gebruik van beschikbare achtergrondkenmerken van ouders zorgt dus voor meer nauwkeurige voorspellingen van onderwijsscores voor de groepen leerlingen waar één van beide ouders ontbreekt.

Stap 3: Evaluatie van nieuwe imputatiemethode

De werking van de nieuwe imputatiemethode ten opzichte van de huidige imputatiemethode is geëvalueerd aan de hand van de stabiliteit van onderwijsscores en achterstandsscores jaar-op-jaar. Verwacht werd dat de nieuwe uitgebreide voorspelmodellen zorgen voor meer stabiliteit in scores over de jaren heen voor zowel individuele onderwijsscores, achterstandsscores van scholen, en achterstandsscores van gemeenten.

Verschillen in individuele onderwijsscores
Zoals besproken in paragraaf 4.1 zijn enkel de onderwijsscores van kinderen vergeleken die in de jaren 2022 en 2023 niet zijn gewisseld van imputatiecategorie. De verdeling van de verschillen in onderwijsscores van 2023 ten opzichte van 2022 berekend aan de hand van zowel de huidige als de nieuwe imputatiemethode is weergegeven met behulp van een dichtheidsplot, zie figuur 4.3.6. Voor de imputatiegroepen vader onbekend en moeder onbekend is te zien dat bij de nieuwe imputatiemethode de verdeling van de dichtheid van verschilscores iets smaller is. Dit impliceert dat de verschilscores bij gebruik van de nieuwe imputatiemethode minder variabiliteit vertonen jaar-op-jaar, wat kan betekenen dat de nieuwe methode voor meer stabiliteit in geïmputeerde onderwijsscores jaar-op-jaar. Bovendien is te zien dat de piek van de verdeling voor de nieuwe methode met name voor de groep vader onbekend, en in iets mindere mate voor de groepen moeder onbekend en beide ouders onbekend, hoger is dan de piek voor de huidige methode. Dit suggereert dat de gemiddelde verschilscore bij de nieuwe methode dichter bij 0 ligt in vergelijking tot de gemiddelde verschilscore van de huidige methode. Kortom, de nieuwe imputatiemethode lijkt met name voor de groepen vader onbekend en moeder onbekend te zorgen voor minder extreme verschillen tussen geïmputeerde scores jaar-op-jaar. Voor de groep beide ouders onbekend lijkt de nieuwe methode niet voor veel meer stabiliteit in scores jaar-op-jaar te zorgen. Dit is niet geheel onverwacht, aangezien dit voorspelmodel het minst is uitgebreid ten opzichte van de voorspelmodellen voor vader/moeder onbekend.

4_3_6_Verdeling_verschil_in_onderwijsscores_2023_tov_2022

Het uitbreiden van de voorspelmodellen leidt in de groepen waar één van de ouders ontbreekt inderdaad tot een kleinere variantie in verschilscores. In tabel 4.3.7 zijn de eigenschappen van de verdeling van verschillen tussen onderwijsscores van 2023 en 2022 samengevat voor de huidige en nieuwe imputatiemethode. Voor de groepen uit model 1 en 2 zien we dat de nieuwe methode zorgt voor een kleinere range van verschilscores; de minimum en maximum verschilscores liggen namelijk dichter bij elkaar. Ook de standaarddeviatie daalt voor deze twee groepen, voor de groep moeder ontbreekt daalt deze met 1,61 punt, en voor de groep vader ontbreekt met 0.89 punt. Echter, voor de groep waarbij beide ouders ontbreken treedt er geen verbetering op; de minimum en maximum verschilscores liggen zelfs iets verder uit elkaar en de standaarddeviatie stijgt met 0,34 punt.

4.3.7 Kenmerken verschilscores huidige en nieuwe imputatiemethode
Huidige methode Nieuwe methode
ModelMinGemiddeldeMaxSD MinGemiddeldeMaxSD
1: Moeder ontbreekt-12,630,0213,663,88 -11,740,0412,072,27
2: Vader ontbreekt-12,250,0512,293,93 -11,230,0811,573,04
3: Beide ouders ontbreken-13,35-0,1512,954,24 -13,460,3314,534,58

Verschillen in achterstandsscores van scholen
Om te onderzoeken of de nieuwe methode ook zorgt voor meer stabiliteit in achterstandsscores van scholen over de jaren heen zijn de achterstandsscores van 2023 ten opzichte van 2022 vergeleken voor de huidige en nieuwe imputatiemethode. Dit is gedaan voor alle scholen binnen het primair basisonderwijs (met en zonder toepassing van de drempelwaarde), een subset van scholen waarvan minstens 10% van de onderwijsscores direct is geïmputeerd, en een subset van scholen waarvan minstens 25% van de onderwijsscores direct is geïmputeerd. 
In tabel 4.3.8 zijn de kenmerken van de verschillen in bruto achterstandsscores (zonder drempel) voor scholen van 2023 ten opzichte van 2022 samengevat. Wanneer we de huidige en nieuwe methode vergelijken zien we een verschuiving van de ondergrens en bovengrens waarbij de range in verschilscores iets kleiner is geworden. Voor de nieuwe methode geldt dat de ondergrens van de verschilscores iets extremer werd, wat betekent dat één of meerdere scholen iets sterker dalen in achterstandsscores. Daarentegen werd de bovengrens van de verschilscores minder extreem, wat impliceert dat met gebruik van de nieuwe methode de meest stijgende school (of scholen) minder stegen in achterstandsscores. Het gemiddelde verschil in achterstandsscores is minimaal. De standaarddeviatie van de verschilscores is bij de nieuwe methode iets lager vergeleken met de huidige methode.

4.3.8 Kenmerken verschillen in bruto achterstandsscores van scholen totale populatie
ModelAantal scholenOndergrensGemiddelde verschilBovengrensStandaard Deviatie
Huidige methode6 220-327,270,84626,6446,70
Nieuwe methode6 220-356,291,33541,6741,83

Wanneer de netto achterstandsscores voor scholen van 2023 ten opzichte van 2022 worden vergeleken is een vergelijkbaar patroon te zien, zie tabel 4.3.9. Voor deze analyse zijn enkel scholen meegenomen die in beide jaren een achterstandsscore boven de drempel hadden om grote vertekening in verschilscores ten gevolge van het toepassen van drempelwaarde te voorkomen. Het gemiddelde verschil in achterstandsscores stijgt voor deze scholen, maar in vergelijking met de huidige methode is dit wederom een minimale stijging. De standaarddeviatie van de verschilscores is bij de nieuwe methode wederom lager. Wel is te zien dat de ondergrens en bovengrens van de verschillen in netto achterstandsscores iets anders verschuiven dan bij het vergelijken van de verschillen in bruto achterstandsscores. Zowel de ondergrens als de bovengrens van de verschilscores met de nieuwe methode zijn iets extremer geworden ten opzichte van de huidige methode. Over het algemeen kan er geconcludeerd worden dat het toepassen van de nieuwe methode zorgt voor iets minder variatie in netto achterstandsscores voor scholen jaar-op-jaar.

4.3.9 Kenmerken verschillen in netto achterstandsscores van scholen totale populatie
ModelAantal scholenOndergrensGemiddelde verschilBovengrensStandaard Deviatie
Huidige methode2 416-261,07-0,05462,3455,98
Nieuwe methode2 434-353,130,09482,5149,53

De aanpassingen van de imputatiemethode hebben enkel invloed op de onderwijsscores van leerlingen waarvoor er direct moest worden geïmputeerd, en dan specifiek enkel voor de groep kinderen die zelf wel staan ingeschreven in de BRP maar van wie één of beide ouders niet bekend zijn in de registers van het CBS. Om de huidige en nieuwe imputatiemethode goed te vergelijken zijn daarom de verschillen in achterstandsscores voor scholen waarvan minstens 10% en minstens 25% van de onderwijsscores is geïmputeerd samengevat in tabel 4.3.10 en tabel 4.3.11. Voor deze subsets geldt dat de geselecteerde scholen in beide jaren minstens 10% of minstens 25% van de onderwijsscores moet zijn geïmputeerd. 

Voorgaande jaren werd ongeveer zeven procent van de onderwijsscores geïmputeerd. In 2023 is dit iets toegenomen naar ongeveer acht procent van de onderwijsscores. Dit heeft onder andere te maken met een verschuiving van peildata van registerbestanden die nodig zijn om de koppeling te kunnen maken tussen de leerling en de ouder . Dit heeft tot gevolg dat er grotere verschillen dan gebruikelijk zijn in het aandeel directe imputaties van onderwijsscores op scholen. Om verschillen in het aantal directe imputaties van onderwijsscores jaar-op-jaar zo constant mogelijk te houden voor de vergelijking van de huidige en nieuwe imputatiemethode is er daarom nog een extra subset onderzocht. Voor deze subset zijn enkel scholen geselecteerd die maximaal vijf procent verschillen in het aantal directe imputaties van onderwijsscores in 2022 en 2023.

4.3.10 Kenmerken verschillen in achterstandsscores van scholen >10% direct geïmputeerd
ModelAantal scholenOndergrensGemiddelde verschilBovengrensStandaard Deviatie
Totaal
Huidige methode1 246-261,071,39462,3468,23
Nieuwe methode1 246-353,13-0,24482,5159,67
Subset < 5% verschil
Huidige methode1 009-261,07-7,21462,3457,46
Nieuwe methode1 009-353,13-4,11332,5053,29

4.3.11 Kenmerken verschillen in achterstandsscores van scholen >25% direct geïmputeerd
ModelAantal scholenOndergrensGemiddelde verschilBovengrensStandaard Deviatie
Totaal
Huidige methode267-261,0716,61462,34100,66
Nieuwe methode267-282,651,52482,5189,45
Subset < 5% verschil
Huidige methode169-261,070,19462,3487,21
Nieuwe methode169-230,40-7,52332,5080,01

Voor scholen waarbij een hoog aandeel van de onderwijsscores direct wordt geïmputeerd lijkt de nieuwe imputatiemethode voor meer stabiliteit in achterstandsscores over de jaren heen te zorgen. Voor deze scholen is het gemiddelde verschil in achterstandsscores tussen 2023 en 2022 ongeveer gehalveerd. Daarnaast is ook de standaarddeviatie van de verschilscores gedaald voor zowel scholen met minstens 10% direct geïmputeerde onderwijsscores als voor scholen met minstens 25% direct geïmputeerde onderwijsscores. Wanneer er enkel gekeken wordt naar de subsets van scholen die in 2022 en 2023 maximaal 5% verschillen in het aandeel directe imputaties is de daling van de standaarddeviatie iets kleiner.

Verschillen in achterstandsscores van gemeenten
Er is ook gekeken of de achterstandsscores van de gemeenten over de jaren heen stabieler werden bij het toepassen van de nieuwe imputatiemethode. Hiervoor zijn de verschillen in netto en bruto achterstandsscores van de gemeenten tussen 2023 en 2022 vergeleken, zie tabel 4.3.12.

4.3.12 Kenmerken verschillen in netto achterstandsscores van gemeenten
ModelAantal gemeentenOndergrensGemiddelde verschilBovengrensStandaard Deviatie
Huidige methode342-3284,331,98986,42305,56
Nieuwe methode342-2639,807,95570,10248,54

4.3.13 Kenmerken verschillen in bruto achterstandsscores van gemeenten
ModelAantal gemeentenOndergrensGemiddelde verschilBovengrensStandaard Deviatie
Huidige methode 342-3 017 51 070 301
Nieuwe methode 342-2 639 14 564 241

Vergeleken met de huidige methode is de range tussen de ondergrens en bovengrens van de verschilscores kleiner geworden bij gebruik van de nieuwe methode, dit geldt voor zowel de netto achterstandsscores (met drempel) als de bruto achterstandsscores (zonder drempel). Ook is de standaarddeviatie van de verschilscores bij gebruik van de nieuwe methode gedaald ten opzichte van de huidige methode. Opvallend is dat het gemiddelde verschil juist iets is gestegen, maar deze stijging is relatief klein ten opzichte van de standaarddeviatie. Wanneer de verdeling van de verschilscores voor beide methodes wordt gevisualiseerd, is te zien dat deze stijging in gemiddelde verschilscore waarschijnlijk het resultaat is van het verdwijnen van twee sterke, negatieve, uitschieters bij het toepassen van de nieuwe methode ten opzichte van de huidige methode (zie figuur 4.3.14).

4_3_14_Verdeling_verschillen_in_achterstandsscores_van_gemeenten_huidige_en_nieuwe_methode

4.4 Conclusies

Dit hoofdstuk betreft de resultaten van de optimalisatie van het voorspelmodel dat gebruikt wordt voor het direct imputeren van onderwijsscores voor leerlingen voor wie er geen onderwijsscore kan worden berekend. Dit onderzoek richt zich op de grootste groep kinderen voor wie de onderwijsscore geïmputeerd moet worden: de kinderen die zelf wel staan ingeschreven in de BRP maar van wie één of beide ouders niet bekend zijn in de BRP. In de eerste stap werd onderzocht of het huidige imputatiemodel opgesplitst kon worden om zo het voorspelmodel voor elke specifieke imputatiegroep te kunnen optimaliseren. Door het voorspelmodel op te splitsen in drie voorspelmodellen voor de drie te imputeren categorieën (vader onbekend, moeder onbekend, en beide ouders onbekend) kunnen er meer achtergrondkenmerken worden meegenomen, wat mogelijk leidt tot meer accurate voorspellingen.

Voor de tweede stap is er voor deze drie imputatiecategorieën onderzocht welke combinatie van achtergrondkenmerken het best gebruikt kan worden om onderwijsscores voor individuele leerlingen te voorspellen. Op basis van de variabelen die al aanwezig zijn in de onderzoeksbestanden van de risico-indicator onderwijsachterstanden is er een lijst met mogelijke verklarende variabelen van onderwijsscores opgesteld. Met behulp van een stepwise-selectie procedure is er onderzocht welke variabelen voldoende verklaringskracht toevoegen om het voorspelmodel te verbeteren. Deze analyses resulteren in de volgende selectie van achtergrondkenmerken voor de groepen leerlingen waarbij één van de ouders ontbreekt:

  • Opleidingsniveau ouder
  • Ouders wel/niet in schuldsanering
  • Inkomen ouder (in 20 percentielen)
  • Verblijfsduur ouder (categorisch)
  • Leeftijd ouder
  • Sociaal economische categorie ouder
  • Burgerlijke staat ouder
  • Verblijfsduur ouder (in jaren)
  • Herkomst kind
  • Leeftijd kind
  • Leeftijd kind naar Nederland
  • Stedelijkheid van de buurt

Voor de leerlingen van wie beide ouders onbekend zijn blijven enkel de laatste vier schuingedrukte achtergrondkenmerken over.

Om de stabiliteit van de selectie van kenmerken voor de voorspelmodellen te onderzoeken is de stepwise-selectie procedure tevens toegepast op data van een eerder cohort. In beide procedures werden dezelfde achtergrondkenmerken geselecteerd, wat de stabiliteit van de selectie van variabelen voor het voorspelmodel lijkt te bevestigen.

In de derde stap is er onderzocht in hoeverre de aangepaste imputatiemethode daadwerkelijk resulteert in meer stabiliteit in onderwijsscores op individueel niveau en achterstandsscores op school- en gemeenteniveau. De nieuwe imputatiemethode zorgt op individueel niveau met name bij de imputatiegroepen ‘vader onbekend’ en ‘moeder onbekend’ voor meer stabiliteit in geïmputeerde onderwijsscores jaar-op-jaar. Voor de groep leerlingen van wie beide ouders onbekend zijn is er geen verbetering te zien wat betreft de stabiliteit in onderwijsscores. Dit is niet verrassend, aangezien het voorspelmodel voor deze groep niet is uitgebreid ten opzichte van de huidige imputatiemethode.

Op schoolniveau is de stabiliteit in achterstandsscores over de jaren heen onderzocht door verschillen in achterstandsscores van 2023 ten opzichte van 2022 te vergelijken voor de huidige en de nieuwe imputatiemethode. Dit is gedaan voor de totale populatie van scholen binnen het primair basisonderwijs, maar ook voor subsets van scholen met een hoog percentage leerlingen voor wie de onderwijsscore direct moest worden geïmputeerd. Voor elke (sub)populatie van scholen is te zien dat de standaarddeviatie van de verschilscores jaar-op-jaar bij gebruik van de nieuwe imputatiemethode lager ligt vergeleken met de huidige methode. De daling in standaarddeviatie van de nieuwe methode ten opzichte van de oude methode varieert, afhankelijk van de specifieke (sub)populatie waar naar gekeken wordt. De daling in de standaarddeviatie lijkt er op te wijzen dat de nieuwe imputatiemethode zorgt voor meer stabiliteit in achterstandsscores, met name voor scholen waar een hoog aandeel van de onderwijsscores van leerlingen moet worden geïmputeerd. Veranderingen in de range en het gemiddelde van de verschilscores waren minder uniform over de verschillende subgroepen heen.

Wanneer er wordt gekeken naar de verschilscores in achterstandsscores voor gemeenten is wederom een verbetering te zien wat betreft de stabiliteit in achterstandsscores. Voor zowel de bruto als netto achterstandsscores zien we dat de range in verschilscores kleiner is geworden. De nieuwe imputatiemethode lijkt ervoor te zorgen dat gemeente-achterstandsscores jaar-op-jaar minder extreem verschillen. Verder impliceert met name de sterke daling van de standaarddeviatie voor zowel de netto als de bruto achterstandsscores dat de nieuwe methode ook voor gemeenten zorgt voor meer stabiliteit in achterstandsscores over de jaren heen.

Tot slot geven we een korte vooruitblik op de tweede fase van dit onderzoekstraject. In deze fase zal de risico-indicator onderwijsachterstanden grootschalig worden herijkt. Ook specifiek voor het direct imputeren van onderwijsscores zal er onderzocht worden hoe de nieuwe methode gepresenteerd in het huidige rapport nog verder kan worden ontwikkeld en verbeterd. Ten eerste zal er worden onderzocht in hoeverre het voorspelmodel nog verder kan worden uitgebreid met achtergrondkenmerken, en dan met name de kenmerken die zijn behandeld in hoofdstuk 3 voor het imputeren van het opleidingsniveau van ouders. Bovendien zal er onderzocht worden of er interacties tussen verschillende kenmerken moeten worden meegenomen in het voorspelmodel. Verder is het voor de volgende fase belangrijk om naar achtergrondkenmerken te kijken die beschikbaar zijn voor de groep leerlingen bij wie informatie over beide ouders ontbreekt, zoals buurtkenmerken. Tevens zullen er alternatieven worden onderzocht voor het imputeren van onderwijsscores van gevallen waar individuele voorspellingen lastig zijn vanwege een gebrek aan achtergrondinformatie. Ook kan er worden gekeken of aanpassingen in de donorselectie voor Predictive Mean Matching kunnen leiden tot verbeteringen in de nauwkeurigheid van imputaties. 
Daarnaast kan het verkennen van andere voorspel- en imputatiemethodes, zoals beslisbomen, nieuwe inzichten bieden op het verbeteren van imputaties van onderwijsscores.

Tot slot kan het gebruik van een simulatiestudie waarbij onderwijsscores worden voorspeld voor leerlingen van wie deze berekend kan worden een waardevolle aanvulling zijn, omdat dan niet alleen de stabiliteit van onderwijsscores jaar-op-jaar wordt beoordeeld, maar ook de nauwkeurigheid van de voorspellingen en imputaties van verschillende methodes vergeleken kan worden.

5. Uniformering eindtoetsscores

5.1 Inleiding

Bij de oorspronkelijke ontwikkeling van de risico-indicator onderwijsachterstanden is gekeken – gegeven een bepaalde intelligentie – welke sociaaleconomische achtergrondkenmerken van kinderen een nadelige invloed hebben op de onderwijsprestaties. Omdat destijds het aandeel van de centrale eindtoets van Cito nog op ongeveer 85 procent lag, is er voor gekozen om alleen de kinderen die aan de toets van Cito hadden deelgenomen mee te nemen in de ontwikkeling van het model. Inmiddels is het aandeel van de centrale eindtoets van Cito fors afgenomen en kunnen scholen die een andere eindtoets gebruiken niet worden genegeerd om een aantal redenen. Zo kan het uitsluiten van deze scholen leiden tot selectiebias en het leidt hoe dan ook tot een aanzienlijke beperking van de onderzoekspopulatie. 

Voor het onderzoek voor de herijking van het model voor de risico-indicator onderwijsachterstanden is het wenselijk om gebruik te kunnen maken van een uniforme maatstaf voor onderwijsprestaties. Het probleem is echter dat iedere eindtoetsaanbieder een eigen schaal voor de eindtoetsscore hanteert. Omdat het CBS alleen de eindtoetsscores heeft en er geen extra informatie beschikbaar is over hoe de verschillende schalen tot stand zijn gekomen, werken we in dit hoofdstuk verschillende methoden uit om de eindtoetsscores te uniformeren.

5.2 Data en methoden

Voor het toepassen van de verschillende methoden voor uniformering maken we gebruik van een dataset met de populatie leerlingen die in 2021 een eindtoets hebben gemaakt. Daarbij zijn er vijf soorten eindtoetsen: AMN, CET, Dia, Iep en Route 8. Per eindtoetsaanbieder wordt er jaarlijks door de Expertgroep Toetsen PO bepaald wat het bereik aan eindtoetsscores is behorende tot een bepaald toetsadvies, met de volgende mogelijke toetsadviezen: pro/vmbo-b, vmbo-b/k, vmbo-k/gt, vmbo-gt/havo, havo/vwo en vwo. Deze gegevens ontvangt het CBS jaarlijks van DUO met de nieuwe indeling. Hierbij moet opgemerkt worden dat het bereik van de toetsscores behorende tot een toetsadvies verschilt tussen de toetsaanbieders. Daarnaast is de lengte van het bereik van de toetsscores behorende tot een toetsaanbieder verschillend per toetsadvies. In tabel 5.2.1 wordt per toetsaanbieder weergegeven welke eindtoetsscore bij welk toetsadvies hoort, voor de eindtoetsen in 2021.

5.2.1 Toetsscores per toetsadvies en toetsaanbieder
ToetsadviesCETRoute 8IepDiaAMN
Pro / vmbo bl501-510100-11250-51321-338300-304
Vmbo bl/kl511-523113-15952-68339-349305-332
Vmbo kl/gtl524-531160-18769-76350-356333-374
Vmbo gtl/havo532-539188-21677-84357-365375-433
Havo/vwo540-544217-23885-91366-371434-468
Vwo545-550239-30092-100372-390469-500

Gegeven dat we maar beperkte data tot onze beschikking hebben en de toetsen onderling niet kunnen vergelijken op een gedetailleerder niveau dan in bovenstaande tabel met toetsadviezen, onderzoeken we drie methoden voor om de eindtoetsscores te uniformeren: 

Methode 1: Z-scores 

Ten eerste kunnen we z-scores berekenen per toetsaanbieder, zodat de scores per toetsaanbieder allemaal een standaard normale verdeling krijgen, met een gemiddelde van 0 en standaarddeviatie van 1. Bij deze berekening houden we geen rekening met de toetsadviezen. 

Deze aanpak past het beste als de onderliggende scores per toetsaanbieder ongeveer normaal verdeeld zijn. We zien echter in de data dat dit niet het geval is, zie figuren 5.2.2 tot en met 5.2.6. 

5.2.2. Dichtheid van eindtoetsscores - Iep
EindtoetsscoreDichtheid (Dichtheid)
500,00426
50,210820,00451
50,321740,00474
50,432650,00495
50,543570,00514
50,654480,00529
50,765390,00542
50,876310,00551
50,987220,00558
51,098130,00561
51,209050,00562
51,319960,0056
51,430870,00555
51,541790,00547
51,65270,00538
51,763610,00527
51,874530,00516
51,985440,00503
52,096350,0049
52,207270,00477
52,318180,00464
52,42910,00452
52,540010,00441
52,650920,0043
52,761840,00421
52,872750,00412
52,983660,00405
53,094580,00399
53,205490,00395
53,31640,00391
53,427320,00388
53,538230,00387
53,649140,00386
53,760060,00386
53,870970,00387
53,981880,00389
54,09280,00391
54,203710,00394
54,314630,00397
54,425540,00401
54,536450,00405
54,647370,00409
54,758280,00414
54,869190,00419
54,980110,00424
55,091020,00429
55,201930,00434
55,312850,0044
55,423760,00446
55,534670,00452
55,645590,00458
55,75650,00465
55,867410,00471
55,978330,00478
56,089240,00485
56,200160,00491
56,311070,00498
56,421980,00505
56,53290,00512
56,643810,00519
56,754720,00526
56,865640,00532
56,976550,00539
57,087460,00546
57,198380,00552
57,309290,00558
57,42020,00565
57,531120,00571
57,642030,00577
57,752940,00584
57,863860,0059
57,974770,00596
58,085690,00603
58,19660,00609
58,307510,00616
58,418430,00622
58,529340,00629
58,640250,00636
58,751170,00644
58,862080,00651
58,972990,00658
59,083910,00666
59,194820,00673
59,305730,00681
59,416650,00688
59,527560,00696
59,638480,00703
59,749390,00711
59,86030,00718
59,971220,00725
60,082130,00733
60,193040,0074
60,303960,00747
60,414870,00755
60,525780,00763
60,63670,0077
60,747610,00779
60,858520,00787
60,969440,00796
61,080350,00805
61,191260,00814
61,302180,00824
61,413090,00834
61,524010,00845
61,634920,00856
61,745830,00867
61,856750,00879
61,967660,0089
62,078570,00902
62,189490,00914
62,30040,00927
62,411310,00939
62,522230,00951
62,633140,00964
62,744050,00976
62,854970,00988
62,965880,01
63,076790,01012
63,187710,01024
63,298620,01036
63,409540,01048
63,520450,01059
63,631360,0107
63,742280,01081
63,853190,01091
63,96410,01101
64,075020,01111
64,185930,0112
64,296840,01129
64,407760,01138
64,518670,01146
64,629580,01153
64,74050,01161
64,851410,01168
64,962320,01174
65,073240,01181
65,184150,01187
65,295070,01193
65,405980,01199
65,516890,01205
65,627810,01211
65,738720,01216
65,849630,01222
65,960550,01228
66,071460,01235
66,182370,01242
66,293290,01249
66,40420,01257
66,515110,01266
66,626030,01277
66,736940,01288
66,847860,01301
66,958770,01316
67,069680,01333
67,18060,01352
67,291510,01373
67,402420,01396
67,513340,01421
67,624250,01449
67,735160,01479
67,846080,01511
67,956990,01545
68,06790,01581
68,178820,01619
68,289730,01657
68,400640,01697
68,511560,01737
68,622470,01778
68,733390,01818
68,84430,01858
68,955210,01897
69,066130,01934
69,177040,01971
69,287950,02006
69,398870,02039
69,509780,0207
69,620690,02099
69,731610,02126
69,842520,02152
69,953430,02176
70,064350,02198
70,175260,02218
70,286170,02237
70,397090,02255
70,5080,02272
70,618920,02288
70,729830,02304
70,840740,02319
70,951660,02334
71,062570,02349
71,173480,02365
71,28440,02381
71,395310,02397
71,506220,02414
71,617140,02432
71,728050,0245
71,838960,0247
71,949880,0249
72,060790,02511
72,17170,02532
72,282620,02554
72,393530,02576
72,504450,02599
72,615360,02622
72,726270,02644
72,837190,02666
72,94810,02689
73,059010,0271
73,169930,02731
73,280840,02752
73,391750,02772
73,502670,02791
73,613580,02809
73,724490,02827
73,835410,02845
73,946320,02861
74,057230,02878
74,168150,02894
74,279060,0291
74,389980,02926
74,500890,02943
74,61180,02959
74,722720,02976
74,833630,02993
74,944540,0301
75,055460,03028
75,166370,03047
75,277280,03066
75,38820,03086
75,499110,03106
75,610020,03127
75,720940,03148
75,831850,03169
75,942770,03191
76,053680,03213
76,164590,03236
76,275510,03258
76,386420,0328
76,497330,03302
76,608250,03324
76,719160,03345
76,830070,03367
76,940990,03387
77,05190,03407
77,162810,03427
77,273730,03446
77,384640,03465
77,495550,03483
77,606470,035
77,717380,03517
77,82830,03533
77,939210,03549
78,050120,03564
78,161040,03578
78,271950,03592
78,382860,03605
78,493780,03617
78,604690,03629
78,71560,03639
78,826520,03649
78,937430,03658
79,048340,03666
79,159260,03673
79,270170,03679
79,381080,03684
79,4920,03689
79,602910,03692
79,713830,03695
79,824740,03697
79,935650,03698
80,046570,03699
80,157480,03699
80,268390,03699
80,379310,03698
80,490220,03697
80,601130,03697
80,712050,03696
80,822960,03695
80,933870,03695
81,044790,03695
81,15570,03695
81,266610,03695
81,377530,03695
81,488440,03696
81,599360,03696
81,710270,03696
81,821180,03696
81,93210,03696
82,043010,03695
82,153920,03693
82,264840,0369
82,375750,03687
82,486660,03682
82,597580,03675
82,708490,03667
82,81940,03658
82,930320,03647
83,041230,03634
83,152140,0362
83,263060,03604
83,373970,03586
83,484890,03566
83,59580,03545
83,706710,03522
83,817630,03498
83,928540,03473
84,039450,03447
84,150370,0342
84,261280,03392
84,372190,03365
84,483110,03337
84,594020,03309
84,704930,03281
84,815850,03253
84,926760,03227
85,037680,032
85,148590,03175
85,25950,0315
85,370420,03126
85,481330,03102
85,592240,0308
85,703160,03058
85,814070,03037
85,924980,03017
86,03590,02997
86,146810,02978
86,257720,0296
86,368640,02942
86,479550,02924
86,590460,02907
86,701380,02891
86,812290,02874
86,923210,02858
87,034120,02842
87,145030,02826
87,255950,0281
87,366860,02794
87,477770,02778
87,588690,02761
87,69960,02744
87,810510,02726
87,921430,02708
88,032340,02689
88,143250,02669
88,254170,02649
88,365080,02628
88,475990,02607
88,586910,02586
88,697820,02564
88,808740,02542
88,919650,0252
89,030560,02498
89,141480,02477
89,252390,02456
89,36330,02435
89,474220,02415
89,585130,02396
89,696040,02378
89,806960,02361
89,917870,02344
90,028780,02328
90,13970,02313
90,250610,02299
90,361520,02285
90,472440,02272
90,583350,02258
90,694270,02245
90,805180,02231
90,916090,02217
91,027010,02203
91,137920,02188
91,248830,02172
91,359750,02155
91,470660,02138
91,581570,02119
91,692490,021
91,80340,0208
91,914310,02059
92,025230,02037
92,136140,02015
92,247060,01992
92,357970,01969
92,468880,01946
92,57980,01923
92,690710,019
92,801620,01877
92,912540,01854
93,023450,01832
93,134360,0181
93,245280,01789
93,356190,01769
93,46710,01748
93,578020,01729
93,688930,0171
93,799840,01691
93,910760,01673
94,021670,01654
94,132590,01637
94,24350,01619
94,354410,01601
94,465330,01584
94,576240,01566
94,687150,01548
94,798070,0153
94,908980,01511
95,019890,01493
95,130810,01474
95,241720,01455
95,352630,01436
95,463550,01416
95,574460,01397
95,685370,01378
95,796290,01358
95,90720,01339
96,018120,01321
96,129030,01303
96,239940,01285
96,350860,01269
96,461770,01254
96,572680,0124
96,68360,01228
96,794510,01217
96,905420,01209
97,016340,01204
97,127250,01202
97,238160,01204
97,349080,0121
97,459990,01221
97,57090,01237
97,681820,01258
97,792730,01285
97,903650,01318
98,014560,01359
98,125470,01406
98,236390,01459
98,34730,01518
98,458210,01582
98,569130,01651
98,680040,01723
98,790950,01797
98,901870,0187
99,012780,01942
99,123690,0201
99,234610,02072
99,345520,02126
99,456430,0217
99,567350,02201
99,678260,02217
99,789180,02218
1000,02204

5.2.3. Dichtheid van eindtoetsscores - CET
EindtoetsscoreDichtheid (Dichtheid)
5010,00047
501,124610,00049
501,231290,00051
501,337960,00052
501,444640,00054
501,551310,00055
501,657990,00055
501,764660,00056
501,871340,00056
501,978020,00057
502,084690,00057
502,191370,00057
502,298040,00058
502,404720,00058
502,511390,00059
502,618070,00059
502,724740,0006
502,831420,00061
502,93810,00062
503,044770,00063
503,151450,00065
503,258120,00066
503,36480,00067
503,471470,00069
503,578150,00071
503,684830,00072
503,79150,00074
503,898180,00076
504,004850,00078
504,111530,0008
504,21820,00082
504,324880,00084
504,431560,00087
504,538230,00089
504,644910,00092
504,751580,00094
504,858260,00097
504,964930,001
505,071610,00103
505,178290,00106
505,284960,00109
505,391640,00112
505,498310,00115
505,604990,00118
505,711660,00121
505,818340,00124
505,925010,00127
506,031690,0013
506,138370,00133
506,245040,00135
506,351720,00138
506,458390,00141
506,565070,00143
506,671740,00146
506,778420,00148
506,88510,00151
506,991770,00154
507,098450,00157
507,205120,0016
507,31180,00163
507,418470,00166
507,525150,0017
507,631830,00174
507,73850,00178
507,845180,00182
507,951850,00187
508,058530,00191
508,16520,00196
508,271880,00202
508,378560,00207
508,485230,00212
508,591910,00218
508,698580,00224
508,805260,0023
508,911930,00236
509,018610,00242
509,125280,00248
509,231960,00255
509,338640,00261
509,445310,00267
509,551990,00274
509,658660,0028
509,765340,00286
509,872010,00293
509,978690,003
510,085370,00306
510,192040,00313
510,298720,00319
510,405390,00326
510,512070,00333
510,618740,0034
510,725420,00346
510,83210,00353
510,938770,0036
511,045450,00367
511,152120,00373
511,25880,0038
511,365470,00387
511,472150,00394
511,578830,00401
511,68550,00408
511,792180,00415
511,898850,00422
512,005530,0043
512,11220,00437
512,218880,00445
512,325550,00452
512,432230,0046
512,538910,00468
512,645580,00476
512,752260,00484
512,858930,00493
512,965610,00501
513,072280,00509
513,178960,00518
513,285640,00526
513,392310,00535
513,498990,00543
513,605660,00552
513,712340,0056
513,819010,00569
513,925690,00577
514,032370,00586
514,139040,00595
514,245720,00604
514,352390,00613
514,459070,00623
514,565740,00632
514,672420,00643
514,77910,00653
514,885770,00664
514,992450,00676
515,099120,00688
515,20580,007
515,312470,00712
515,419150,00725
515,525830,00738
515,63250,00752
515,739180,00765
515,845850,00779
515,952530,00792
516,05920,00806
516,165880,00819
516,272550,00832
516,379230,00845
516,485910,00857
516,592580,00869
516,699260,00881
516,805930,00893
516,912610,00904
517,019280,00915
517,125960,00925
517,232640,00936
517,339310,00946
517,445990,00956
517,552660,00967
517,659340,00977
517,766010,00988
517,872690,00998
517,979370,01009
518,086040,0102
518,192720,01032
518,299390,01044
518,406070,01056
518,512740,01068
518,619420,01081
518,72610,01094
518,832770,01108
518,939450,01121
519,046120,01135
519,15280,01149
519,259470,01163
519,366150,01177
519,472820,0119
519,57950,01204
519,686180,01218
519,792850,01231
519,899530,01244
520,00620,01257
520,112880,0127
520,219550,01283
520,326230,01296
520,432910,01309
520,539580,01322
520,646260,01335
520,752930,01349
520,859610,01362
520,966280,01376
521,072960,01391
521,179640,01406
521,286310,01421
521,392990,01436
521,499660,01453
521,606340,01469
521,713010,01486
521,819690,01503
521,926370,0152
522,033040,01538
522,139720,01555
522,246390,01573
522,353070,01591
522,459740,01608
522,566420,01626
522,673090,01643
522,779770,0166
522,886450,01677
522,993120,01694
523,09980,0171
523,206470,01726
523,313150,01742
523,419820,01758
523,52650,01774
523,633180,0179
523,739850,01806
523,846530,01822
523,95320,01838
524,059880,01854
524,166550,0187
524,273230,01886
524,379910,01903
524,486580,0192
524,593260,01937
524,699930,01955
524,806610,01973
524,913280,01991
525,019960,0201
525,126640,02029
525,233310,02048
525,339990,02067
525,446660,02087
525,553340,02107
525,660010,02127
525,766690,02147
525,873360,02167
525,980040,02187
526,086720,02207
526,193390,02226
526,300070,02246
526,406740,02265
526,513420,02284
526,620090,02302
526,726770,0232
526,833450,02338
526,940120,02355
527,04680,02372
527,153470,02388
527,260150,02404
527,366820,0242
527,47350,02436
527,580180,02452
527,686850,02468
527,793530,02484
527,90020,02501
528,006880,02517
528,113550,02535
528,220230,02553
528,326910,02571
528,433580,02589
528,540260,02608
528,646930,02627
528,753610,02647
528,860280,02666
528,966960,02686
529,073630,02706
529,180310,02726
529,286990,02745
529,393660,02765
529,500340,02785
529,607010,02805
529,713690,02825
529,820360,02845
529,927040,02865
530,033720,02885
530,140390,02905
530,247070,02925
530,353740,02945
530,460420,02964
530,567090,02983
530,673770,03002
530,780450,0302
530,887120,03037
530,99380,03054
531,100470,0307
531,207150,03085
531,313820,031
531,42050,03114
531,527180,03127
531,633850,03139
531,740530,03151
531,84720,03163
531,953880,03174
532,060550,03185
532,167230,03196
532,27390,03206
532,380580,03217
532,487260,03229
532,593930,0324
532,700610,03252
532,807280,03265
532,913960,03278
533,020630,03292
533,127310,03307
533,233990,03322
533,340660,03338
533,447340,03354
533,554010,03372
533,660690,0339
533,767360,03408
533,874040,03428
533,980720,03447
534,087390,03467
534,194070,03487
534,300740,03507
534,407420,03527
534,514090,03547
534,620770,03567
534,727450,03586
534,834120,03605
534,94080,03623
535,047470,03641
535,154150,03659
535,260820,03676
535,36750,03693
535,474170,03709
535,580850,03726
535,687530,03743
535,79420,0376
535,900880,03777
536,007550,03794
536,114230,03812
536,22090,0383
536,327580,03849
536,434260,03868
536,540930,03888
536,647610,03907
536,754280,03927
536,860960,03946
536,967630,03965
537,074310,03984
537,180990,04002
537,287660,04019
537,394340,04035
537,501010,0405
537,607690,04063
537,714360,04075
537,821040,04086
537,927720,04095
538,034390,04102
538,141070,04107
538,247740,0411
538,354420,04112
538,461090,04112
538,567770,04111
538,674450,04108
538,781120,04104
538,88780,04099
538,994470,04093
539,101150,04087
539,207820,04081
539,31450,04074
539,421170,04069
539,527850,04063
539,634530,04059
539,74120,04055
539,847880,04053
539,954550,04052
540,061230,04052
540,16790,04054
540,274580,04057
540,381260,0406
540,487930,04065
540,594610,0407
540,701280,04075
540,807960,04081
540,914630,04086
541,021310,04091
541,127990,04095
541,234660,04098
541,341340,041
541,448010,041
541,554690,041
541,661360,04098
541,768040,04094
541,874720,04089
541,981390,04083
542,088070,04074
542,194740,04065
542,301420,04053
542,408090,0404
542,514770,04026
542,621440,0401
542,728120,03992
542,83480,03974
542,941470,03954
543,048150,03933
543,154820,03911
543,26150,03889
543,368170,03866
543,474850,03843
543,581530,03819
543,68820,03796
543,794880,03774
543,901550,03751
544,008230,0373
544,11490,03708
544,221580,03687
544,328260,03666
544,434930,03645
544,541610,03624
544,648280,03603
544,754960,0358
544,861630,03557
544,968310,03533
545,074990,03508
545,181660,03481
545,288340,03452
545,395010,03422
545,501690,0339
545,608360,03356
545,715040,0332
545,821710,03283
545,928390,03245
546,035070,03205
546,141740,03164
546,248420,03122
546,355090,03079
546,461770,03035
546,568440,02991
546,675120,02947
546,78180,02902
546,888470,02858
546,995150,02813
547,101820,02769
547,20850,02726
547,315170,02683
547,421850,02641
547,528530,02601
547,63520,02562
547,741880,02525
547,848550,02491
547,955230,02459
548,06190,02431
548,168580,02407
548,275260,02387
548,381930,02371
548,488610,02359
548,595280,02352
548,701960,02347
548,808630,02346
548,915310,02347
549,021980,02348
549,128660,02348
549,235340,02345
549,342010,02337
549,448690,02321
549,555360,02297
549,662040,02262
549,768710,02215
549,875390,02154
5500,02078

5.2.4. Dichtheid van eindtoetsscores - Route 8
EindtoetsscoreDichtheid (Dichtheid)
1000,00475
100,734050,00479
101,188360,00481
101,642660,0048
102,096970,00477
102,551280,00472
103,005580,00465
103,459890,00456
103,91420,00445
104,36850,00434
104,822810,00421
105,277120,00408
105,731420,00394
106,185730,00381
106,640030,00367
107,094340,00354
107,548650,00341
108,002950,00329
108,457260,00318
108,911570,00308
109,365870,00298
109,820180,0029
110,274490,00282
110,728790,00276
111,18310,0027
111,63740,00265
112,091710,00261
112,546020,00258
113,000320,00256
113,454630,00254
113,908940,00253
114,363240,00252
114,817550,00252
115,271860,00252
115,726160,00252
116,180470,00253
116,634780,00254
117,089080,00256
117,543390,00257
117,997690,00259
118,4520,00261
118,906310,00263
119,360610,00266
119,814920,00268
120,269230,00271
120,723530,00273
121,177840,00276
121,632150,00279
122,086450,00282
122,540760,00285
122,995060,00288
123,449370,00291
123,903680,00294
124,357980,00297
124,812290,003
125,26660,00303
125,72090,00306
126,175210,00309
126,629520,00312
127,083820,00315
127,538130,00318
127,992440,00321
128,446740,00324
128,901050,00327
129,355350,0033
129,809660,00333
130,263970,00336
130,718270,00339
131,172580,00342
131,626890,00345
132,081190,00349
132,53550,00352
132,989810,00355
133,444110,00358
133,898420,00361
134,352720,00365
134,807030,00368
135,261340,00371
135,715640,00375
136,169950,00378
136,624260,00381
137,078560,00385
137,532870,00388
137,987180,00392
138,441480,00395
138,895790,00398
139,35010,00401
139,80440,00405
140,258710,00408
140,713010,00411
141,167320,00415
141,621630,00418
142,075930,00421
142,530240,00424
142,984550,00428
143,438850,00431
143,893160,00434
144,347470,00438
144,801770,00441
145,256080,00445
145,710380,00448
146,164690,00452
146,6190,00455
147,07330,00459
147,527610,00462
147,981920,00466
148,436220,0047
148,890530,00474
149,344840,00477
149,799140,00481
150,253450,00485
150,707760,00489
151,162060,00492
151,616370,00496
152,070670,005
152,524980,00504
152,979290,00507
153,433590,00511
153,88790,00514
154,342210,00518
154,796510,00521
155,250820,00524
155,705130,00528
156,159430,00531
156,613740,00534
157,068040,00537
157,522350,0054
157,976660,00543
158,430960,00546
158,885270,0055
159,339580,00553
159,793880,00556
160,248190,0056
160,70250,00563
161,15680,00567
161,611110,00571
162,065420,00574
162,519720,00578
162,974030,00583
163,428330,00587
163,882640,00591
164,336950,00596
164,791250,00601
165,245560,00606
165,699870,00611
166,154170,00616
166,608480,00621
167,062790,00626
167,517090,00632
167,97140,00637
168,425710,00642
168,880010,00648
169,334320,00654
169,788620,00659
170,242930,00665
170,697240,0067
171,151540,00676
171,605850,00681
172,060160,00687
172,514460,00692
172,968770,00698
173,423080,00703
173,877380,00709
174,331690,00714
174,785990,00719
175,24030,00724
175,694610,0073
176,148910,00735
176,603220,0074
177,057530,00744
177,511830,00749
177,966140,00754
178,420450,00758
178,874750,00763
179,329060,00767
179,783370,00772
180,237670,00776
180,691980,0078
181,146280,00784
181,600590,00788
182,05490,00792
182,50920,00796
182,963510,00799
183,417820,00803
183,872120,00806
184,326430,0081
184,780740,00813
185,235040,00816
185,689350,00819
186,143650,00822
186,597960,00825
187,052270,00828
187,506570,00831
187,960880,00833
188,415190,00835
188,869490,00838
189,32380,0084
189,778110,00842
190,232410,00844
190,686720,00846
191,141030,00847
191,595330,00849
192,049640,00851
192,503940,00852
192,958250,00853
193,412560,00855
193,866860,00856
194,321170,00857
194,775480,00858
195,229780,0086
195,684090,00861
196,13840,00862
196,59270,00863
197,047010,00864
197,501310,00865
197,955620,00866
198,409930,00867
198,864230,00868
199,318540,00869
199,772850,0087
200,227150,00871
200,681460,00872
201,135770,00873
201,590070,00874
202,044380,00875
202,498690,00875
202,952990,00876
203,40730,00877
203,86160,00877
204,315910,00878
204,770220,00878
205,224520,00878
205,678830,00878
206,133140,00878
206,587440,00878
207,041750,00878
207,496060,00878
207,950360,00878
208,404670,00878
208,858970,00877
209,313280,00877
209,767590,00876
210,221890,00875
210,67620,00875
211,130510,00874
211,584810,00872
212,039120,00871
212,493430,0087
212,947730,00868
213,402040,00866
213,856350,00864
214,310650,00861
214,764960,00859
215,219260,00856
215,673570,00852
216,127880,00849
216,582180,00845
217,036490,00841
217,49080,00837
217,94510,00832
218,399410,00828
218,853720,00823
219,308020,00818
219,762330,00813
220,216630,00808
220,670940,00802
221,125250,00797
221,579550,00792
222,033860,00786
222,488170,00781
222,942470,00776
223,396780,0077
223,851090,00765
224,305390,0076
224,75970,00754
225,214010,00749
225,668310,00744
226,122620,00739
226,576920,00734
227,031230,00728
227,485540,00723
227,939840,00718
228,394150,00713
228,848460,00707
229,302760,00702
229,757070,00696
230,211380,00691
230,665680,00685
231,119990,00679
231,574290,00673
232,02860,00667
232,482910,00661
232,937210,00655
233,391520,00648
233,845830,00642
234,300130,00635
234,754440,00629
235,208750,00622
235,663050,00615
236,117360,00608
236,571670,00601
237,025970,00594
237,480280,00586
237,934580,00579
238,388890,00572
238,84320,00564
239,29750,00557
239,751810,0055
240,206120,00542
240,660420,00535
241,114730,00527
241,569040,00519
242,023340,00512
242,477650,00504
242,931960,00497
243,386260,00489
243,840570,00482
244,294870,00474
244,749180,00467
245,203490,0046
245,657790,00453
246,11210,00446
246,566410,00439
247,020710,00432
247,475020,00425
247,929330,00418
248,383630,00412
248,837940,00406
249,292240,004
249,746550,00394
250,200860,00388
250,655160,00382
251,109470,00376
251,563780,00371
252,018080,00365
252,472390,0036
252,92670,00354
253,3810,00349
253,835310,00344
254,289620,00338
254,743920,00333
255,198230,00327
255,652530,00322
256,106840,00317
256,561150,00311
257,015450,00306
257,469760,003
257,924070,00295
258,378370,00289
258,832680,00284
259,286990,00278
259,741290,00273
260,19560,00267
260,64990,00262
261,104210,00257
261,558520,00251
262,012820,00246
262,467130,00241
262,921440,00236
263,375740,00231
263,830050,00226
264,284360,00222
264,738660,00217
265,192970,00212
265,647280,00208
266,101580,00204
266,555890,00199
267,010190,00195
267,46450,00191
267,918810,00187
268,373110,00183
268,827420,00179
269,281730,00176
269,736030,00172
270,190340,00168
270,644650,00164
271,098950,00161
271,553260,00157
272,007560,00154
272,461870,0015
272,916180,00147
273,370480,00143
273,824790,0014
274,27910,00137
274,73340,00134
275,187710,00131
275,642020,00128
276,096320,00125
276,550630,00122
277,004940,00119
277,459240,00117
277,913550,00114
278,367850,00112
278,822160,0011
279,276470,00107
279,730770,00105
280,185080,00103
280,639390,00101
281,093690,00099
281,5480,00097
282,002310,00095
282,456610,00093
282,910920,00091
283,365220,00089
283,819530,00088
284,273840,00086
284,728140,00084
285,182450,00083
285,636760,00081
286,091060,0008
286,545370,00078
286,999680,00077
287,453980,00075
287,908290,00074
288,36260,00073
288,81690,00072
289,271210,0007
289,725510,00069
290,179820,00068
290,634130,00068
291,088430,00067
291,542740,00066
291,997050,00065
292,451350,00065
292,905660,00064
293,359970,00064
293,814270,00063
294,268580,00063
294,722880,00062
295,177190,00062
295,63150,00061
296,08580,00061
296,540110,0006
296,994420,00059
297,448720,00058
297,903030,00058
298,357340,00056
298,811640,00055
299,265950,00054
3000,00052

5.2.5. Dichtheid van eindtoetsscores - Dia
EindtoetsscoreDichtheid (Dichtheid)
3210,00049
321,212350,0005
321,367150,00051
321,521950,00052
321,676740,00053
321,831540,00054
321,986340,00055
322,141140,00055
322,295930,00056
322,450730,00057
322,605530,00058
322,760330,00058
322,915120,00059
323,069920,0006
323,224720,00061
323,379520,00063
323,534310,00064
323,689110,00065
323,843910,00067
323,998710,00068
324,15350,0007
324,30830,00071
324,46310,00073
324,61790,00074
324,772690,00075
324,927490,00077
325,082290,00078
325,237090,00079
325,391880,0008
325,546680,00081
325,701480,00082
325,856280,00083
326,011070,00084
326,165870,00085
326,320670,00086
326,475470,00087
326,630260,00088
326,785060,0009
326,939860,00092
327,094660,00094
327,249450,00096
327,404250,00098
327,559050,00101
327,713850,00105
327,868640,00108
328,023440,00112
328,178240,00117
328,333040,00121
328,487830,00126
328,642630,00131
328,797430,00137
328,952230,00143
329,107020,00149
329,261820,00155
329,416620,00162
329,571420,00168
329,726210,00175
329,881010,00182
330,035810,00188
330,190610,00195
330,34540,00202
330,50020,00209
330,6550,00216
330,80980,00223
330,964590,0023
331,119390,00237
331,274190,00243
331,428990,0025
331,583780,00258
331,738580,00265
331,893380,00272
332,048180,00279
332,202970,00287
332,357770,00294
332,512570,00302
332,667370,0031
332,822160,00318
332,976960,00327
333,131760,00336
333,286560,00344
333,441350,00354
333,596150,00363
333,750950,00373
333,905750,00383
334,060540,00393
334,215340,00403
334,370140,00413
334,524940,00424
334,679730,00435
334,834530,00446
334,989330,00456
335,144130,00467
335,298920,00478
335,453720,00489
335,608520,005
335,763320,00511
335,918110,00521
336,072910,00532
336,227710,00542
336,382510,00553
336,53730,00563
336,69210,00574
336,84690,00584
337,00170,00595
337,156490,00605
337,311290,00616
337,466090,00627
337,620890,00638
337,775680,00649
337,930480,00661
338,085280,00673
338,240080,00686
338,394870,00698
338,549670,00712
338,704470,00725
338,859270,0074
339,014060,00754
339,168860,00769
339,323660,00784
339,478460,008
339,633250,00816
339,788050,00833
339,942850,00849
340,097650,00866
340,252440,00884
340,407240,00901
340,562040,00919
340,716840,00936
340,871630,00954
341,026430,00972
341,181230,0099
341,336030,01008
341,490820,01026
341,645620,01044
341,800420,01062
341,955220,0108
342,110010,01098
342,264810,01116
342,419610,01133
342,574410,01151
342,72920,01169
342,8840,01187
343,03880,01205
343,19360,01224
343,34840,01242
343,503190,0126
343,657990,01279
343,812790,01298
343,967590,01317
344,122380,01336
344,277180,01356
344,431980,01376
344,586780,01396
344,741570,01416
344,896370,01437
345,051170,01458
345,205970,01479
345,360760,01501
345,515560,01522
345,670360,01545
345,825160,01567
345,979950,0159
346,134750,01613
346,289550,01637
346,444350,01661
346,599140,01686
346,753940,01711
346,908740,01736
347,063540,01762
347,218330,01789
347,373130,01815
347,527930,01842
347,682730,0187
347,837520,01897
347,992320,01925
348,147120,01952
348,301920,0198
348,456710,02008
348,611510,02036
348,766310,02063
348,921110,0209
349,07590,02117
349,23070,02144
349,38550,02171
349,54030,02198
349,695090,02224
349,849890,02251
350,004690,02277
350,159490,02304
350,314280,0233
350,469080,02357
350,623880,02383
350,778680,0241
350,933470,02437
351,088270,02464
351,243070,02492
351,397870,02519
351,552660,02547
351,707460,02575
351,862260,02602
352,017060,0263
352,171850,02658
352,326650,02686
352,481450,02714
352,636250,02742
352,791040,02769
352,945840,02796
353,100640,02823
353,255440,02849
353,410230,02875
353,565030,029
353,719830,02924
353,874630,02948
354,029420,0297
354,184220,02992
354,339020,03013
354,493820,03032
354,648610,0305
354,803410,03067
354,958210,03083
355,113010,03098
355,26780,03111
355,42260,03123
355,57740,03133
355,73220,03143
355,886990,03151
356,041790,03158
356,196590,03164
356,351390,0317
356,506180,03174
356,660980,03179
356,815780,03182
356,970580,03186
357,125370,03189
357,280170,03192
357,434970,03196
357,589770,032
357,744560,03204
357,899360,03209
358,054160,03214
358,208960,0322
358,363750,03227
358,518550,03235
358,673350,03243
358,828150,03253
358,982940,03263
359,137740,03274
359,292540,03285
359,447340,03297
359,602130,0331
359,756930,03322
359,911730,03335
360,066530,03347
360,221320,0336
360,376120,03371
360,530920,03382
360,685720,03393
360,840510,03402
360,995310,03411
361,150110,03418
361,304910,03424
361,45970,03429
361,61450,03432
361,76930,03434
361,92410,03435
362,078890,03434
362,233690,03431
362,388490,03428
362,543290,03423
362,698080,03417
362,852880,0341
363,007680,03401
363,162480,03392
363,317270,03382
363,472070,03371
363,626870,03359
363,781670,03346
363,936460,03333
364,091260,03319
364,246060,03305
364,400860,0329
364,555650,03274
364,710450,03258
364,865250,03242
365,020050,03224
365,174840,03206
365,329640,03188
365,484440,03168
365,639240,03148
365,794030,03127
365,948830,03105
366,103630,03083
366,258430,03059
366,413220,03034
366,568020,03009
366,722820,02983
366,877620,02956
367,032410,02929
367,187210,029
367,342010,02872
367,496810,02843
367,65160,02813
367,80640,02784
367,96120,02754
368,1160,02725
368,27080,02696
368,425590,02667
368,580390,02638
368,735190,02609
368,889990,02581
369,044780,02553
369,199580,02525
369,354380,02497
369,509180,0247
369,663970,02442
369,818770,02414
369,973570,02386
370,128370,02358
370,283160,02329
370,437960,023
370,592760,0227
370,747560,0224
370,902350,0221
371,057150,02179
371,211950,02147
371,366750,02115
371,521540,02082
371,676340,02048
371,831140,02015
371,985940,01981
372,140730,01947
372,295530,01912
372,450330,01878
372,605130,01844
372,759920,01809
372,914720,01776
373,069520,01742
373,224320,01709
373,379110,01677
373,533910,01645
373,688710,01614
373,843510,01584
373,99830,01555
374,15310,01526
374,30790,01499
374,46270,01472
374,617490,01446
374,772290,01421
374,927090,01397
375,081890,01373
375,236680,0135
375,391480,01327
375,546280,01306
375,701080,01284
375,855870,01263
376,010670,01243
376,165470,01223
376,320270,01203
376,475060,01183
376,629860,01164
376,784660,01145
376,939460,01126
377,094250,01108
377,249050,0109
377,403850,01072
377,558650,01054
377,713440,01036
377,868240,01019
378,023040,01001
378,177840,00984
378,332630,00967
378,487430,0095
378,642230,00933
378,797030,00916
378,951820,00899
379,106620,00882
379,261420,00865
379,416220,00848
379,571010,0083
379,725810,00813
379,880610,00796
380,035410,00779
380,19020,00761
380,3450,00744
380,49980,00726
380,65460,00709
380,809390,00692
380,964190,00675
381,118990,00658
381,273790,00641
381,428580,00625
381,583380,00609
381,738180,00593
381,892980,00578
382,047770,00563
382,202570,00548
382,357370,00534
382,512170,0052
382,666960,00506
382,821760,00493
382,976560,0048
383,131360,00467
383,286150,00454
383,440950,00441
383,595750,00429
383,750550,00417
383,905340,00405
384,060140,00393
384,214940,00381
384,369740,0037
384,524530,00359
384,679330,00348
384,834130,00337
384,988930,00326
385,143720,00316
385,298520,00306
385,453320,00297
385,608120,00288
385,762910,0028
385,917710,00272
386,072510,00265
386,227310,00259
386,38210,00253
386,53690,00248
386,69170,00244
386,84650,0024
387,001290,00237
387,156090,00234
387,310890,00232
387,465690,0023
387,620480,00229
387,775280,00228
387,930080,00228
388,084880,00227
388,239670,00226
388,394470,00226
388,549270,00225
388,704070,00224
388,858860,00222
389,013660,0022
389,168460,00217
389,323260,00214
389,478050,0021
389,632850,00205
389,787650,00199
3900,00193

5.2.6. Dichtheid van eindtoetsscores - AMN
EindtoetsscoreDichtheid (Dichtheid)
3000,00568
300,775670,00583
301,291120,00597
301,806570,00611
302,322020,00624
302,837480,00636
303,352930,00648
303,868380,00659
304,383830,00669
304,899280,00679
305,414730,00687
305,930180,00695
306,445630,00702
306,961080,00708
307,476530,00713
307,991990,00718
308,507440,00722
309,022890,00725
309,538340,00727
310,053790,00728
310,569240,00729
311,084690,00729
311,600140,00729
312,115590,00727
312,631050,00726
313,14650,00723
313,661950,0072
314,17740,00717
314,692850,00713
315,20830,00709
315,723750,00705
316,23920,007
316,754650,00694
317,27010,00689
317,785560,00683
318,301010,00678
318,816460,00672
319,331910,00665
319,847360,00659
320,362810,00653
320,878260,00647
321,393710,0064
321,909160,00634
322,424620,00628
322,940070,00621
323,455520,00615
323,970970,00609
324,486420,00603
325,001870,00597
325,517320,00592
326,032770,00586
326,548220,00581
327,063670,00576
327,579130,00571
328,094580,00566
328,610030,00561
329,125480,00556
329,640930,00552
330,156380,00548
330,671830,00544
331,187280,0054
331,702730,00537
332,218190,00533
332,733640,0053
333,249090,00527
333,764540,00524
334,279990,00521
334,795440,00518
335,310890,00516
335,826340,00514
336,341790,00512
336,857250,0051
337,37270,00508
337,888150,00506
338,40360,00504
338,919050,00503
339,43450,00501
339,949950,005
340,46540,00498
340,980850,00497
341,49630,00496
342,011760,00495
342,527210,00494
343,042660,00493
343,558110,00492
344,073560,00491
344,589010,0049
345,104460,00489
345,619910,00488
346,135360,00488
346,650820,00487
347,166270,00486
347,681720,00485
348,197170,00485
348,712620,00484
349,228070,00483
349,743520,00482
350,258970,00482
350,774420,00481
351,289870,0048
351,805330,00479
352,320780,00479
352,836230,00478
353,351680,00477
353,867130,00476
354,382580,00475
354,898030,00474
355,413480,00474
355,928930,00473
356,444390,00472
356,959840,00471
357,475290,0047
357,990740,00469
358,506190,00468
359,021640,00467
359,537090,00466
360,052540,00465
360,567990,00464
361,083440,00463
361,59890,00461
362,114350,0046
362,62980,00459
363,145250,00458
363,66070,00457
364,176150,00456
364,69160,00455
365,207050,00454
365,72250,00453
366,237960,00452
366,753410,0045
367,268860,00449
367,784310,00448
368,299760,00447
368,815210,00446
369,330660,00446
369,846110,00445
370,361560,00444
370,877020,00443
371,392470,00442
371,907920,00441
372,423370,00441
372,938820,0044
373,454270,00439
373,969720,00439
374,485170,00438
375,000620,00438
375,516070,00437
376,031530,00437
376,546980,00437
377,062430,00436
377,577880,00436
378,093330,00436
378,608780,00436
379,124230,00435
379,639680,00435
380,155130,00435
380,670590,00435
381,186040,00435
381,701490,00435
382,216940,00435
382,732390,00435
383,247840,00435
383,763290,00435
384,278740,00435
384,794190,00435
385,309640,00435
385,82510,00436
386,340550,00436
386,8560,00436
387,371450,00436
387,88690,00436
388,402350,00436
388,91780,00436
389,433250,00436
389,94870,00437
390,464160,00437
390,979610,00437
391,495060,00437
392,010510,00437
392,525960,00437
393,041410,00437
393,556860,00437
394,072310,00437
394,587760,00437
395,103210,00438
395,618670,00438
396,134120,00438
396,649570,00438
397,165020,00438
397,680470,00438
398,195920,00438
398,711370,00438
399,226820,00438
399,742270,00438
400,257730,00438
400,773180,00438
401,288630,00438
401,804080,00438
402,319530,00438
402,834980,00438
403,350430,00438
403,865880,00437
404,381330,00437
404,896790,00437
405,412240,00437
405,927690,00437
406,443140,00437
406,958590,00437
407,474040,00437
407,989490,00436
408,504940,00436
409,020390,00436
409,535840,00436
410,05130,00436
410,566750,00435
411,08220,00435
411,597650,00435
412,11310,00435
412,628550,00434
413,1440,00434
413,659450,00434
414,17490,00433
414,690360,00433
415,205810,00433
415,721260,00432
416,236710,00432
416,752160,00431
417,267610,00431
417,783060,0043
418,298510,0043
418,813960,00429
419,329410,00429
419,844870,00429
420,360320,00428
420,875770,00428
421,391220,00427
421,906670,00426
422,422120,00426
422,937570,00425
423,453020,00425
423,968470,00424
424,483930,00424
424,999380,00423
425,514830,00423
426,030280,00423
426,545730,00422
427,061180,00422
427,576630,00421
428,092080,00421
428,607530,0042
429,122980,0042
429,638440,0042
430,153890,0042
430,669340,00419
431,184790,00419
431,700240,00419
432,215690,00419
432,731140,00419
433,246590,00419
433,762040,00419
434,27750,00419
434,792950,00419
435,30840,00419
435,823850,00419
436,33930,00419
436,854750,00419
437,37020,00419
437,885650,0042
438,40110,0042
438,916560,0042
439,432010,00421
439,947460,00421
440,462910,00421
440,978360,00422
441,493810,00422
442,009260,00422
442,524710,00423
443,040160,00423
443,555610,00423
444,071070,00424
444,586520,00424
445,101970,00424
445,617420,00425
446,132870,00425
446,648320,00425
447,163770,00426
447,679220,00426
448,194670,00426
448,710130,00426
449,225580,00426
449,741030,00426
450,256480,00426
450,771930,00426
451,287380,00426
451,802830,00426
452,318280,00426
452,833730,00426
453,349180,00426
453,864640,00425
454,380090,00425
454,895540,00425
455,410990,00424
455,926440,00424
456,441890,00424
456,957340,00423
457,472790,00423
457,988240,00422
458,50370,00422
459,019150,00422
459,53460,00421
460,050050,00421
460,56550,0042
461,080950,0042
461,59640,00419
462,111850,00419
462,62730,00418
463,142750,00418
463,658210,00417
464,173660,00417
464,689110,00417
465,204560,00416
465,720010,00416
466,235460,00416
466,750910,00415
467,266360,00415
467,781810,00415
468,297270,00415
468,812720,00414
469,328170,00414
469,843620,00414
470,359070,00414
470,874520,00414
471,389970,00414
471,905420,00414
472,420870,00414
472,936330,00413
473,451780,00413
473,967230,00413
474,482680,00413
474,998130,00413
475,513580,00413
476,029030,00412
476,544480,00412
477,059930,00412
477,575380,00411
478,090840,00411
478,606290,0041
479,121740,00409
479,637190,00408
480,152640,00407
480,668090,00406
481,183540,00405
481,698990,00404
482,214440,00402
482,72990,004
483,245350,00398
483,76080,00396
484,276250,00394
484,79170,00391
485,307150,00389
485,82260,00386
486,338050,00383
486,85350,00379
487,368950,00375
487,884410,00372
488,399860,00367
488,915310,00363
489,430760,00358
489,946210,00353
490,461660,00348
490,977110,00343
491,492560,00337
492,008010,00331
492,523470,00325
493,038920,00318
493,554370,00312
494,069820,00305
494,585270,00298
495,100720,00291
495,616170,00283
496,131620,00275
496,647070,00268
497,162520,0026
497,677980,00252
498,193430,00244
498,708880,00236
499,224330,00227
5000,00219

De verschillende eindtoetsen laten een andere verdeling van de eindtoetsscores zien, die bij sommige aanbieders wel wat lijkt op een normale verdeling, maar bij met name AMN eerder lijkt op een uniforme verdeling.

Om toch te zien wat het effect is van een z-score, zullen we deze wel berekenen zodat we later bij de ontwikkeling van het herijkte model voor onderwijsachterstanden een vergelijking kunnen maken met een van de andere methoden. Dit doen we als volgt per toetsaanbieder t, met t = (AMN, CET, Dia, Iep, Route.8):

$$x_{herschaald\_ t} = \ \frac{x_{t} - \overline{x_{t}}}{\sigma(x_{t})}$$
Hierbij is xt  de oorspronkelijke variabele met de eindtoetsscore per toetsaanbieder, (xt) het gemiddelde van de eindtoetsscores per toetsaanbieder en σ(xt) de standaarddeviatie van de eindtoetsscores per toetsaanbieder. Voor alle toetsaanbieders zal dan het gemiddelde 0 worden en de standaarddeviatie 1. Idealiter zouden we willen dat na standaardisatie de scores van de verschillende toetsaanbieders dicht bij elkaar liggen en nauwelijks te onderscheiden zijn. 

Methode 2: Normalisatie met min-max transformatie naar toetsaanbieder en toetsadvies

Ten tweede passen we per toetsaanbieder een normalisatie met min-max transformatie toe waarbij we rekening houden met het bijbehorende toetsadvies. Over het algemeen kun je als volgt normaliseren met een min-max transformatie: 

$$x_{herschaald} = \ \frac{x - \min(x)}{\max(x) - \min(x)}$$

Hierbij is x de oorspronkelijke variabele met de eindtoetsscore, min(x) het minimum van de variabele en max(x) het maximum van de variabele. Door het toepassen van deze formule valt de nieuwe variabele x in het bereik [0,1]. Om dit bereik aan te passen naar [a, b], kunnen we de formule als volgt gebruiken: 

$$x_{herschaald} = a + \ \frac{\left( x - min(x) \right)*(b - a)}{max(x) - min(x)}$$

Omdat we rekening willen houden met zowel het toetsadvies als de toetsaanbieder, gaan we per combinatie van toetsadvies en toetsaanbieder normaliseren (per cel in tabel 5.2.1). Als we dit doen voor iedere cel apart, zal alles op een bereik van [0, 1] komen te liggen. Omdat we hierin ook de zes toetsadviezen willen meenemen, zullen we de schaal aanpassen per toetsadvies, zodat deze in totaal loopt van [0, 6]. Elk toetsadvies blijft hierbij een bereik van lengte 1 behouden. We komen dan op de volgende formule:

$$x_{herschaald\_ ti} = i - 1 + \ \frac{x_{ti} - \min(x_{ti})}{\max(x_{ti}) - \min(x_{ti})}$$

Hierbij staat i voor de waarde behorende tot de toetsadviescategorie: pro/vmbo b (1), vmbo b/k (2), vmbo k/gt (3), vmbo gt/havo (4), havo/vwo (5) en vwo (6) en t voor de toetsaanbieder.

Om ervoor te zorgen dat de scores over de toetsadviezen niet overlappen, bijvoorbeeld de maximum score in categorie 1 en de minimum score in categorie 2, doen we nog een kleine aanpassing zodat dit niet kan gebeuren. We passen de min(x) en max(x) per cel van de toetsaanbieder en het toetsadvies aan door van het minimum 0,5 af te trekken en bij het maximum 0,5 op te tellen. Door dit te doen krijg je minimum- en maximumscores die precies tussen de ranges van de twee toetsadviezen in liggen, bijvoorbeeld bij CET zal de maximumscore voor pro/vmbo b en de minimumscore voor vmbo b/k op 510,5 liggen wat precies tussen de waarden 510 en 511 is, die de grens vormen tussen beide toetsadviezen. De schaal zal op die manier ook netjes verdeeld zijn tussen de toetsadviezen. De aangepaste formule is als volgt:

$$x_{herschaald\_ ti} = i - 1 + \ \frac{x_{ti} - (\min\left( x_{ti} \right) - 0,5)}{(max\left( x_{ti} \right) + 0,5) - (\min\left( x_{ti} \right) - 0,5)}$$

Een normalisatie met min-max transformatie past beter bij een situatie waarin de onderliggende toetsaanbieders verschillende verdelingen hebben. Het voordeel is dat alles op dezelfde schaal komt te liggen én we rekening kunnen houden met de toetsadviezen. 

Methode 3: Normalisatie met min-max transformatie naar toetsaanbieder en toetsadvies + correctie van de schaalverdeling over de toetsadviezen

In tabel 5.2.1 zien we dat het bereik van de eindtoetsscores over de toetsadviezen nog kan verschillen. Bijvoorbeeld, het bereik voor pro/vmbo b voor Iep is smaller dan het bereik voor vmbo k/gt. Met methode 2 hebben we alle toetsadviezen een bereik van dezelfde lengte gegeven op de schaal, namelijk (i-1,i) bij toetsadvies i. In methode 3 stellen we voor om ook dit bereik nog te herschalen zodat we rekening houden met hoe vaak de toetsadviezen voorkomen in de populatie. Op deze manier brengen we de schaal meer in verhouding met de realiteit. De bereiken per toetsadvies die bij methode 2 gelijk waren aan 1 zullen dus aangepast kunnen worden naar een passend bereik op basis van verhoudingen in de populatie.

De frequenties waarin de toetsadviezen voorkomen – over alle toetsaanbieders heen – worden in figuur 5.2.7 weergegeven. Daarbij zien we dat de middelste toetsadviezen vaker voorkomen dan de toetsadviezen die daarna of daarvoor volgen. 

5.2.7. Verdeling toetsadviezen
ToetsadviesAantal (Aantal )
Pro/vmbo b4593
Vmbo b/k24317
Vmbo k/gt35559
Vmbo gt/havo50999
Havo/vwo32988
Vwo29226

We nemen in dit geval aan dat onderliggende toetsadviezen ongeveer normaal verdeeld zijn in de populatie. Daarom passen we de schaalgrenzen zo aan dat ze aansluiten bij die van een normale verdeling. Dat doen we in de volgende stappen: 

  1. We berekenen het aandeel leerlingen per toetsadvies voor de totale populatie en berekenen hierbij het cumulatieve aandeel.
  2. Vervolgens gaan we uit van een normale verdeling met een gemiddelde van 3 en een standaarddeviatie van 1. Op deze manier sluiten we aan bij de schaal uit methode 2 die loopt van [0, 6], met 3 als middelpunt. De schaal past het beste bij deze toepassing, maar je zou ook een andere schaalverdeling kunnen hanteren. Vervolgens zoeken we op basis van de cumulatieve proporties per toetsadvies de juiste grenzen op in de normale verdeling. Hieronder staat een voorbeeld voor pro/vmbo-b. Dit toetsadvies heeft een cumulatieve proportie van 0,0258 en daarbij hoort de grens in de normale verdeling van 1,0544.
    5_2_8_Normaal_curve
  3. Omdat de staarten van de normale verdeling oneindig zijn en geen harde grens hebben, zetten wij deze op 0 en 6. (Dit afkappen heeft slechts een zeer beperkt effect op de uitkomsten, aangezien een trekking uit de normale verdeling N(3,1) met ruim 99,7% kans ligt tussen 0 en 6). Zo loopt de schaal voor pro vmbo-b van 0 tot 1,0544. Deze methode kunnen we toepassen op elk toetsadvies. Hierbij nemen we ook weer de aangepaste min(x) en max(x) waarden mee zoals beschreven bij methode 2, om precies tussen de toetsadviezen uit te komen.
  4. Vervolgens normaliseren we de eindtoetsscores weer opnieuw, maar dan met de schaalgrenzen per toetsadvies i, aangepast naar de normale verdeling:

    $$x_{herschaald\_ ti} = a_{i} + \ \frac{(x_{ti} - \left( \min\left( x_{ti} \right) - 0,5 \right))*(b_{i} - a_{i})}{(max\left( x_{ti} \right) + 0,5) - (\min\left( x_{ti} \right) - 0,5)}$$

Hierbij staat ai voor de ondergrens voor toetsadviescategorie i en bi voor de bovengrens. Beide grenzen zijn gebaseerd op de normale verdeling behorende bij het cumulatieve aandeel van de betreffende toetsadviescategorie.

5.3 Resultaten

In figuur 5.3.1 wordt het resultaat van de uniformering van de eindtoetsscores weergegeven voor de verschillende methoden. In de eerste figuur (linksboven) zien we de oorspronkelijke verdeling. In de tweede figuur (rechtsboven) zien we methode 1 met z-scores, figuur 3 (linksonder) de methode met min-max transformatie en in figuur vier (rechtsonder) de methode met de min-max transformatie én extra herschaling naar een normale verdeling.

5_3_1_Normalisaties

Methode 2 (min-max normalisatie) zet alles netjes op een schaal van 0 tot 6, maar heeft nog vrij uitgesmeerde verdelingen tussen 0 en 6. Bij methode 3 (min-max normalisatie + herschaling) zien we dat de verdeling in totaal wel meer lijkt op een normale verdeling. Terwijl bij methode 1 (z-scores) alles nog dichter bij elkaar komt te liggen in het middelpunt. Wel valt op dat AMN en Dia een vrij vlakke verdeling blijven houden in alle scenario’s, zoals we ook terugzien in de oorspronkelijke scores. De grootste toetsaanbieders domineren de uitkomst het meest bij het gebruik van z-scores. Daarnaast houden de z-scores geen rekening met bijbehorende toetsadviezen, terwijl de andere normalisaties dit wel doen. Door het gebruik van min-max normalisatie krijgen we een praktische schaal van 0 tot 6. Door dit ook nog te herschalen komen we in de buurt van een normale verdeling, maar houden we ook nog vast aan de oorspronkelijke verdelingen per toetsaanbieder. We sluiten hierbij meer aan bij de verhoudingen in de populatie én houden vast aan de toetsadviezen die hierbij horen.

Het nadeel van z-scores is dat we geen rekening houden met de toetsadviezen. Dit kan betekenen dat scores gaan overlappen over toetsadviezen heen. In tabel 5.3.2 wordt duidelijk dat dit inderdaad gebeurt. Bijvoorbeeld: een z-score van –1 hoort een toetsadvies vmbo- k/gt als deze afkomstig is van CET, maar een toetsadvies vmbo-b/k als deze afkomstig is van Route 8.

We hebben de nieuwe voorkomende bereiken toegevoegd aan tabel 5.2.1 om een voorbeeld te geven van de nieuwe herschaalde scores, zie tabel 5.3.2.

5.3.2 Toetsscores en herschaalde toetsscores per toetsadvies en toetsaanbieder
ToetsadviesCETRoute 8IepDiaAMNZ-scores min-max normalisatiemin-max normalisatie + herschaling
Pro / vmbo b501-510100-11250-51321-338300-304-3,49 – (-1,34)0,03-0,970,03-1,03
Vmbo b/k511-523113-15952-68339-349305-332-2,47 – (-0,67)1,01-1,991,06-2,01
Vmbo k/gt524-531160-18769-76350-356333-374-1,13 – (-0,06)2,01-2,992,02-2,64
Vmbo gt/havo532-539188-21677-84357-365375-433-0,31 – 0,753,02-3,992,66-3,38
Havo/vwo540-544217-23885-91366-371434-4680,43 – 1,314,01-4,993,39-3,97
Vwo545-550239-30092-100372-390469-5001,03 – 2,575,01-5,993,99-5,98

5.4 Conclusie en discussie

Om de eindtoetsen zo goed mogelijk te uniformeren met de beschikbare gegevens, zou methode 3 met min-max normalisatie én herschaling de voorkeur hebben. Met deze methode zetten we alles op eenzelfde schaal en houden we rekening met het aandeel per toetsadvies in de populatie en bijbehorende toetsadviezen.

Daarnaast hebben we bij methode 3 gekozen voor een normale verdeling om te herschalen. Hier zou ook een andere methode bedacht kunnen worden om te herschalen. Tevens is de keuze voor een normale verdeling met een gemiddelde van 3 en standaarddeviatie van 1 een pragmatische. Dit zou ook iets anders kunnen zijn als basis. Omdat de ranges over de toetsadviezen, in combinatie met de toetsaanbieders kunnen verschillen, kunnen we niet zomaar wegen naar deze ranges.

Hoewel methode 3 de beste benadering is voor uniformering met de huidige data, zijn er nog steeds enkele kanttekeningen te maken. Bij de voorgestelde methoden wordt de aanname gemaakt dat alle toetsen ook werkelijk hetzelfde meten bij leerlingen. We kunnen op dit moment niet beoordelen of dit daadwerkelijk het geval is. We zien daarnaast in de figuren terug dat de verdeling van de eindtoetsscores verschilt per toetsaanbieder. De toetsen bestaan wel uit enkele ankeritems op rekenen en taal die terugkomen in alle toetsen, maar de overige inhoud van de toetsen zou wel kunnen verschillen. Dit kunnen we op dit moment niet beoordelen. Daarnaast zou de populatie per eindtoets kunnen verschillen, doordat scholen verschillend een keuze maken voor een bepaalde eindtoets. Zo stelde het CPB eerder in een rapport vast dat scholen met een slechtere uitkomst op de eindtoets eerder geneigd zijn om te kiezen voor een andere toets dan de Centrale Eindtoets (CET) van Cito (Swart, L., Van den Berge, W., & Visser, D., 2019).

Om rekening te houden met bovenstaande kanttekeningen zou er verder onderzocht moeten worden of er systematische verschillen voorkomen tussen scholen én leerlingen. We zouden ten eerste kunnen corrigeren voor het type eindtoets, door dit mee te nemen als predictor in het uiteindelijke onderwijsachterstandenmodel. Wanneer hierbij duidelijk wordt dat deze predictor verschillen verklaart in de onderwijsprestatie, zal dit een indicatie kunnen zijn dat er systematische verschillen zijn tussen de verschillende eindtoetsen. Daarnaast kan een dergelijke uitkomst ook gebruikt worden om de uniformeringsmethode te verbeteren. Ook zouden we het model kunnen toepassen per toetspopulatie om te zien of er verschillen naar voren komen. Daarnaast zou er gekeken moeten worden wat de kenmerken zijn van scholen per type eindtoets en welke scholen zijn overgestapt van CET naar een andere type eindtoets. We zouden dit bijvoorbeeld kunnen koppelen aan de historische onderwijsprestatie op CET van de scholen. Wanneer het type eindtoets systematisch verschilt per type school, kunnen we wel hiervoor corrigeren door achtergrondkenmerken mee te nemen die deze verschillen verklaren. Om dus werkelijk verder te gaan met methode 3, moet er verder in kaart worden gebracht of de assumptie dat de eindtoetsen hetzelfde meten bij leerlingen kan worden gehouden.  

6. Expert raadpleging

6.1 Inleiding

Als voorbereiding op de ontwikkeling van een nieuw model voor het risico op onderwijsachterstand is het noodzakelijk om zicht te hebben op welke achtergrondkenmerken van kinderen in potentie bij kunnen dragen aan het schatten van het risico op onderwijsachterstand. Middels het bevragen van experts op het gebied van onderwijsachterstanden kan een overzicht worden opgesteld van achtergrondkenmerken die mogelijk een bijdrage kunnen leveren aan een nieuw model. Dit overzicht zal worden aangevuld met de uitkomsten van literatuuronderzoek (CBS, 2024).

6.2 Methode

Door middel van een Delphi-studie kan op systematische wijze de kennis van meerdere experts verzameld worden. Anonimiteit staat hierin centraal: er is geen interactie tussen de experts. Dit zorgt ervoor dat de experts niet beïnvloed worden door elkaars antwoorden. Na iedere ronde worden de uitkomsten door CBS-onderzoekers samengevat en weer in een volgende ronde voorgelegd aan de experts.  In de huidige studie is gekozen voor twee rondes waarin experts per e-mail gevraagd zijn om antwoord te geven op onze vragen. De experts in ons onderzoek zijn allen wetenschappers die (onder andere) onderzoek doen op het gebied van onderwijsachterstanden. 

Ronde 1

Het doel van ronde 1 was om factoren in kaart te brengen die bijdragen aan het risico op onderwijsachterstand in het Nederlandse basisonderwijs. Aan de experts zijn de volgende vragen voorgelegd:

  1. Welke factoren dragen volgens u bij aan risico op onderwijsachterstand in het Nederlandse basisonderwijs? 
  2. Welke academische literatuur beschrijft de door u genoemde factoren? U hoeft hiervoor geen literatuurzoekopdracht uit te voeren. Het gaat hierbij om verwijzingen die u gemakkelijk (uit het hoofd) kunt reproduceren.
  3. In het geval van buitenlands onderzoek, kunt u kort reflecteren op mogelijke relevantie voor de Nederlandse (onderwijs)context?

Ronde 2

Voor ronde 2 hebben wij de antwoorden uit ronde 1 samengevat en gecategoriseerd in vier gebieden: de gezinssituatie, het kind, de school, en de omgeving. Aan de experts werd vervolgens gevraagd om 10 factoren uit de lijst te selecteren die volgens hen de belangrijkste risicofactoren van onderwijsachterstand zijn.

6.3 Resultaten

In de eerste ronde hebben wij aan de 10 deelnemende experts onze vragen voorgelegd. Zes van hen hebben een inhoudelijke reactie gegeven. In ronde 2 ontvingen wij van vijf van deze zes experts een inhoudelijke bijdrage.

Ronde 1

In ronde 1 werd aan de experts gevraagd wat volgens hen factoren zijn die bijdragen aan het risico op onderwijsachterstand in het Nederlandse basisonderwijs. Er werden door de experts ook risicofactoren genoemd die niet beschikbaar zijn in onze registerdata. Voor deze factoren is allereerst een proxy geprobeerd te vinden en wanneer dit niet lukte, werd de factor buiten beschouwing gelaten in ronde 2. De volledige lijst van de in ronde 1 genoemde risicofactoren is te vinden in Bijlage 4. 

Ronde 2

Voor ronde 2 hebben wij de factoren die beschikbaar zijn (al dan niet via een proxy) onderverdeeld in de volgende gebieden: gezinssituatie, kind, school, en omgeving. Experts gaven vervolgens aan welke tien risicofactoren voor onderwijsachterstand volgens hen het belangrijkst waren. In Bijlage 5 is per risicofactor te zien hoeveel experts de betreffende factor in hun top 10 hebben gezet. De factoren die in ronde 2 door minstens twee experts zijn aangemerkt als belangrijkste factoren worden hieronder nader beschreven.

Gezinssituatie:

  • Opleidingsniveau van de ouders
    Eerdere studies laten zien dat er een verband is tussen het opleidingsniveau van de ouders en onderwijsachterstanden van het kind. Dit verband kan door verschillende mechanismen worden verklaard. Zo worden kinderen van lager opgeleide ouders cognitief vaak minder gestimuleerd: ze hebben beperkte toegang tot educatieve hulpbronnen zoals boeken, computers en buitenschoolse activiteiten (Mesman, 2020; Haelermans et al, 2022). Ook laten studies zien dat leraren geneigd zijn de prestaties en mogelijkheden van kinderen van lager opgeleide ouders te onderschatten, wat de leerprestaties negatief kan beïnvloeden (Weinberg et al., 2019; Timmermans, Kuyper & van der Werf, 2015; Mulder et al., 2014) . Daarnaast laten lager opgeleide ouders vaak minder betrokkenheid bij het onderwijs zien dan hoger opgeleide ouders. Ook dit kan de leerresultaten negatief beïnvloeden (Mulder et al., 2014).
  • Werkstatus van de ouders
    Vooral werkloosheid van de vader lijkt samen te hangen met slechtere leerprestaties van het kind (Mooi-Reci et al., 2019). Werkende ouders spenderen wellicht minder tijd met hun kind dan niet-werkende ouders, maar niet zozeer minder kwalitatieve tijd. En juist dat laatste is belangrijk voor de cognitieve ontwikkeling van een kind ( Schildberg-Hörisch, 2016).
  • Eenoudergezin
    Leerlingen uit eenoudergezinnen presteren vaak lager op school dan leerlingen die bij beide ouders wonen. Dit kan verklaard worden door de afwezigheid van hulpbronnen en financiële stress, maar ook door emotionele problemen en stress als gevolg van een scheiding (Lange & Dronkers, 2018).
  • Langdurige betalingsachterstanden (proxy voor chronische financiële stress/armoede)
    Behalve het gebrek aan hulpbronnen dat kan ontstaan in geval van schulden of armoede, kan dagelijkse stress die dit met zich mee brengt ook invloed hebben op de opvoeding. Zo stelt Mesman (2020) dat deze stress kan leiden tot minder sensitief opvoeden wat weer een negatieve invloed heeft op de cognitieve ontwikkeling van het kind.
  • Gezinsinkomen
    Leerlingen uit gezinnen met een lager inkomen presteren gemiddeld slechter op school dan hun leeftijdgenoten uit gezinnen met een hoger inkomen (Zumbuehl & Dillingh, 2020). Ook hieraan kan bijvoorbeeld een gebrek aan hulpbronnen, maar ook financiële stress ten grondslag liggen.
  • Ingrijpende levensgebeurtenissen
    Hieronder worden levensgebeurtenissen verstaan als verhuizing, overlijden van een gezinslid of ernstige ziekte van het kind of gezinslid.
  • Niet-westerse migratieachtergrond (ouders en grootouders)
    Onderpresteren komt vaker voor bij leerlingen met een niet-westerse migratieachtergrond dan bij leerlingen zonder migratieachtergrond (Driessen, 2012; Entorf, 2015; Zumbuehl & Dillingh, 2020). Ook hier lijken de verwachtingen van leraren weer een rol te spelen, evenals het opleidingsniveau van de ouders, ouderbetrokkenheid, beschikbaarheid van hulpbronnen en taalbeheersing van de ouders en het kind zelf (Entorf, 2015; Fleischmann & de Haas, 2016; Sylke, 2024).
  • Verblijfsduur van de ouders in Nederland
    Bij de huidige indicator wordt alleen de verblijfsduur van één ouder - de moeder - gebruikt omdat er een hoge correlatie is tussen de verblijfsduur van beide ouders.
  • Beperkte Nederlandse taalvaardigheid bij moeder en daardoor bij kind

School:

  • Proportie leerlingen met een lage SES op school/in de klas
    Leerlingen op scholen met een hoge gemiddelde SES presteren vaak beter dan leerlingen op scholen met een lage gemiddelde SES (Belfi, Haelermans & Fraine, 2016). Dit komt mogelijk doordat leraren op deze scholen lagere verwachtingen hebben. Ook kunnen leerlingen mogelijk eerder een negatieve leerhouding en negatief leergedrag van leeftijdsgenoten overnemen.
  • Percentage achterstandsleerlingen op school
    Voor de proportie achterstandsleerlingen op een school is eenzelfde samenhang met leerprestaties te verwachten als voor de proportie leerlingen met een lage SES op een school (Bluemink et al, 2022; Mulder et al., 2014).

Omgeving:

  • Gemiddelde SES van de buurt
    Een lage gemiddelde SES van een buurt kan leerprestaties negatief beïnvloeden( Kuyvenhoven & Boterman, 2020; Nieuwenhuis & Hooimeijer, 2016).
  • Aandeel huishoudens onder de armoedegrens in de buurt
    Er is een samenhang tussen armoede in de buurt en lagere leerprestaties( Nieuwenhuis & Hooimeijer, 2016).
    Voor zowel SES als armoede op buurtniveau geldt dat er verschillende mechanismen een rol kunnen spelen(Kuyvenhoven & Boterman, 2020). Zo kan het aanbod van hulpbronnen in de buurt (bijvoorbeeld bibliotheken en wijkcentra) effect hebben op de cognitieve ontwikkeling en leerprestaties. Daarnaast is er een mechanisme genaamd ‘collectieve socialisatie’ wat wil zeggen dat mensen individueel beïnvloed worden door de sociale organisatie van hun buurt (bijvoorbeeld de sociale controle, normen en waarden en rolmodellen). Ook kunnen de houding en het gedrag van leeftijdsgenoten uit de buurt het leergedrag van kinderen direct beïnvloeden. Het is ook mogelijk dat een deel van het effect verklaard kan worden door de kenmerken van de scholen in deze buurten (zie School). 

6.4 Samenvatting en conclusies

De expertraadpleging heeft een bruikbare set aan achtergrondkenmerken opgeleverd. Deze set aan kenmerken vertoont grote overeenkomsten met de kenmerken zoals die bij de oorspronkelijke ontwikkeling van de risico-indicator onderwijsachterstanden zijn onderzocht (CBS, 2016). Ook zijn er sterke overeenkomsten met de uitkomsten van de literatuurstudie die is uitgevoerd (CBS, 2024).

Bijlage 1. Referenties

Agresti, A. (2013). Categorical Data Analysis (2e editie). John Wiley & Sons, New York.

Belfi, B., Haelermans, C., & De Fraine, B. (2016). The long‐term differential achievement effects of school socioeconomic composition in primary education: A propensity score matching approach. British Journal of Educational Psychology, 86(4), 501-525.

Bethlehem, J. (2007). Methodenreeks: wegen als correctie voor non-respons. Rapport, CBS, Den Haag.

Bluemink, C., Jenniskens, T., Langen, A. V., Leest, B., & Wolbers, M. (2022). Onderpresteren in het Nederlandse basisonderwijs anno 2021. KBA Nijmegen.

Buuren, S. van, Groothuis-Oudshoorn, K. (2011). mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software, 45(3), 1-67. DOI 10.18637/jss.v045.i03

CBS. (2016). Herziening gewichtenregeling primair onderwijs – Fase I. Rapport, CBS, Den Haag.

CBS. (2019). De nieuwe onderwijsachterstandenindicator primair onderwijs – Samenvattend rapport. Rapport, CBS, Den Haag.

CBS. (2024). Hoe kan de Landelijke Jeugdmonitor bijdragen aan het monitoren van kansenongelijkheid?

Daalmans, J. (2021). Notitie stuurgroep imputatie opleidingsniveau 2021-07-11. Intern document, CBS, Den Haag.

Driessen, G. (2012). Trends in Educational Disadvantage in Dutch Elementary School.

Entorf, H. (2015). Migrants and educational achievement gaps. IZA World of Labor.

Fleischmann, F., & de Haas, A. (2016). Explaining parents' school involvement: The role of ethnicity and gender in the Netherlands. The Journal of Educational Research, 109(5), 554-565.

Haelermans, C., Korthals, R., Jacobs, M., de Leeuw, S., Vermeulen, S., van Vugt, L., ... & de Wolf, I. (2022). Sharp increase in inequality in education in times of the COVID-19-pandemic. Plos one, 17(2), e0261114.

Johnson, N.L., S. Kotz & N. Balakrishnan (1994), Continuous univariate distributions, Volume 1. John Wiley & Sons, New York.

Kish, L. (1992). Weighting for Unequal Pi. Journal of Official Statistics 8, pp. 183–200.

Kuyvenhoven, J., & Boterman, W. R. (2021). Neighbourhood and school effects on educational inequalities in the transition from primary to secondary education in Amsterdam. Urban Studies, 58(13), 2660-2682.

Linder, F., van Roon, D. en Bakker, B. (2011). Combining Data from Administrative Sources and Sample Surveys; the Single-Variable Case. Case Study: Educational Attainment. In: Final Report, Work Package 4.2, ESSnet Project ‘Data Integration’.

Lange, M. de, & Dronkers, J. (2018). Single parenthood and children’s educational performance: inequality among families and schools. In The triple bind of single-parent families (pp. 125-144). Policy Press.

Mesman, J. (2010). Oud geleerd, jong gedaan: Investeren in ouders bevordert onderwijskansen van kinderen. Universiteit Leiden.

Mooi-Reci, I., Bakker, B., Curry, M., & Wooden, M. (2019). Why parental unemployment matters for children’s educational attainment: empirical evidence from The Netherlands. European Sociological Review, 35(3), 394-408.

Mulder, C. W. J., Fettelaar, D., Schouwenaars, I., Ledoux, G., Dikkers, L., & Kuiper, E. (2014). De achterstand van autochtone doelgroepleerlingen Oorzaken en aanpak. ITS Radboud Universiteit Nijmegen, Nijmegen

Nieuwenhuis, J., & Hooimeijer, P. (2016). The association between neighbourhoods and educational achievement, a systematic review and meta-analysis. Journal of Housing and the Built Environment, 31, 321-347.

R Core Team. (2023). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.

Scholtus, S. en Pannekoek, J. (2015). Massa-imputatie van opleidingsniveaus. Rapport (PPM-2015-12-11-SSHS-JPNK). CBS, Den Haag.

Schildberg-Hörisch, H. (2016). Parental employment and children’s academic achievement. IZA World of Labor.

Schnepf, S. V. (2004). How different are immigrants? A cross-country and cross-survey analysis of educational achievement. A Cross-Country and Cross-Survey Analysis of Educational Achievement (November 2004).

Swart, L., Van den Berge, W., & Visser, D. (2019). De waarde van eindtoetsen in het primair onderwijs. CPB notitie.

Timmermans, A. C., Kuyper, H., & van der Werf, G. (2015). Accurate, inaccurate, or biased teacher expectations: Do Dutch teachers differ in their expectations at the end of primary education?. British Journal of Educational Psychology, 85(4), 459-478.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN  0-387-95457-0

Weinberg, D., Stevens, G. W., Finkenauer, C., Brunekreef, B., Smit, H. A., & Wijga, A. H. (2019). The pathways from parental and neighbourhood socioeconomic status to adolescent educational attainment: An examination of the role of cognitive ability, teacher assessment, and educational expectations. Plos one, 14(5), e0216803.

Zumbuehl, M., & Dillingh, R. (2020). Ongelijkheid van het jonge kind. Den Haag: Centraal Planbureau.

Bijlage 2. Afleiding parameter K

De onderstaande afleiding is gebaseerd op een soortgelijke afleiding uit het rapport “Herziening gewichtenregeling primair onderwijs – Fase 3: bijschatting voor niet-ingeschreven leerlingen”.

Noteer de onderwijsscore van leerling i als yi. Een algemene formule voor de achterstandsscore zonder drempel van school j met een populatie van bekostigde leerlingen Uj is gegeven door:

$$S_{j}(q) = \sum_{i \in U_{j}}^{}{I\left\{ y_{i} \leq y_{L}(q) \right\}\left( y_{ref} - y_{i} \right)}. \tag{1}$$

Hierbij is yref een referentiescore en yL (q) de score die hoort bij het q × 100%-percentiel van de verdeling van onderwijsscores. Verder is I{.} een indicatorfunctie die gelijk is aan 1 als het argument waar is en anders gelijk aan 0. De achterstandsscore (zonder drempel) waarmee in de praktijk wordt gewerkt is een speciaal geval van (1) met q = 0,15 en \(y_{ref} = \overline{y}\) (het landelijke gemiddelde).

In het vervolg nemen we ter vereenvoudiging aan dat de populatie leerlingen bestaat uit M strata, waarbij de bijdrage van een leerling aan de variantie van de achterstandsscore constant is per stratum. We stellen voor om in de praktijk de volgende M = 7 strata te onderscheiden:

StratumOmschrijving
1opleidingsniveau van beide ouders onbekend, onderwijsscore direct bepaald
2opleidingsniveau van beide ouders onbekend, onderwijsscore geïmputeerd
3opleidingsniveau alleen van moeder bekend, onderwijsscore direct bepaald
4opleidingsniveau alleen van moeder bekend, onderwijsscore geïmputeerd
5opleidingsniveau alleen van vader bekend, onderwijsscore direct bepaald
6opleidingsniveau alleen van vader bekend, onderwijsscore geïmputeerd
7opleidingsniveau van beide ouders bekend, onderwijsscore direct bepaald óf leerling komt voor in een bestand van COA of IND

De reden om voor deze indeling in strata te kiezen is dat de hoeveelheid beschikbare informatie per stratum verschilt, wat mogelijk leidt tot verschillende bijdragen per stratum aan de variantie van de achterstandsscore op schoolniveau. Voor leerlingen die voorkomen in de registraties van het COA en de IND wordt een vaste score geïmputeerd: hun variantiebijdrage is daarom praktisch nul. Dit laatste hebben zij gemeenschappelijk met alle kinderen voor wie van beide ouders het opleidingsniveau bekend is; vandaar dat deze twee deelpopulaties zijn samengenomen tot één stratum. De overige strata komen overeen met een indeling die is gebruikt in de Jaarlijkse monitor Risico-indicator onderwijsachterstanden Primair Onderwijs.

We noteren de fractie leerlingen

op school j die behoren tot stratum g als pjg, met 0 ≤ pjg ≤ 1 (g = 1,…,7). Per definitie geldt: pj1 + pj2 + pj3 + pj4 + pj5 + pj6 + pj7 = 1 voor elke school.

Stel dat de achterstandsscore zonder drempel S= Sj (q) voor school j met nj bekostigde leerlingen (of algemener: een groep van nj kinderen) twee keer onafhankelijk zou worden berekend op basis van dezelfde brongegevens, met als resultaat de scores Sj1 en Sj2. Omdat de twee scores onafhankelijk van elkaar zijn7), geldt voor de variantie van het verschil Sj2 -Sj1:

$${var}\left( S_{j2} - S_{j1} \right) = {var}\left( S_{j1} \right) + {var}\left( S_{j2} \right) = 2{var}\left( S_{j} \right).$$

Dat wil zeggen:

$${var}\left( S_{j} \right) = \frac{{var}\left( S_{j2} - S_{j1} \right)}{2}. \tag{2}$$

Een formule voor var⁡(Sj) kan daarom worden afgeleid uit een formule voor var⁡(Sj2 - Sj1).

Bij de twee onafhankelijke berekeningen horen strikt genomen ook aparte waarden voor de grootheden yref, yL (q) en (bij scores met drempel) yref,L (q). Zeg: yref,1, yL,1 (q) bij de eerste berekening en yref,2, yL,2 (q) bij de tweede berekening. De variatie in deze grootheden is echter veel kleiner dan die in de achterstandsscores per school, omdat ze worden geschat uit de volledige populatie (meer dan een miljoen leerlingen). We kunnen de stochastiek in deze grootheden daarom verwaarlozen en we zullen ze hieronder behandelen als constanten.

De twee achterstandsscores Sj1 en Sj2 zijn gebaseerd op onafhankelijk van elkaar berekende individuele onderwijsscores. Noteer deze onderwijsscores voor leerling i als yi1 en yi2. Volgens formule (1) is Sj2 - Sj1 voor een school met leerlingenpopulatie Uj te schrijven als:

$$S_{j2} - S_{j1} = \sum_{i \in U_{j}}^{}\left\lbrack I\left\{ y_{i2} \leq y_{L,2}(q) \right\}\left( y_{ref,2} - y_{i2} \right) - I\left\{ y_{i1} \leq y_{L,1}(q) \right\}\left( y_{ref,1} - y_{i1} \right) \right\rbrack \equiv \sum_{i \in U_{j}}^{}z_{i}$$

Beschouw eerst de situatie dat een school uitsluitend leerlingen heeft die zijn ingeschreven in één bepaald stratum. Op basis van hun onderwijsscores yi1 en yi2 kunnen deze leerlingen worden verdeeld in vier groepen, elk met een eigen bijdrage zi aan het verschil Sj2 - Sj1:

yi2 ≥ yL,2 (q) yi2 < yL,2 (q)
yi1 ≥ yL,1 (q) groep W groep X
bijdrage: zi = 0 bijdrage: zi = yref,2 - yi2
yi1 < yL,1 (q) groep Y groep Z
bijdrage: zi = yi1 - yref,1 bijdrage: zi = yi1 - yi2

Voor leerlingen in groep W vallen beide realisaties van de onderwijsscore boven de ondergrens yL (q). De bijdragen van deze leerlingen aan Sj1 en Sj2 zijn beide gelijk aan nul. Voor leerlingen in groep X en Y valt een van beide onderwijsscores onder yL (q) en de andere erboven. De bijdrage aan Sj2 - Sj1 is daarom zi=yref,2 - yi2 (groep X) of zi=yi1 - yref,1 (groep Y). In de onderstaande afleiding is voor deze leerlingen relevant wat de gemiddelde waarde van deze bijdrage is en wat de variantie daaromheen is. Definieer:

$$\begin{align} \mu_{XY} &= E\left( y_{ref,2} - y_{i2} \middle| i \in X \right) = - E\left( y_{i1} - y_{ref,1} \middle| i \in Y \right)\\ \omega_{XY}^{2} &= {var}\left( y_{ref,2} - y_{i2} \middle| i \in X \right) = {var}\left( y_{i1} - y_{ref,1} \middle| i \in Y \right). \end{align}$$ 

Ter vereenvoudiging is hierbij aangenomen dat (per stratum) alle leerlingen in groep X (en Y) dezelfde verwachting en dezelfde variantie hebben. De gelijkheden E(yref,2 - yi2│i ∈ X) = - E(yi1 - yref,1)│i ∈ Y) en var⁡(yref,2 - yi2│i ∈ X)=var⁡(yi1 - yref,1│i ∈ Y) volgen uit symmetrie-overwegingen, aangezien beide scores yi1 en yi2 afkomstig zijn uit dezelfde verdeling.

Voor leerlingen in groep Z vallen beide onderwijsscores onder yL (q). De bijdrage aan het verschil Sj2 - Sj1 is z= yi1 - yi2. In verwachting is dit verschil gelijk aan nul. Voor de variantie van het verschil wordt de volgende parameter ingevoerd:

$$\sigma_{Z}^{2} = {var}\left( y_{i1} - y_{i2} \middle| i \in Z \right)$$

Ook hier is de vereenvoudigende aanname gemaakt dat deze variantie (per stratum) voor alle leerlingen in groep Z gelijk is. Definieer ten slotte de kans dat een willekeurig gekozen leerling in groep V valt als πV (met V ∈ {W,X,Y,Z}).

De onderwijsscores zijn bij benadering onafhankelijk tussen verschillende leerlingen. (De gebruikte imputatiemethoden introduceren enige afhankelijkheid tussen de scores, maar deze kan worden verwaarloosd.) Onder de aanname dat de onderwijsscores onafhankelijk zijn tussen leerlingen volgt:

FormuleB2_9

In de tweede regel is een standaard-variantiedecompositie gebruikt, waarbij in de binnenste variantie en verwachting is geconditioneerd op de groep (W, X, Y of Z) waarin leerling i valt. In de een-na-laatste regel is gebruikgemaakt van eigenschappen van een multinomiale verdeling.

Stel nu dat de school leerlingen kan bevatten uit alle strata van de populatie die hierboven zijn gedefinieerd, waarbij pjg de fractie leerlingen uit stratum g aanduidt. Per stratum hebben de geïmputeerde scores mogelijk andere eigenschappen. Daarom moeten aparte parameters worden ingevoerd per stratum. De kans dat een willekeurig gekozen leerling uit stratum g in groep V valt wordt genoteerd als πVg (V ∈ {W,X,Y,Z}). Definieer verder:

$$\begin{align} \mu_{XYg} &= E\left( y_{ref,2} - y_{i2} \middle| i \in X,g \right) = - E\left( y_{i1} - y_{ref,1} \middle| i \in Y,g \right),\\ \omega_{XYg}^{2} &= {var}\left( y_{ref,2} - y_{i2} \middle| i \in X,g \right) = {var}\left( y_{i1} - y_{ref,1} \middle| i \in Y,g \right),\\ \sigma_{Zg}^{2} &= {var}\left( y_{i1} - y_{i2} \middle| i \in Z,g \right). \end{align}$$

Analoog aan het voorafgaande kan voor de variantie van Sj2 - Sj1 bij een school met pjg nj leerlingen uit stratum g worden afgeleid dat:

$${var}\left( S_{j2} - S_{j1} \right) = n_{j}\sum_{g = 1}^{M}{p_{jg}\left\{ \left( \pi_{Xg} + \pi_{Yg} \right)\omega_{XYg}^{2} + \pi_{Zg}\sigma_{Zg}^{2} + \left\lbrack \pi_{Xg} + \pi_{Yg} - {(\pi_{Xg} - \pi_{Yg})}^{2} \right\rbrack\mu_{XYg}^{2} \right\}}.$$

Definieer: 

$$K_{g} = \left( \pi_{Xg} + \pi_{Yg} \right)\omega_{XYg}^{2} + \pi_{Zg}\sigma_{Zg}^{2} + \left\lbrack \pi_{Xg} + \pi_{Yg} - {(\pi_{Xg} - \pi_{Yg})}^{2} \right\rbrack\mu_{XYg}^{2} \tag{3}$$

Uit (2) volgt nu dat

$${var}\left( S_{j} \right) = \frac{n_{j}}{2}\sum_{g = 1}^{M}{p_{jg}K_{g}}.$$

De grootheden Kg en de onderliggende parameters uit formule (3) hebben we in dit onderzoek geschat door voor de populatie van 2021 het volledige bijschattingsproces drie keer onafhankelijk uit te voeren. Dit geeft drie mogelijke paarsgewijze vergelijkingen tussen onderwijsscores: (yi1,yi2 ), (yi1,yi3 ) en (yi2,yi3 ). 

7) Dat wil zeggen: de ontbrekende informatie in de brongegevens is onafhankelijk bijgeschat in de twee berekeningen. De waargenomen brondata zijn natuurlijk wel gelijk. In deze memo zijn we geïnteresseerd in de onzekerheid van de score als gevolg van ontbrekende informatie. De waargenomen data beschouwen we als vast.
8) Gelijk is de bijdrage in deze groep z= yi1 - yi2 + yref,2 - yref,1. Zoals opgemerkt is het verschil yref,2 - yref,1 in de praktijk verwaarloosbaar klein. Het wordt hier daarom gemakshalve weggelaten.

Bijlage 3. Variantieschatting gebruikt in de validatiestudie

In deze bijlage leiden we een variantiebenadering af die in de validatiestudie uit hoofdstuk 3 is gebruikt.

Definieer δci = 1 als persoon i opleidingsniveau c heeft en anders δci = 0. Er is een steekproef van omvang n beschikbaar waar δci is waargenomen. Hieruit wordt de proportie personen met opleidingsniveau c geschat door:

$${\widehat{P}}_{c} = \frac{\sum_{i = 1}^{n}{w_{i}\delta_{ci}}}{\sum_{i = 1}^{n}w_{i}}$$

waarbij wi het ophooggewicht is van persoon i in de steekproef. Ter vereenvoudiging nemen we aan dat er (bij benadering) sprake is van een enkelvoudig aselecte steekproef en dat de steekproeffractie uit de doelpopulatie verwaarloosbaar klein is.

Verder zijn J=10 geïmputeerde versies van de steekproef beschikbaar. Definieer δimp,cij=1 als in ronde j opleidingsniveau c is geïmputeerd voor persoon i en anders δimp,cij=0. Uit de geïmputeerde data kan de proportie personen met opleidingsniveau c worden geschat door:

$${\overline{\widehat{P}}}_{imp,cJ} = \frac{1}{J}\sum_{j = 1}^{J}{\widehat{P}}_{imp,cj},\ \ \ \ {\widehat{P}}_{imp,cj} = \frac{\sum_{i = 1}^{n}{w_{i}\delta_{imp,cij}}}{\sum_{i = 1}^{n}w_{i}}$$

We zijn geïnteresseerd in de variantie van het verschil \({\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c}\) Deze variantie kan worden geschreven als:

$$\begin{align} var\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \right) &= E\left\{ var\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \middle| steekproef \right) \right\} + var\left\{ E\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \middle| steekproef \right) \right\} \\ &= E\left\{ var\left( \overline{\widehat{P}}_{imp,cJ} \middle| steekproef \right) \right\} + var\left\{ \overline{\widehat{P}}_{imp,c\infty} - \widehat{P}_{c} \right\} \\ &= \frac{1}{J} E\left\{ var\left( \widehat{P}_{imp,cj} \middle| steekproef \right) \right\} + var\left\{ \overline{\widehat{P}}_{imp,c\infty} - \widehat{P}_{c} \right\} \\ &= V_{1c} + V_{2c}, \end{align}$$

waarbij \({\overline{\widehat{P}}}_{imp,c\infty}\) de theoretische schatter is die gevonden zou worden als J→∞.

De variantie \(V_{2c} = {var}\left\{ {\overline{\widehat{P}}}_{imp,c\infty} - {\widehat{P}}_{c}  \right\}\) kan bij benadering worden geschat door:

$$\begin{align} \widehat{V}_{2c} &= \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{ci} - \overline{z}_{c} \right)^{2},\\ z_{ci} &= \frac{1}{J}\sum_{j = 1}^{J}\delta_{imp,cij} - \delta_{ci}, \end{align}$$

met \({\overline{z}}_{c} = n^{- 1}\sum_{i = 1}^{n}z_{ci}\). In deze formule is nog geen rekening gehouden met de ophooggewichten wi. In de praktijk leiden ongelijke ophooggewichten doorgaans tot een hogere variantie. Een redelijke benadering van dit effect wordt vaak gegeven door de zogenaamde Kish-factor (Kish, 1992). Toevoegen van deze factor geeft:

$${\widehat{V}}_{2c} = \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{ci} - {\overline{z}}_{c} \right)^{2}\left( 1 + {CV}_{w}^{2} \right),$$

waarbij CVw de variatiecoëfficiënt van de ophooggewichten is (de standaarddeviatie van de gewichten gedeeld door het gemiddelde gewicht).

De andere term V1c kan bij benadering worden geschat met behulp van de empirische variantie van \({\widehat{P}}_{imp,cj}\) over de imputatieronden heen:

$${\widehat{V}}_{1c} = \frac{1}{J(J - 1)}\sum_{j = 1}^{J}\left( {\widehat{P}}_{imp,cj} - {\overline{\widehat{P}}}_{imp,cJ} \right)^{2}.$$

Samengevat vinden we dus de volgende variantieschatter:

$$\widehat{var}\left( {\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c} \right) = \frac{1}{J(J - 1)}\sum_{j = 1}^{J}\left( {\widehat{P}}_{imp,cj} - {\overline{\widehat{P}}}_{imp,cJ} \right)^{2} + \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{i} - \overline{z} \right)^{2}\left( 1 + {CV}_{w}^{2} \right).$$

Bijlage 4. Resultaten expertraadpleging ronde 1: risicofactoren onderwijsachterstand

Ouders/gezin

  • Laag opleidingsniveau van ouders
  • Beroep van ouders
  • Eenoudergezinnen
  • Veel kinderen in het gezin
  • Jonge moeder 
  • Laag gezinsinkomen (netto)
  • Laag eigen vermogen gezin
  • (Problematische) schulden in gezin
  • Chronische (financiële) stress/ armoede
  • Slechte huisvesting
  • Gebrek aan sociaal steunend netwerk van ouders
  • Werkstatus van ouders 
  • Niet-westerse migratieachtergrond van ouders (ook grootouders)
  • Thuistaal niet-Nederlands
  • Beperkte etnische menging van ouders en kind (eigen kring)
  • Beperkt cultureel kapitaal
  • Lage ouderbetrokkenheid 
  • Beperkte ouderstimulering en educatieve materialen
  • Beperkte kennis en vaardigheden van ouders m.b.t. (school)taal, wereldkennis, geletterdheid en wiskundig inzicht om passende inhoud te geven aan interacties met kinderen
  • Beperkte kennis van ouders om succesvol te navigeren in het schoolsysteem
  • Beperkte sensitieve responsiviteit, autoritaire opvoedstijl
  • Beperkte ambitie van ouders
  • Motivatie van ouders
  • Beperkte tijd en energie van ouders
  • Oriëntatie van ouders op het hier-en-nu in plaats van op de toekomst
  • Weinig (gelegenheid tot) vakanties/uitjes met het gezin

Kind

  • Jongen
  • Aangeboren cognitieve beperkingen 
  • Plaats in kinderrij
  • Geen eigen kamer 
  • Geen mobiele telefoon/Tablet/Laptop/PC in bezit
  • Beperkt informatieve tv-programma’s (en programma’s in de niet-Nederlandse taal) bekijken
  • Geen internetverbinding
  • Beperkt aantal echte vriendjes/vriendinnetjes
  • Niet deelgenomen aan VVE-programma
  • Niet of beperkt deelgenomen aan (naschoolse) opvang en andere vormen van culturele socialisatie
  • Niet of beperkt deelgenomen aan non-formele en informele educatie en socialisatie die privaat bekostigd wordt (schaduwonderwijs, brede sociale en culturele vorming)
  • Niet of beperkte tijd doorgebracht in kinderopvang
  • Doubleren

School

  • Verwachtingen van en stereotypering door leerkrachten
  • Gebrek aan divergente differentiatie 
  • Peer-learning effecten
  • Groter aandeel leerlingen met een lage SES
  • Groter aandeel niet-westerse achtergrond
  • Hoger percentage achterstandsleerlingen op school
  • Hoge mate van stedelijkheid van postcodegebied waar de school staat
  • Samenloop van sociaaleconomisch zwakkere achtergronden van leerlingen op school én een groter tekort aan personeel
  • Gemiddeld lager opleidingsniveau van ouders op de school
  • Aandeel eenoudergezinnen
  • Denominatie

Omgeving

  • Minder goede leefbaarheid van wijken waarin leerlingen wonen (kwaliteit van woningen en fysieke omgeving, veiligheid)
  • Lagere SES van de buurt

Bijlage 5. Resultaten expertraadpleging ronde 2

GezinssituatieAantal keer genoemd in top 10
1.Opleidingsniveau van ouders (met name moeder)5
2. Werkstatus van ouders (werkend, uitkering, inactief)3
3.Beroepssector van werkende ouders1
4.Aantal kinderen in het gezin1
5Eenoudergezin2
6.Leeftijd van moeder bij eerste kind1
7. Gezinsinkomen (netto)2
8.Eigen vermogen van het gezin1
9Betalingsachterstanden (proxy voor problematische schulden)1
10.Langdurige betalingsachterstanden
(proxy voor chronische financiële stress/armoede)
3
11.Ingrijpende levensgebeurtenissen
(b.v.: verhuizing, overlijden gezinslid)
2
12.Familierelaties (proxy voor gebrek aan sociaal steunend
netwerk)
1
13.Niet-westerse migratieachtergrond (ouders en grootouders)4
14. Segregatie naar herkomst in sociaal netwerk
(proxy voor etnische menging ouders en kind)
0
15.Werkuren en aantal kinderen in het gezin
(proxy voor tijd en energie van ouders)
1
16.Verblijfsduur van de moeder in Nederland2

KindAantal keer genoemd in top 10
1. Geslacht0
2.Plaats in de kinderrij1
3.Aantal kamers in verhouding tot aantal personen in het huishouden
(proxy voor het hebben van een eigen kamer)
1
4.Deelname aan vve-programma0
5.Tijd doorgebracht in kinderopvang1
6.Doubleren0

SchoolAantal keer genoemd in top 10
1.Gemiddeld opleidingsniveau van ouders in klas/proportie
leerlingen met een lage SES in klas
3
2.Gemiddeld opleidingsniveau van ouders op school/proportie
leerlingen met een lage SES op school
3
3.Proportie kinderen met een niet-westerse achtergrond op school1
4. Percentage achterstandsleerlingen op school4
5.Aandeel eenoudergezinnen op school0
6.Stedelijkheid van het postcodegebied van school0
7.Denominatie0
8.Afwijking schooladvies – toetsadvies0

OmgevingAantal keer genoemd in
top 10
1.Gemiddelde SES van de buurt3
2.Aandeel huishoudens onder de armoedegrens in de buurt4