Auteur: Jaap Walhout, Boris Brandhorst
Jaarlijkse Monitor Onderwijsachterstandenindicator, 2017-2022

2. Data en methoden

2.1 Selectie en afbakening onderzoeksdata

Voor het uitvoeren van deze jaarlijkse monitor is een onderzoeksbestand samengesteld met daarin de gegevens van de kinderen die in de schooljaren 2016/’17 tot en met 2021/’22 aan de eindtoets van de basisschool hebben deelgenomen (zie tabel 2.1.1 voor het aantal kinderen naar eindtoetsaanbieder en schooljaar).5) Voor de kinderen uit schooljaar 2021/’22 zijn zowel de onderwijsscores zoals berekend op de oude manier, als de onderwijsscores volgens het herijkte model gebruikt. Deze zijn respectievelijk terug te lezen in dit rapport als “2021/’22, okt” en “ 2021/’22 feb”. Van alle kinderen zijn de gegevens, zoals die in de analysebestanden van de onderwijsachterstandenindicator zijn opgeslagen, gekoppeld aan de eindtoetsgegevens uit het Stelsel van Sociaal-statistische Bestanden (SSB) van het CBS. De eindtoetsgegevens bestaan uit de eindtoetsscore, de aanbieder van de eindtoets en het uit de eindtoets voortvloeiende eindtoetsadvies. De keuze voor de eindtoetsscore is noodzakelijk omdat deze variabele is gebruikt als afhankelijke variabele bij de ontwikkeling van de indicator.

De onderwijsachterstandenindicator is oorspronkelijk ontwikkeld met behulp van de CET. Sinds de ontwikkeling van de onderwijsachterstandenindicator is het aandeel van deze eindtoets sterk gedaald. Om die reden is de variabele waarin de aanbieder van de eindtoets is vastgelegd, meegenomen in het onderzoeksbestand. Hierdoor kan ook worden bekeken hoe goed de indicator werkt voor leerlingen van scholen die een andere eindtoets gebruiken dan degene waar de indicator mee is ontwikkeld.

Omdat in principe verwacht mag worden dat de eindtoets, ongeacht de aanbieder, tot een vergelijkbaar advies voor het te volgen voortgezet onderwijs komt, is ook het eindtoetsadvies opgenomen in het onderzoeksbestand. Hierdoor wordt het ook mogelijk om de uitkomsten van de eindtoets over de gehele onderzoekspopulatie te vergelijken; ongeacht aan welke eindtoets de basisschoolleerlingen hebben deelgenomen.

De kinderen in de onderzoekspopulatie die voorkomen in de registraties van het COA en de IND, zijn uitgesloten van de analyses. De reden hiervoor is dat deze kinderen – ongeacht hun achtergrondkenmerken – allen dezelfde onderwijsscore krijgen toegewezen.6) Doordat er voor deze kinderen geen verband is tussen hun achtergrondkenmerken en hun onderwijsscore, zou het opnemen van deze kinderen tot vertekening leiden van de uitkomsten van de analyses.

2.1.1 Aantal leerlingen naar eindtoetsaanbieder en schooljaar
Eindtoetsaanbieder2016/'172017/'182018/'192020/'212021/'22, okt2021/'22, feb
AMN5281 1562 4503 2583 3063 304
CET116 436100 50385 38480 28476 70476 702
Cesan144
DIA3902 3735 3016 5177 0677 068
IEP42 33046 71451 45857 05059 09559 081
ROUTE 815 53720 00924 00623 33422 30922 298

2.2 Gebruikte methoden

Om de werking van de onderwijsachterstandenindicator te kunnen monitoren, maken we gebruik van een drietal analyses: frequentieanalyses, correlatieanalyses en regressieanalyses. 

Bij de frequentieanalyses bekijken we in hoeverre de frequentieverdelingen over de jaren heen dezelfde patronen blijven volgen. Hiertoe splitsen we de frequentieverdelingen uit naar doelvariabelen (eindtoetsadvies en aanbieder eindtoets), de modelvariabelen die worden gebruikt bij de berekening van onderwijsscores en de soort imputatie (imputatie opleidingsniveau ouders en directe imputatie onderwijsscore). Bij de uitsplitsing naar de doelvariabelen kijken we alleen naar de drie grootste aanbieders van de eindtoets: CET, IEP en ROUTE 8. Vanwege de lage aantallen deelnemers nemen we DIA, AMN en Cesan niet mee in de analyses. We kijken bij deze analyse naar de frequentiedichtheid omdat dit een relatieve maatstaf is. Hierdoor kunnen we groepen van verschillende grootte makkelijker met elkaar vergelijken. 

Om het verband tussen de onderwijsscore en de eindtoetsscore te onderzoeken, voeren we een correlatieanalyse uit. Om een beeld te krijgen van de samenhang tussen de onderwijsscore en de eindtoetsscore kijken we naar de correlatiecoëfficiënt (r). In aanvulling op de correlatieanalyse onderzoeken we met behulp van regressieanalyse welk deel van de variantie in de eindtoetsscore met de onderwijsscore kan worden verklaard. Hierbij kijken wij alleen naar de leerlingen die de CET als eindtoets hebben gemaakt omdat de onderwijsachterstandenindicator hiermee is ontwikkeld. 

Bij de regressieanalyse maken we gebruik van een stapsgewijze aanpak. Vanuit een startmodel, met alleen de onderwijsscore als onafhankelijke variabele (ook wel voorspeller genoemd) en de eindtoetsscore als afhankelijke variabele, kijken we in hoeverre het toevoegen van variabelen met betrekking tot de beschikbaarheid van gegevens tot een beter model leidt. Daarvoor hebben we een drietal deelpopulatievariabelen gedefinieerd. Deelpopulatie 1 geeft aan in hoeverre het opleidingsniveau van de ouders bekend is. De verschillende categorieën voor deze variabele zijn weergegeven in tabel 2.2.1. Deelpopulatie 2 is een dichotome variabele die aangeeft of de onderwijsscore direct is berekend of is geïmputeerd. Deelpopulatie 3 is een combinatie van deelpopulatie 1 en deelpopulatie 2. De verschillende categorieën voor deze variabele zijn weergegeven in tabel 2.2.2. 

2.2.1 Deelpopulatie 1
DeelpopulatieBeschrijving
AHet hoogste opleidingsniveau van beide ouders is niet bekend
BHet hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader
CHet hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder
DHet hoogste opleidingsniveau van beide ouders is bekend

2.2.2 Deelpopulatie 3
DeelpopulatieBeschrijving
A1Het hoogste opleidingsniveau van beide ouders is niet bekend en de onderwijsscore is geïmputeerd
A0Het hoogste opleidingsniveau van beide ouders is niet bekend en de onderwijsscore is direct bepaald (niet geïmputeerd)
B1Het hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader en de onderwijsscore is geïmputeerd
B0Het hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader en de onderwijsscore is direct bepaald (niet geïmputeerd)
C1Het hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder en de onderwijsscore is geïmputeerd
C0Het hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder en de onderwijsscore is direct bepaald (niet geïmputeerd)
D0Het hoogste opleidingsniveau van beide ouders is bekend en de onderwijsscore is direct bepaald (niet geïmputeerd)

Om te beoordelen of het toevoegen van een variabele tot een beter model leidt voor wat betreft de verklaarde variantie, kijken we naar de aangepaste . Deze maat van verklaarde variantie corrigeert voor het aantal voorspellers dat gebruikt wordt in een regressiemodel. Daarnaast kijken we naar het Akaike Information Criterium (AIC) voor extra zekerheid. Deze maatstaf corrigeert ook voor het aantal parameters in een model, en is een uitdrukking van de hoeveelheid misfit tussen het model en de data. In andere woorden: AIC drukt uit in welke mate het model de data goed beschrijft. Een lagere AIC is beter.

5) In het schooljaar 2019/’20 is geen eindtoets afgenomen. Eindtoetsscores voor dit schooljaar zijn dan ook niet in de analyses meegenomen. De leerlinggegevens voor dit schooljaar nemen we wel mee in de analyses van hoofdstuk 3. We nemen hierbij alleen gegevens mee voor leerlingen die in het schooljaar 2019/’20 een leerkrachtadvies hebben gekregen, zodat de selectie van meegenomen leerlingen voor dit schooljaar zo vergelijkbaar mogelijk is met die voor de andere schooljaren waarin alleen leerlingen met een eindtoetsscore worden meegenomen.  
6) Een uitgebreide uitleg hierover is te vinden in het vierde methoderapport.