2. Data en methoden

2.1 Selectie en afbakening onderzoeksdata

Voor het uitvoeren van deze jaarlijkse monitor is een onderzoeksbestand samengesteld met daarin de gegevens van de kinderen die in de schooljaren 2016/’17 tot en met 2021/’22 aan de eindtoets van de basisschool hebben deelgenomen (zie tabel 2.1.1 voor het aantal kinderen naar eindtoetsaanbieder en schooljaar).⁵⁾ Voor de kinderen uit schooljaar 2021/’22 zijn zowel de onderwijsscores zoals berekend op de oude manier, als de onderwijsscores volgens het herijkte model gebruikt. Deze zijn respectievelijk terug te lezen in dit rapport als “2021/’22, okt” en “ 2021/’22 feb”. Van alle kinderen zijn de gegevens, zoals die in de analysebestanden van de onderwijsachterstandenindicator zijn opgeslagen, gekoppeld aan de eindtoetsgegevens uit het Stelsel van Sociaal-statistische Bestanden (SSB) van het CBS. De eindtoetsgegevens bestaan uit de eindtoetsscore, de aanbieder van de eindtoets en het uit de eindtoets voortvloeiende eindtoetsadvies. De keuze voor de eindtoetsscore is noodzakelijk omdat deze variabele is gebruikt als afhankelijke variabele bij de ontwikkeling van de indicator.

De onderwijsachterstandenindicator is oorspronkelijk ontwikkeld met behulp van de CET. Sinds de ontwikkeling van de onderwijsachterstandenindicator is het aandeel van deze eindtoets sterk gedaald. Om die reden is de variabele waarin de aanbieder van de eindtoets is vastgelegd, meegenomen in het onderzoeksbestand. Hierdoor kan ook worden bekeken hoe goed de indicator werkt voor leerlingen van scholen die een andere eindtoets gebruiken dan degene waar de indicator mee is ontwikkeld.

Omdat in principe verwacht mag worden dat de eindtoets, ongeacht de aanbieder, tot een vergelijkbaar advies voor het te volgen voortgezet onderwijs komt, is ook het eindtoetsadvies opgenomen in het onderzoeksbestand. Hierdoor wordt het ook mogelijk om de uitkomsten van de eindtoets over de gehele onderzoekspopulatie te vergelijken; ongeacht aan welke eindtoets de basisschoolleerlingen hebben deelgenomen.

De kinderen in de onderzoekspopulatie die voorkomen in de registraties van het COA en de IND, zijn uitgesloten van de analyses. De reden hiervoor is dat deze kinderen – ongeacht hun achtergrondkenmerken – allen dezelfde onderwijsscore krijgen toegewezen.⁶⁾ Doordat er voor deze kinderen geen verband is tussen hun achtergrondkenmerken en hun onderwijsscore, zou het opnemen van deze kinderen tot vertekening leiden van de uitkomsten van de analyses.

2.1.1 Aantal leerlingen naar eindtoetsaanbieder en schooljaar
Eindtoetsaanbieder	2016/'17	2017/'18	2018/'19	2020/'21	2021/'22, okt	2021/'22, feb
AMN	528	1 156	2 450	3 258	3 306	3 304
CET	116 436	100 503	85 384	80 284	76 704	76 702
Cesan	144
DIA	390	2 373	5 301	6 517	7 067	7 068
IEP	42 330	46 714	51 458	57 050	59 095	59 081
ROUTE 8	15 537	20 009	24 006	23 334	22 309	22 298

2.2 Gebruikte methoden

Om de werking van de onderwijsachterstandenindicator te kunnen monitoren, maken we gebruik van een drietal analyses: frequentieanalyses, correlatieanalyses en regressieanalyses.

Bij de frequentieanalyses bekijken we in hoeverre de frequentieverdelingen over de jaren heen dezelfde patronen blijven volgen. Hiertoe splitsen we de frequentieverdelingen uit naar doelvariabelen (eindtoetsadvies en aanbieder eindtoets), de modelvariabelen die worden gebruikt bij de berekening van onderwijsscores en de soort imputatie (imputatie opleidingsniveau ouders en directe imputatie onderwijsscore). Bij de uitsplitsing naar de doelvariabelen kijken we alleen naar de drie grootste aanbieders van de eindtoets: CET, IEP en ROUTE 8. Vanwege de lage aantallen deelnemers nemen we DIA, AMN en Cesan niet mee in de analyses. We kijken bij deze analyse naar de frequentiedichtheid omdat dit een relatieve maatstaf is. Hierdoor kunnen we groepen van verschillende grootte makkelijker met elkaar vergelijken.

Om het verband tussen de onderwijsscore en de eindtoetsscore te onderzoeken, voeren we een correlatieanalyse uit. Om een beeld te krijgen van de samenhang tussen de onderwijsscore en de eindtoetsscore kijken we naar de correlatiecoëfficiënt (r). In aanvulling op de correlatieanalyse onderzoeken we met behulp van regressieanalyse welk deel van de variantie in de eindtoetsscore met de onderwijsscore kan worden verklaard. Hierbij kijken wij alleen naar de leerlingen die de CET als eindtoets hebben gemaakt omdat de onderwijsachterstandenindicator hiermee is ontwikkeld.

Bij de regressieanalyse maken we gebruik van een stapsgewijze aanpak. Vanuit een startmodel, met alleen de onderwijsscore als onafhankelijke variabele (ook wel voorspeller genoemd) en de eindtoetsscore als afhankelijke variabele, kijken we in hoeverre het toevoegen van variabelen met betrekking tot de beschikbaarheid van gegevens tot een beter model leidt. Daarvoor hebben we een drietal deelpopulatievariabelen gedefinieerd. Deelpopulatie 1 geeft aan in hoeverre het opleidingsniveau van de ouders bekend is. De verschillende categorieën voor deze variabele zijn weergegeven in tabel 2.2.1. Deelpopulatie 2 is een dichotome variabele die aangeeft of de onderwijsscore direct is berekend of is geïmputeerd. Deelpopulatie 3 is een combinatie van deelpopulatie 1 en deelpopulatie 2. De verschillende categorieën voor deze variabele zijn weergegeven in tabel 2.2.2.

2.2.1 Deelpopulatie 1
Deelpopulatie	Beschrijving
A	Het hoogste opleidingsniveau van beide ouders is niet bekend
B	Het hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader
C	Het hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder
D	Het hoogste opleidingsniveau van beide ouders is bekend

2.2.2 Deelpopulatie 3
Deelpopulatie	Beschrijving
A1	Het hoogste opleidingsniveau van beide ouders is niet bekend en de onderwijsscore is geïmputeerd
A0	Het hoogste opleidingsniveau van beide ouders is niet bekend en de onderwijsscore is direct bepaald (niet geïmputeerd)
B1	Het hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader en de onderwijsscore is geïmputeerd
B0	Het hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader en de onderwijsscore is direct bepaald (niet geïmputeerd)
C1	Het hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder en de onderwijsscore is geïmputeerd
C0	Het hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder en de onderwijsscore is direct bepaald (niet geïmputeerd)
D0	Het hoogste opleidingsniveau van beide ouders is bekend en de onderwijsscore is direct bepaald (niet geïmputeerd)

Om te beoordelen of het toevoegen van een variabele tot een beter model leidt voor wat betreft de verklaarde variantie, kijken we naar de aangepaste R². Deze maat van verklaarde variantie corrigeert voor het aantal voorspellers dat gebruikt wordt in een regressiemodel. Daarnaast kijken we naar het Akaike Information Criterium (AIC) voor extra zekerheid. Deze maatstaf corrigeert ook voor het aantal parameters in een model, en is een uitdrukking van de hoeveelheid misfit tussen het model en de data. In andere woorden: AIC drukt uit in welke mate het model de data goed beschrijft. Een lagere AIC is beter.

⁵⁾ In het schooljaar 2019/’20 is geen eindtoets afgenomen. Eindtoetsscores voor dit schooljaar zijn dan ook niet in de analyses meegenomen. De leerlinggegevens voor dit schooljaar nemen we wel mee in de analyses van hoofdstuk 3. We nemen hierbij alleen gegevens mee voor leerlingen die in het schooljaar 2019/’20 een leerkrachtadvies hebben gekregen, zodat de selectie van meegenomen leerlingen voor dit schooljaar zo vergelijkbaar mogelijk is met die voor de andere schooljaren waarin alleen leerlingen met een eindtoetsscore worden meegenomen.
⁶⁾ Een uitgebreide uitleg hierover is te vinden in het vierde methoderapport.