4. Resultaten correlatie- en regressieanalyses
In dit hoofdstuk onderzoeken we het verband tussen de onderwijsscore en de eindtoetsscore. In de eerste sectie voeren we daartoe een correlatieanalyse uit om een eerste beeld te krijgen. In aanvulling daarop onderzoeken we in de tweede sectie met behulp van regressieanalyse welk deel van de variantie in de eindtoetsscore met de onderwijsscore kan worden verklaard.
4.1 Correlatieanalyse
In deze sectie bekijken we de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar de deelpopulatie voor wat betreft het imputeren van het hoogste opleidingsniveau van de ouders, de verschillende soorten eindtoets en de schooljaren. Bij een correlatie van 0 is er geen lineaire samenhang tussen de onderwijsscore en de eindtoetsscore. Bij een correlatie van 1 respectievelijk -1 is er sprake van een perfecte positieve respectievelijk perfecte negatieve lineaire samenhang tussen de onderwijsscore en de eindtoetsscore. Een correlatie van rond 0,1 is een zwakke correlatie, rond de 0,3 is een middelmatige correlatie, en rond 0,5 is een sterke correlatie.
Omdat het model voor de onderwijsachterstandenindicator ontwikkeld is met behulp van de CET, mag verwacht worden dat de correlatie tussen de onderwijsscores en de eindtoetsscores hoger is voor de CET dan voor eindtoetsen van andere aanbieders. Verder kunnen we verwachten dat de correlatie hoger is naarmate er minder gegevens zijn geïmputeerd bij de hoogste opleidingsniveau-variabelen.
Tabel 4.1.1 toont de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar eindtoetsaanbieder en schooljaar en tabel 4.1.2 toont de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar deelpopulatie, type eindtoetsaanbieder en schooljaar.
Eindtoetsaanbieder | 2020/'21 | 2021/'22, okt | 2021/'22, feb | 2022/'23 |
---|---|---|---|---|
CET | 0.39 | 0,38 | 0,38 | 0,39 |
IEP | 0.36 | 0,35 | 0,36 | 0,36 |
ROUTE 8 | 0.37 | 0,37 | 0,37 | 0,38 |
Eindtoetsaanbieder | Deelpopulatie | 2020/'21 | 2021/'22, okt | 2021/'22, feb | 2022/'23 |
---|---|---|---|---|---|
CET | A | 0.13 | 0,15 | 0,16 | 0,17 |
B | 0.31 | 0,29 | 0,29 | 0,29 | |
C | 0.31 | 0,3 | 0,3 | 0,29 | |
D | 0.45 | 0,43 | 0,43 | 0,43 | |
IEP | A | 0.13 | 0,12 | 0,13 | 0,15 |
B | 0.27 | 0,27 | 0,27 | 0,26 | |
C | 0.27 | 0,26 | 0,26 | 0,27 | |
D | 0.41 | 0,4 | 0,4 | 0,4 | |
ROUTE 8 | A | 0.13 | 0,14 | 0,15 | 0,16 |
B | 0.27 | 0,25 | 0,24 | 0,25 | |
C | 0.25 | 0,28 | 0,28 | 0,27 | |
D | 0.42 | 0,43 | 0,43 | 0,43 | |
Op basis van tabel 4.1.1 kunnen we concluderen dat de correlatie tussen de onderwijsscores en de eindtoetsscores – conform verwachting – het hoogst is voor de kinderen die de CET hebben gemaakt. Voor de twee andere grote aanbieders – IEP en ROUTE 8 – levert de analyse een minder sterke, maar vergelijkbare correlatie op. Dit patroon is hetzelfde voor alle onderzochte schooljaren. Hoewel de correlaties voor de verschillende aanbieders vergelijkbaar zijn, is geen van de correlaties sterk te noemen. Deze correlaties liggen in lijn met wat verwacht mag worden op basis van de methodologische onderzoeken die ten grondslag liggen aan de onderwijsachterstandenindicator. Wel zien we dat de correlaties redelijk stabiel blijven in de tijd. De correlaties zijn voor oktober 2021 en februari 2022 nagenoeg gelijk, wat betekent dat de herijking van het model weinig invloed heeft gehad op de correlaties tussen onderwijs- en eindtoetsscore.
Kijken we naar de uitsplitsing naar deelpopulatie in tabel 4.1.2, dan zien we dat – conform verwachting – de correlaties voor de deelpopulatie D (het opleidingsniveau van beide ouders is bekend) het hoogst is, maar er is geen sprake van sterke correlatie. Er is met r ≈ 0,13-0,17 een zwakke correlatie tussen de onderwijsscore en de eindtoetsscore voor deelpopulatie A (het opleidingsniveau van beide ouders is onbekend). Voor deelpopulaties B (het opleidingsniveau van de vader is onbekend) en C (het opleidingsniveau van de moeder is onbekend) ligt de correlatie ongeveer twee keer zo hoog als voor deelpopulatie A: met een correlatie van r ≈ 0,25-0,31 is hier sprake van een middelmatige correlatie tussen onderwijsscores en eindtoetsscores in de onderzochte schooljaren.
4.2 Regressieanalyse (alleen CET)
In deze sectie onderzoeken we welk gedeelte van de variantie in de CET-eindtoetsscore door de onderwijsscore wordt verklaard met behulp van een regressieanalyse. Zoals in hoofdstuk 2 uiteengezet, maken we bij de regressieanalyse gebruik van een stapsgewijze aanpak. In deze sectie kijken we alleen naar het startmodel en het uiteindelijke – best passende– model.
Eenvoudig model
Het eenvoudige model is opgebouwd uit de CET-eindtoetsscore als afhankelijke variabele en onderwijsscore als voorspeller (lees: onafhankelijke variabele). Tabel 4.2.1 toont de resultaten van het eenvoudige regressiemodel. De verwachting is dat het model de meeste variantie verklaart voor het eerste cohort en de minste voor het laatste cohort, omdat het tijdsinterval tussen ontwikkeling van de onderwijsachterstandenindicator en het moment van berekenen van de onderwijsscore en de afname van de eindtoets steeds groter wordt (zie ook de derde alinea van de inleiding). Daarnaast is de verwachting dat R2 vanaf februari 2022 afwijkt van de rest, omdat de onderwijsscore voor deze peilmomenten op een andere manier zijn berekend.
2020/'21 | 2021/'22, okt | 2021/'22, feb | 2022/'23 | |
---|---|---|---|---|
(Intercept) | -22.99 (4.58)*** | -4.06 (4.67) | -23.66 (4.84)*** | -10.08 (4.76)* |
score | 1.04 (0.01)*** | 1.01 (0.01)*** | 1.04 (0.01)*** | 1.02 (0.01)*** |
R2 | 0.156 | 0.148 | 0.148 | 0.15 |
AIC | 576433.6 | 551187 | 551172.5 | 530272.1 |
*** p < 0,001, ** p < 0,05, * p < 0,1 |
Uit de resultaten zoals weergeven in tabel 4.2.1. kunnen we opmaken dat het model ongeveer dezelfde verklarende kracht heeft voor de laatste drie schooljaren met R² ≈ 0,148-0,150 en het grootste verklarende kracht voor het schooljaar 2020/’21 met R² ≈ 0,156. In dit schooljaar is echter geen eindtoets geweest als gevolg van de coronapandemie. Dit vertekent het beeld. De R2 is hetzelfde voor zowel oktober 2021 als februari 2022. Dit is tegen de verwachting in, maar wel goed nieuws: Dit betekent dat de voorspellende kracht van het herijkte model hetzelfde is als het oude model en dat dit model dus evenveel variantie in eindtoetsscore verklaart. Daarnaast blijft de R2 vooralsnog dus stabiel, wat betekent dat de voorspellende kracht van het model over tijd niet minder lijkt te worden. De analyses voor de komende jaren zullen uitwijzen in hoeverre de verklaarde variantie zich ontwikkelt.
De uitkomsten van het eenvoudige model kunnen we vergelijken met de uitkomsten die zijn beschreven in het eerste methoderapport . Daarin zien we dat wanneer de modelvariabelen als voorspellers zijn opgenomen en de CET-eindtoetsscore als afhankelijke variabele, het model resulteert in een hogere verklaarde variantie (R² = 0,198). Hoewel de verklaarde variantie in het eerste methoderapport hoger is, is er ook een wezenlijk verschil in de gebruikte populaties. De populatie die we hebben gebruikt voor tabel 4.2.1 is inclusief leerlingen waarvoor de onderwijsscore is geïmputeerd. De populatie die is gebruikt voor de uitkomsten in het eerste methoderapport bevat geen kinderen waarvoor de onderwijsscore is geïmputeerd. Verder is de verklaarde variantie in het eerste methoderapport berekend op dezelfde steekproef van kinderen waarop het model voor de onderwijsscore is ontwikkeld. Het is dan geen verrassing dat de verklaarde variantie bij toepassing van de onderwijsscore op een andere populatie iets kleiner is.
Uitgebreid model
Het uiteindelijke – best passende – model heeft naast de CET-eindtoetsscore als afhankelijke variabele en onderwijsscore als onafhankelijke variabele deelpopulatie 3 als tweede onafhankelijke variabele. Daarnaast hebben we in dit model een interactie tussen deelpopulatie en de onderwijsscore opgenomen. In dit model is deelpopulatie D0 de referentiecategorie. De verwachting is dat het model beter aansluit op de data ten opzichte van het eenvoudige model, omdat we rekening houden met (lees: corrigeren voor) de twee verschillende wijzen van imputeren. Tabel 4.2.2 toont de resultaten van het uiteindelijke model.
2020/'21 | 2021/'22,okt | 2021/'22, feb | 2022/'23 | |
---|---|---|---|---|
(Intercept) | -36.94 (5.61)*** | -15.45 (5.67)** | -35.54 (5.87)*** | -25.18 (5.7)*** |
deelpop_IMPUTATIEA0 | 195.68 (28.43)*** | 139.84 (29.65)*** | 119.96 (29.86)*** | 108.17 (31)*** |
deelpop_IMPUTATIEA1 | 338.63 (51.51)*** | 328.33 (48.54)*** | 378.73 (51.5)*** | 412.73 (49.62)*** |
deelpop_IMPUTATIEB0 | 80.8 (13.87)*** | 89.53 (14.37)*** | 99.12 (14.79)*** | 107.95 (14.67)*** |
deelpop_IMPUTATIEB1 | 302.23 (27.45)*** | 298.6 (27.64)*** | 317.52 (29.08)*** | 338.06 (29.23)*** |
deelpop_IMPUTATIEC0 | 56.68 (17.9)** | 56.59 (18.67)** | 51.68 (19.35)** | 77.26 (18.98)*** |
deelpop_IMPUTATIEC1 | 246.93 (136.32) | 339 (128.65)** | 459.79 (140.4)** | 379.01 (140.45)** |
score | 1.07 (0.01)*** | 1.03 (0.01)*** | 1.07 (0.01)*** | 1.05 (0.01)*** |
deelpop_IMPUTATIEA0:score | -0.37 (0.05)*** | -0.26 (0.06)*** | -0.23 (0.06)*** | -0.2 (0.06)*** |
deelpop_IMPUTATIEA1:score | -0.64 (0.1)*** | -0.62 (0.09)*** | -0.71 (0.1)*** | -0.78 (0.09)*** |
deelpop_IMPUTATIEB0:score | -0.15 (0.03)*** | -0.17 (0.03)*** | -0.19 (0.03)*** | -0.2 (0.03)*** |
deelpop_IMPUTATIEB1:score | -0.57 (0.05)*** | -0.57 (0.05)*** | -0.6 (0.05)*** | -0.64 (0.05)*** |
deelpop_IMPUTATIEC0:score | -0.11 (0.03)** | -0.11 (0.03)** | -0.1 (0.04)** | -0.15 (0.04)*** |
deelpop_IMPUTATIEC1:score | -0.47 (0.26) | -0.64 (0.24)** | -0.87 (0.26)*** | -0.71 (0.26)** |
R2 | 0.161 | 0.154 | 0.155 | 0.157 |
AIC | 575940.2 | 550654.1 | 550595.2 | 529667.9 |
*** p < 0,001, ** p < 0,05, * p < 0,1 |
Het uiteindelijke model verklaart met R² ≈ 0.157-0,161 in alle onderzochte schooljaren een groter deel van de variantie in de CET- ten opzichte van het eenvoudige model met R² ≈ 0.156-0,150. De verschillen zijn echter marginaal. Daarnaast is de AIC lager voor het complexe model ten opzichte van het eenvoudige model voor elk jaar. De AIC kan alleen tussen modellen binnen hetzelfde jaar worden vergeleken met elkaar, en zoals eerder gezegd betekent een lagere AIC dat het model beter bij de data past.