4. Versnelling en methodologische vernieuwing
Naast een vernieuwd regressiemodel kent de ‘Monitor Loonverschillen mannen en vrouwen, 2022’ ook een versnelling. In plaats van twee jaar na afloop van het verslagjaar verschijnt de publicatie al binnen een jaar na afloop van het verslagjaar 2022. Hierdoor ontstaat een actueler beeld van de loonverschillen tussen mannen en vrouwen. Dit hoofdstuk beschrijft de methodologische vernieuwing die nodig was om dit mogelijk te maken. Het gaat eerst in op de verandering van de primaire bronbestanden en geeft daarna een beschrijving van de voor de methodologische vernieuwing toegepaste methode van meervoudige imputatie. Verder gaat het kort in op de versnelling en wordt dit hoofdstuk afgesloten met een conclusie.
4.1 Bronbestanden
Bij de oude methode was de Enquête Beroepsbevolking (EBB) de belangrijkste bron voor het onderzoek naar de (gecorrigeerde) loonverschillen tussen mannen en vrouwen. De EBB bepaalde de populatie en bevatte diverse verklarende achtergrondgegevens die niet in andere bronnen beschikbaar waren. Om genoeg gegevens te hebben voor betrouwbare resultaten moesten drie jaren van de EBB samengevoegd worden. De respondenten van drie jaar EBB vormden de onderzoekspopulatie. Het middelste jaar gold als verslagjaar. Dat is ook de reden waarom de resultaten pas twee jaar na dit verslagjaar en een jaar na het derde EBB jaar gepubliceerd konden worden. Onderzoek naar de mogelijkheid om minder EBB jaren te gebruiken in het onderzoek naar loonverschillen tussen mannen en vrouwen leverde resultaten op die te onzeker waren om te publiceren.
In de nieuwe methode zijn administratieve data over werknemers de belangrijkste bron voor het onderzoek naar de (gecorrigeerde) loonverschillen tussen mannen en vrouwen. Het gaat om data die gebaseerd is op de loonaangiften die werkgevers voor hun personeel moeten doen bij de Belastingdienst. Deze data bevat informatie van alle banen en werknemers in Nederland. Daardoor is één jaar al voldoende om de onderzoekspopulatie van het onderzoek naar loonverschillen tussen mannen en vrouwen te vormen en kan al in het jaar na dit verslagjaar gepubliceerd worden. En omdat deze onderzoekspopulatie niet meer op steekproeven is gebaseerd, maar op waarnemingen voor alle werknemers in Nederland zijn de gepubliceerde uitkomsten nauwkeuriger.
De gegevens over de werknemers wordt in het onderzoek naar de loonverschillen tussen mannen en vrouwen zoveel mogelijk aangevuld met andere gegevens die voor de hele werknemerspopulatie bekend zijn. Dat geldt bijvoorbeeld voor gegevens zoals leeftijd of woonregio. Er is echter een drietal gegevens dat niet in administratieve data voorkomt, maar die wel heel belangrijk zijn om loonverschillen tussen mannen en vrouwen te verklaren. Deze gegevens komen wel voor in de EBB. Het gaat om al dan niet leidinggeven, het beroepsniveau en de beroepsrichting. Deze gegevens zijn vanuit de EBB maar voor een klein deel van alle werknemers in de nieuwe onderzoekspopulatie bekend. Met de methode van meervoudige imputatie kunnen deze drie gegevens echter voor de hele onderzoekspopulatie geschat worden. Op basis daarvan kunnen dan de gecorrigeerde loonverschillen tussen mannen en vrouwen berekend worden. De volgende paragraaf beschrijft de methode van meervoudige imputatie.
4.2 Meervoudige imputatie
Cruciale informatie om het loonverschil tussen mannen en vrouwen deels te verklaren is alleen beschikbaar in de steekproef van de EBB en niet voor de hele populatie. Het gaat om de achtergrondkenmerken beroepsrichting, beroepsniveau en leidinggeven. De methode ‘multiple imputation’ ofwel ‘meervoudige imputatie’ kan de ontbrekende informatie voor de drie variabelen schatten, waarna dan toch de hele populatie gebruikt kan worden voor het berekenen van het gecorrigeerde loonverschil. Per jaar is van ongeveer 0,6 procent van de werknemers in de onderzoekspopulatie informatie over de EBB-variabelen beschikbaar. Het aandeel missende waarden is dus heel erg groot. Wetenschappelijk onderzoek heeft echter aangetoond dat ook bij relatief zeer veel missende waarden meervoudige imputatie succesvol toegepast kan worden (Madley-Dowd, Hughes, Tilling en Heron, 2019). Dit kan omdat in absolute zin van nog altijd een grote groep mensen (circa 35 duizend per jaar) wel gegevens over de drie achtergrondkenmerken vanuit de EBB beschikbaar zijn. Daarnaast zijn er veel achtergrondvariabelen vanuit de administratieve data die een goede bijschatting/imputatie mogelijk maken. Deze achtergrondvariabelen zijn beschikbaar voor de hele onderzoekspopulatie.
4.2.1 Model
Meervoudige imputatie schat voor iedere werknemer in de onderzoekspopulatie een waarde voor beroepsrichting, beroepsniveau en leidinggeven. Dit schatten wordt imputeren genoemd. Om deze drie variabelen afkomstig uit de EBB te imputeren maakt het model van meervoudige imputatie gebruik van alle variabelen die in het regressiemodel aanwezig zijn om gecorrigeerde loonverschillen in kaart te brengen (inclusief geslacht en uurloon) plus enkele hulpvariabelen. Aparte regressieanalyses tonen aan dat deze variabelen ook allemaal gelinkt zijn aan deze drie EBB-variabelen. De analyses zijn uitgevoerd met het MICE-package in R.
Voor de imputatie is de default imputatie methode in R gebruikt. Hierbij is voor de variabele leidinggeven logistische regressie gebruikt en voor de variabelen beroepsrichting en beroepsniveau polynomiale regressie. Een stapsgewijze imputatie waarbij een eerst geïmputeerde variabele input is in het model om de volgende variabele te imputeren bleek betere resultaten te geven dan wanneer alle drie de variabelen met hetzelfde model geïmputeerd werden. Daarom is eerst beroepsniveau geïmputeerd aangezien dat redelijk voorspeld kan worden met opleidingsniveau. Daarna is beroepsrichting geïmputeerd en in de laatste stap leidinggeven. Beroepsrichting is namelijk belangrijk voor al dan niet leidinggeven. Een andere eigenschap van de imputatie is dat deze meerdere keren achter elkaar uitgevoerd wordt; vandaar ook de naam ‘meervoudige imputatie’. Door het herhalen ontstaat een verdeling rondom een gemiddelde, dat de gemeten waarde vormt. De spreiding in resultaten rond dit gemiddelde bepaalt de betrouwbaarheidsmarge rond deze waarde. Tijdens het onderzoek bleek dat 25 keer herhalen al goede resultaten gaf. Voor betere betrouwbaarheidsmarges is de imputatie voor de eindresultaten echter 50 keer herhaald.
4.2.2 Betrouwbaarheidstesten
Om te bepalen of meervoudige imputatie geschikt is voor het onderzoek van de Monitor Loonverschillen zijn veel tests uitgevoerd. Dit is gedaan om met zekerheid te kunnen vaststellen dat de methode betrouwbare resultaten geeft. De testen zijn uitgevoerd op gegevens van verslagjaar 2021. De zogenaamde kruisvalidatie was een belangrijke betrouwbaarheidstest. Deze test splitst de EBB-populatie in twee helften. Voor de ene helft van de EBB-respondenten (random bepaald) is de waarde van de drie variabelen (leidinggeven, beroepsniveau en beroepsrichting) weggehaald en vervolgens geïmputeerd om daarna verschillende analyses te doen en te vergelijken met de geobserveerde waarden van dezelfde variabelen. Met deze plausibiliteitschecks is meer zicht verkregen op de kwaliteit van de imputaties. De kruisvalidatie is meerdere keren uitgevoerd om na te gaan of de imputatie stabiele uitkomsten geeft. Belangrijke vragen bij de plausibiliteitschecks waren: Is de verdeling van de variabelen vergelijkbaar voor de geïmputeerde waarden in de ene helft van de EBB-populatie en geobserveerde variabelen in de andere helft van de EBB-populatie? Zijn de relaties tussen variabelen op basis van de geïmputeerde variabelen vergelijkbaar met die van de geobserveerde variabelen (geven bijvoorbeeld mannen en vrouwen in beide gevallen even vaak leiding)? In welke mate komen de geobserveerde en de geïmputeerde waarden op individueel niveau precies overeen? Dit laatste was vaak, maar niet altijd het geval. Maar de verdelingen en relaties met andere variabelen waren vergelijkbaar. En dat is een vereiste om betrouwbare statistische uitkomsten te krijgen. De belangrijkste plausibiliteitscheck betroffen de gecorrigeerde loonverschillen: het verschil in uurloon tussen mannen en vrouwen rekening houdend met achtergrondvariabelen. Is dat hetzelfde als geïmputeerde variabelen gebruikt worden in vergelijking met het gebruik van de geobserveerde variabelen? Het bleek dat het betrouwbaarheidsinterval van de gecorrigeerde loonverschillen bij het gebruik van geïmputeerde variabelen altijd binnen het betrouwbaarheidsinterval van de geobserveerde loonverschillen vielen.
Uiteindelijk is het de bedoeling dat de administratieve data over werknemers de bron voor het meten van de gecorrigeerde en ongecorrigeerde loonverschillen tussen mannen en vrouwen zijn. Daarom zijn, gebruik makend van de resultaten van de kruisvalidatie, bij alle niet-EBB respondenten in de onderzoekspopulatie de waarden van de drie EBB-variabelen geïmputeerd. Op basis van de uitkomsten voor gecorrigeerde loonverschillen kon een keuze gemaakt worden voor het meest passende imputatiemodel. Dit model is toegepast op een aantal verslagjaren om na te gaan of het ook door de tijd een stabiele methode is. De uitkomsten bleken ook over de tijd plausibel en met kleinere onzekerheidsmarges dan de uitkomsten in de oude methode. Er waren wel verschillen, maar die waren meer terug te voeren op de vernieuwing van de regressiemethode en minder op de imputatiemethode. De verschillen hingen bijvoorbeeld samen met de veranderde onderzoekspopulatie in de nieuwe regressiemethode waar (laagbetaalde) banen van studenten en stagiairs niet meer meetellen.
De resultaten van de betrouwbaarheidstesten hebben laten zien dat het gebruik van de meervoudige imputatie methode geschikt is voor de statistische analyse naar gecorrigeerde loonverschillen tussen mannen en vrouwen binnen de Monitor Loonverschillen.
4.3 Versnelling
Met behulp van de methode van meervoudige imputatie kunnen voor een willekeurig verslagjaar loonverschillen berekend worden. Het samenvoegen van jaren is door gebruik van de administratieve data met volledige imputatie van de drie EBB-variabelen niet meer nodig. Daardoor is het mogelijk een Monitor Loonverschillen in het jaar na afloop van een verslagjaar samen te stellen. In 2023 worden dus al de cijfers over 2022 gepubliceerd. Dat is een jaar sneller dan in de oude situatie.
De versnelling heeft wel gevolgen voor de beschikbaarheid van gegevens. Van een tweetal variabelen van de regressiemethode voor het bepalen van de gecorrigeerde loonverschillen is nog geen informatie over het verslagjaar beschikbaar in het jaar na het verslagjaar. Daarvoor zullen we de informatie uit het jaar vóór het verslagjaar nemen. Dit heeft slechts beperkt invloed op de gecorrigeerde loonverschillen tussen mannen en vrouwen. Het gaat om de kenmerken loopbaanonderbrekingen in de afgelopen vijftien jaar en de gemiddelde deeltijdfactor in de afgelopen vijftien jaar. Dat wordt bij beide variabelen dan veertien jaar.
4.4 Loonverschillen naar herkomst en geslacht
In opdracht van het ministerie van SZW heeft het CBS onderzoek gedaan naar de mogelijkheid van een Monitor Loonverschillen naar herkomst en geslacht. Het ging om het bepalen van loonverschillen tussen mannen en vrouwen binnen groepen werknemers uit diverse herkomstlanden. De onderzochte groepen werknemers waren werknemers met een Turkse, Marokkaanse, Surinaamse of Caribische herkomst, al dan niet in Nederland geboren. De oude methode die gebaseerd was op drie jaargangen van de EBB gaf te grote onzekerheidsmarges in de uitkomsten van loonverschillen naar herkomst en geslacht. Daarom heeft het CBS onderzocht of de loonverschillen volgens de nieuwe methode bepaald kunnen worden, net zoals bij de loonverschillen tussen mannen en vrouwen.
Anders dan bij de analyse naar de loonverschillen tussen mannen en vrouwen, bleek de meervoudige imputatie methode voor de analyse van loonverschillen naar herkomst en geslacht geen betrouwbare uitkomsten te geven. De resultaten van de kruisvalidatie test (zie paragraaf 4.2.2) waren instabiel en gaven te grote afwijkingen tussen de waargenomen waarden van de EBB-variabelen en de (met meervoudige imputatie) geschatte waarden. Ook het samennemen van de groepen werknemers met een Turkse en Marokkaanse herkomst enerzijds en een Surinaamse en Caribische herkomst anderzijds gaf geen verbetering in de resultaten.
De nieuwe methode is dus wel geschikt is voor het bepalen van gecorrigeerde loonverschillen tussen mannen en vrouwen, maar niet geschikt voor het bepalen van gecorrigeerde loonverschillen naar herkomst en geslacht. De oorzaak hiervan bleek de beperkte aanwezigheid van gegevens over de drie EBB-variabelen (al dan niet leidinggeven, beroepsniveau en beroepsrichting) voor de groepen werknemers naar herkomst en geslacht. Bij de groepen werknemers naar de specifieke herkomstlanden waren er soms maar enkele waarnemingen in de EBB, zeker als ook nog uitgesplitst werd naar mannen en vrouwen en al dan niet geboren in Nederland. Deze beperkte informatie uit de EBB bleek onvoldoende voor betrouwbare uitkomsten van de meervoudige imputatie van de drie EBB-variabelen. Deze nieuwe methode kan daarom niet toegepast worden om loonverschillen te bepalen tussen mannen en vrouwen binnen groepen werknemers uit specifieke herkomstlanden (al dan niet in Nederland geboren).
4.5 Conclusie
De publicatie van de Monitor Loonverschillen op basis van administratieve data met drie geïmputeerde EBB-variabelen heeft meerdere voordelen. De resultaten worden gebaseerd op alle werknemers uit de onderzoekspopulatie. Hierdoor zijn de onzekerheidsmarges van de uitkomsten kleiner, waardoor uitkomsten nauwkeuriger weergegeven kunnen worden. Bovendien blijft de verklaarkracht van de drie EBB-variabelen (leidinggeven, beroepsniveau en beroepsrichting) behouden voor de bepaling van de gecorrigeerde loonverschillen.
Om dit mogelijk te maken moeten, met behulp van de meervoudige imputatie methode, de drie EBB-variabelen voor meer dan 99 procent van de onderzoekspopulatie geïmputeerd worden. Dit is mogelijk doordat er even goed nog een grote groep werkenden is van wie deze gegevens wel bekend zijn en er veel achtergrondvariabelen beschikbaar zijn als hulpvariabelen bij de imputatie. Analyse van de loonverschillen tussen mannen en vrouwen op basis van de onderzoekspopulatie met geïmputeerde EBB-gegevens bleek vergelijkbare uitkomsten te geven als de oude methode en bleek bovendien ook stabiele en plausibele resultaten te geven voor verschillende verslagjaren. De nieuwe methode is dus geschikt voor de statistische analyse naar gecorrigeerde loonverschillen tussen mannen en vrouwen binnen de Monitor Loonverschillen.
Enkele variabelen zijn niet op tijd beschikbaar bij publicatie in het jaar na het verslagjaar. Het gebruiken van de gegevens van deze variabelen van een jaar eerder heeft echter weinig invloed op de gemeten loonverschillen.
De nieuwe methode bleek niet geschikt voor het onderzoeken van loonverschillen tussen mannen en vrouwen binnen groepen werknemers uit diverse specifieke herkomstlanden. Van onvoldoende werknemers met een buitenlandse herkomst was vanuit de EBB bekend of ze leidinggaven en wat hun beroepsniveau en beroepsrichting waren. Daardoor gaf de meervoudige imputatie methode geen betrouwbare en stabiele uitkomsten.