1. Methodewijziging
Het CBS heeft in opdracht van het Ministerie van SZW onderzoek gedaan naar actualisering van het model waarmee de gecorrigeerde loonverschillen worden bepaald en naar de mogelijkheden om de publicatie te versnellen. De resultaten van dit onderzoek zijn verwerkt in de ‘Monitor Loonverschillen mannen en vrouwen, 2022’. Deze nieuwe monitor is gebaseerd op een aangepaste onderzoekspopulatie, kent een verbeterd regressiemodel en komt een jaar eerder uit. Dit hoofdstuk geeft een kort overzicht van de wijzigingen. Een uitgebreide toelichting op de wijzigingen is opgenomen in een aparte webpublicatie.
1.1 Aanpassing onderzoekspopulatie
De onderzoekspopulatie omvat de banen waarvan de loonverschillen tussen mannen en vrouwen vergeleken worden. Voor een goede vergelijking is het belangrijk dat banen die vergeleken worden zoveel mogelijk dezelfde eigenschappen kunnen hebben. Daarom is de onderzoekspopulatie op vier aspecten aangepast.
Geen banen van scholieren en studenten
De eerste aanpassing is dat banen van scholieren en studenten geen onderdeel meer zijn van de onderzoekspopulatie. Dit is omdat banen van scholieren en studenten vaak bijbanen zijn. En de eigenschappen van bijbanen zijn anders dan die van reguliere banen. Zo zijn bijbanen per definitie in deeltijd, terwijl dat bij reguliere banen niet zo hoeft te zijn.
Geen stagiairs en sociale werkvoorziening
De tweede aanpassing is dat ook banen van stagiairs en banen in de sociale werkvoorziening geen onderdeel meer vormen van de onderzoekspopulatie. Doordat het vaak om respectievelijk stagevergoedingen en gesubsidieerd werk gaat, zijn deze banen minder vergelijkbaar met reguliere banen.
Banen tot AOW-leeftijd
De derde aanpassing is dat de maximale leeftijd binnen de onderzoekspopulatie is verhoogd tot de AOW-leeftijd. Voorheen was de leeftijd beperkt tot 65 jaar. Vanwege de stijgende AOW-leeftijd zou bij een onderzoekspopulatie tot 65 jaar een steeds grotere groep banen uit de onderzoekspopulatie verdwijnen. Verhoging van de leeftijd tot de AOW-leeftijd trekt dit recht.
Alleen hoofdbanen
De vierde aanpassing is dat de onderzoekspopulatie zich beperkt tot de hoofdbanen van werknemers. Als een werknemer meerdere banen heeft, telt in de onderzoekspopulatie alleen de baan met de meeste uren mee. Een belangrijke reden hiervoor is dat ook alleen van hoofdbanen uit de brondata bekend is of het om een leidinggevende functie gaat of niet. Doordat er voor een werknemer vanaf nu maar één baan in de onderzoekspopulatie voorkomt, bestaat de onderzoekspopulatie uit unieke werknemers.
Kortom, de onderzoekspopulatie bestaat vanaf de ‘Monitor Loonverschillen mannen en vrouwen, 2022’ uit werknemers woonachtig in Nederland met een (hoofd)baan van vier uur of meer per maand en een leeftijd vanaf 15 tot en met de AOW-leeftijd. Banen van scholieren en studenten en banen van stagiairs en banen in de sociale werkvoorziening tellen niet mee.
1.2 Vernieuwing regressiemodel
Diverse kenmerken zijn van invloed op de hoogte van het loon dat iemand verdient. Als deze kenmerken tussen mannen en vrouwen verschillen, leiden ze tot verklaarbare loonverschillen tussen mannen en vrouwen. Als mannen bijvoorbeeld vaker een leidinggevende functie hebben dan vrouwen en leidinggevende functies een hoger uurloon kennen, zal het uurloon van mannen hoger zijn dan dat van vrouwen. Om uurlonen zuiverder met elkaar te vergelijken houdt een regressieanalyse rekening met dergelijke verschillen in achtergrondkenmerken. De uitkomsten van deze analyse zijn de zogenaamde gecorrigeerde loonverschillen.
Voor de regressieanalyse is het belangrijk om rekening te houden met achtergrondkenmerken die van invloed zijn op het uurloon en tot verschillen in het uurloon tussen mannen en vrouwen kunnen leiden. Aan de basis van de vernieuwing van het regressiemodel ligt een literatuurstudie naar dergelijke achtergrondkenmerken. Die heeft geleid tot het vervallen van enkele achtergrondkenmerken in het regressiemodel. Aan de andere kant zijn er ook nieuwe achtergrondkenmerken bij gekomen. Enkele achtergrondkenmerken zijn op basis van een nieuwe bron samengesteld of op een andere manier geoperationaliseerd. De apart gepubliceerde webpublicatie over de methodewijziging geeft een uitgebreide beschrijving van de literatuurstudie en de gevolgen ervan voor het regressiemodel. Deze paragraaf beschrijft enkele van de belangrijkste wijzingen.
Vervallen achtergrondkenmerken
Bij de vervallen achtergrondkenmerken horen onder andere arbeidshandicap, inkomen partner en percentage vrouwelijke collega’s. Het kenmerk arbeidshandicap is vervallen, omdat het gegeven of iemand een arbeidshandicap heeft niet meer voorkomt in de brongegevens. Het inkomen partner en het percentage vrouwelijke collega’s zijn vervallen, omdat vanuit de literatuur geen éénduidige mechanismes bekend zijn hoe deze gegevens verklaarbare loonverschillen tussen mannen en vrouwen zouden kunnen veroorzaken.
Toegevoegde achtergrondkenmerken
Bij de toegevoegde achtergrondkenmerken aan het regressiemodel horen onder andere loopbaanonderbrekingen en longitudinale deeltijdfactor. Het kenmerk loopbaanonderbrekingen geeft het aantal jaar gedurende de afgelopen 15 jaar waarin werk of onderwijs niet de sociaaleconomische hoofdactiviteit was. Het gaat dan om jaren van uitkeringsafhankelijkheid of periodes zonder inkomen. Het kenmerk longitudinale deeltijdfactor is de gemiddelde deeltijdfactor per maand in de afgelopen 15 jaar. Deeltijdfactoren van banen van scholieren en studenten zijn hierbij buiten beschouwing gelaten. Zowel in de jaren van loopbaanonderbrekingen of bij een langere periode van werken in deeltijd is minder werkervaring opgedaan. Dit kan invloed hebben op de hoogte van het loon.
Nieuwe bron of operationalisering
Een voorbeeld van een achtergrondkenmerk dat op een nieuwe bron is gebaseerd is het opleidingsniveau van werknemers. Dit wordt in het nieuwe regressiemodel niet langer gebaseerd op de Enquête Beroepsbevolking (EBB), maar op het zogenaamde Opleidingsniveaubestand van het CBS (zie paragraaf 8.2). Dit Opleidingsniveaubestand combineert informatie over opleidingsniveaus uit meerdere bronnen, zowel de EBB als administratieve bronnen. Een voorbeeld van een achtergrondkenmerk met een andere operationalisering is leeftijd. Bij de overheid is één leeftijdsgroep gekomen voor jongeren tot 21 jaar. Door het niet meer meenemen van banen van scholieren en studenten, is het aantal jongeren te gering om bij de overheid aparte categorieën per levensjaar op te nemen. Daarnaast bevat het nieuwe model voor de hogere leeftijden meer gedetailleerde leeftijdsklassen: van vijf jaar in plaats van tien jaar. Hierdoor wordt nauwkeuriger rekening gehouden met leeftijdsverschillen tussen mannelijke en vrouwelijke werknemers.
1.3 Versnelling
Om de publicatie van de loonverschillen tussen mannen en vrouwen een jaar te versnellen waren twee aanpassingen noodzakelijk: overstappen op een nieuwe bron voor de onderzoekspopulatie en een methode vinden om essentiële achtergrondkenmerken die maar voor een heel klein deel van de onderzoekspopulatie beschikbaar zijn mee te nemen in de analyses.
De nieuwe bron voor de onderzoekspopulatie zijn de administratieve gegevens over banen die voor alle werknemers in Nederland beschikbaar zijn. Het gaat om data die gebaseerd zijn op de loonaangiften die werkgevers voor hun personeel moeten doen bij de Belastingdienst. De oude onderzoekspopulatie bestond uit werknemers uit drie enquêtejaren van de EBB. Drie jaren EBB waren nodig voor een onderzoekspopulatie die groot genoeg was om betrouwbare analyses op te kunnen doen. Door het gebruik van de administratieve gegevens is één verslagjaar al ruim voldoende voor betrouwbare analyses. De meeste achtergrondkenmerken zijn immers bekend voor alle werknemers in Nederland. In de oude methode was het middelste EBB-jaar het verslagjaar dat pas na twee jaar gepubliceerd kon worden (het jaar na het derde EBB-jaar van de onderzoekspopulatie). Met de administratieve data kan al een jaar na het verslagjaar gepubliceerd worden. Daarmee is de publicatie van de Monitor Loonverschillen mannen en vrouwen een jaar versneld.
Meervoudige imputatie
De verklaring van de loonverschillen tussen mannen en vrouwen is onvoldoende als geen rekening wordt gehouden met drie essentiële achtergrondkenmerken: al dan niet leidinggeven, het beroepsniveau en de beroepsrichting. Deze gegevens zijn alleen beschikbaar vanuit de EBB en omvatten daarmee 0,6 procent van de onderzoekspopulatie. Omdat dat een te klein percentage is voor de regressieanalyse, zijn de drie kenmerken bijgeschat voor alle werknemers in de onderzoekspopulatie. Hiervoor is de methode ‘multiple imputation’ ofwel ‘meervoudige imputatie’ gebruikt (Madley-Dowd, Hughes, Tilling en Heron, 2019). Deze methode schat met behulp van de achtergrondkenmerken die voor het grootste deel later ook in de regressieanalyse gebruikt worden de waarden voor de drie EBB-variabelen voor iedere werknemer. Dit bijschatten gebeurt vijftig keer achter elkaar. Door het herhalen ontstaat een verdeling rondom een gemiddelde, dat de gemeten waarde vormt. Diverse betrouwbaarheidstesten hebben aangetoond dat de ‘meervoudige imputatie’ methode geschikt is voor de analyses van de Monitor Loonverschillen mannen en vrouwen. Hierdoor kan ook met mogelijke verschillen in het al dan niet leidinggeven, het beroepsniveau en de beroepsrichting rekening gehouden worden bij het verklaren van loonverschillen tussen mannen en vrouwen.