9. Methoden
9.1 Samenstellen onderzoeksbestand
Voor de bepaling van het aantal banen en de berekening van uurlonen en loonverschillen is een onderzoeksbestand samengesteld met als basis de baaninformatie uit het SSB. De baaninformatie is gebaseerd op de loonaangiftes die de Belastingdienst van werkgevers ontvangt en die het UWV opslaat in de zogenaamde Polisadministratie. Het onderzoeksbestand bevat alleen de banen van werknemers volgens de afgebakende populatie werknemers (zie paragraaf 8.1). Het onderzoeksbestand bestaat uit gegevens over de banen, de werknemers zelf en de bedrijven waar zij werken. Deze gegevens zijn voornamelijk afkomstig uit het SSB (zie paragraaf 8.2).
9.2 Meervoudige imputatie
De meeste variabelen in de analyse worden integraal waargenomen, dat wil zeggen voor de gehele onderzoekspopulatie. Deze variabelen zijn afkomstig uit registraties in het SSB. Drie variabelen worden echter niet integraal waargenomen. Het gaat om beroepsniveau, beroepsrichting en leidinggeven. Deze variabelen worden nergens centraal geregistreerd en zijn afkomstig uit de EBB. Slechts 0,6% van de onderzoekspopulatie heeft recent aan de EBB deelgenomen; van de overige 99,4% werknemers uit de onderzoekspopulatie ontbreken de waarden op deze variabelen.
Beroepsniveau, beroepsrichting en leidinggeven zijn in potentie van invloed op het loonverschil tussen mannen en vrouwen. Daarom is het belangrijk om deze variabelen toch in de analyse te kunnen opnemen. Daarvoor is gebruik gemaakt van meervoudige imputatie. Voor iedere hoofdbaan in de onderzoekspopulatie zijn voor deze drie variabelen meerdere waarschijnlijke waarden berekend op basis van andere kenmerken. Beroepsniveau is geïmputeerd op basis van het uurloon, geslacht, de interactie tussen uurloon en geslacht, alle correctiefactoren (leeftijd, herkomst, opleidingsniveau, opleidingsrichting, arbeidsduur, contractsoort, soort werknemer, baanduur, loopbaanonderbrekingen, longitudinale deeltijdfactor, sector/bedrijfstak, grootteklasse, woonregio, stedelijkheid woongemeente), drie hulpfactoren (samenstelling huishouden, leeftijd jongste kind, inkomen partner), de interactie tussen contractsoort en geslacht, beroepsrichting, de interactie tussen beroepsrichting en geslacht, leidinggeven en de interactie tussen leidinggeven en geslacht. Beroepsrichting is geïmputeerd op basis van het uurloon, geslacht, de interactie tussen uurloon en geslacht, alle correctiefactoren, de hulpfactoren, de interactie tussen contractsoort en geslacht, beroepsniveau, de interactie tussen beroepsniveau en geslacht, leidinggeven en de interactie tussen leidinggeven en geslacht. Leidinggeven is geïmputeerd op basis van het uurloon, geslacht, de interactie tussen uurloon en geslacht, alle correctiefactoren, de hulpfactoren, de interactie tussen contractsoort en geslacht, beroepsrichting, de interactie tussen beroepsrichting en geslacht, beroepsniveau en de interactie tussen beroepsniveau en geslacht. Bij de imputaties voor de populatie van het bedrijfsleven zijn ook de interacties van bedrijfstak met geslacht en bedrijfsgrootte met geslacht meegenomen.
Om te imputeren is gebruik gemaakt van een geschakelde methode, waarbij variabelen opeenvolgend zijn geïmputeerd. De imputatie van beroepsniveau en beroepsrichting is geschat middels multinomiale logistische regressies, de imputatie van leidinggeven middels dichotome logistische regressies. Voor iedere imputatie is het model eerst tien keer geïtereerd. In totaal zijn er vijftig volledig gevulde datasets geïmputeerd. Hiervoor is gebruik gemaakt van R, editie 4.2.3. De imputaties zijn geschat met het pakket mice, versie 3.16.0 (Van Buuren en Groothuis-Oudhoorns, 2011).
Dankzij de meervoudige imputatie kunnen analyses worden uitgevoerd ondanks de aanwezigheid van ontbrekende waarden. Iedere geïmputeerde dataset kan namelijk worden gezien als een waarschijnlijke weergave van de populatie indien alle variabelen voor iedereen gemeten waren. Binnen de dataset hangen alle variabelen consistent met elkaar samen. Zodoende zijn de schattingen uit dit rapport eerst binnen iedere geïmputeerde dataset voltrokken. Tussen de datasets bestaat wel variatie als gevolg van de stochastische aard van het imputatieproces. De schattingen uit iedere geïmputeerde dataset zijn daarom samengevoegd om tot een puntschatting en onzekerheidsmarge te komen. Het samenvoegen is gedaan volgens de regels van Rubin (1987).
9.3 Berekening gecorrigeerde loonverschillen
De loonverschillen zijn geschat met behulp van een meervoudig quasi-Poisson regressiemodel. In dit model is het gemiddelde uurloon evenredig aan een divers aantal werknemers-, werkgevers- en baankenmerken. Dit evenredige verband wordt geborgd door het gebruik van een logaritmische linkfunctie tussen het gemiddelde uurloon en de opgenomen kenmerken; de exponent van de regressiecoëfficiënten geeft vervolgens de vermenigvuldigingsfactor tussen een kenmerk en het gemiddelde uurloon.
Om tot het ongecorrigeerde loonverschil te komen wordt een model geschat waarin het gemiddelde uurloon alleen wordt bepaald door een constante en door het kenmerk ‘geslacht’. De vermenigvuldigingsfactor van het kenmerk geslacht geeft dan het relatieve loonverschil tussen mannen en vrouwen. Om tot het gecorrigeerde loonverschil te komen wordt een model geschat waarin het gemiddelde uurloon niet alleen wordt bepaald door een constante en het geslacht van de persoon, maar ook door andere werknemers-, werkgevers- en baankenmerken. De vermenigvuldigingsfactor geeft dan het relatieve loonverschil tussen mannen en vrouwen indien zij verder dezelfde kenmerken zouden hebben.
De verklarende kenmerken in het model zijn vrijwel allemaal in categorieën opgedeeld. Zo omvat het kenmerk ‘geslacht’ de categorieën ‘man’ en ‘vrouw’ en omvat het kenmerk ‘arbeidsduur’ de categorieën ‘minder dan 12 uur per week’, ‘12 tot 20 uur per week’, ‘20 tot 25 uur per week’, ‘25 tot 30 uur per week’, ‘30 tot 35 uur per week’ en ’35 uur per week of meer’. Uitzonderingen zijn de kenmerken ‘loopbaanonderbrekingen in de afgelopen 15 jaar’ en ‘gemiddelde deeltijdfactor in de afgelopen 15 jaar’, welke op een continue schaal zijn gemeten. Het eerste kenmerk geeft aan hoeveel van de afgelopen 15 jaar iemand een uitkering ontvangen heeft of geen inkomen had en ook geen onderwijs volgde, met als minimale waarde 0 jaar en als maximale waarde 15 jaar. Het andere kenmerk geeft de gemiddelde deeltijdfactor gedurende de afgelopen 15 jaar aan, waarbij jaren in het bekostigd onderwijs niet zijn meegeteld, met als minimale waarde -1 (nooit voltijd) en als maximale waarde 0 (volledig voltijd). Beide continue variabelen hebben 0 als referentieniveau.
In de tabellenset die bij deze monitor hoort worden de uitkomsten van de regressieanalyses weergegeven door middel van de regressiecoëfficiënten. Deze regressiecoëfficiënten geven het geschatte verschil in de logaritme van het gemiddelde uurloon tussen een bepaalde categorie van een kenmerk en de bijbehorende referentiecategorie, wanneer alle andere factoren in het model constant worden gehouden. Het gaat om de ruwe regressiecoëfficiënten β, dus niet de exponent eβ ervan (de vermenigvuldigingscoëfficiënt). Neem de resultaten van leeftijd binnen de overheid. De referentiecategorie omvat 35- tot 40-jarigen, waarmee andere leeftijdscategorieën kunnen worden vergeleken. De regressiecoëfficiënt β van 40- tot 45-jarigen bedraagt 0,067, wat betekent dat de logaritme van het gemiddelde uurloon van 40- tot 45-jarigen 0,067 hoger ligt dan de logaritme van het gemiddelde uurloon van 35- tot 40-jarigen, indien de overige kenmerken van beide groepen gelijk zouden zijn. Om het geschatte loonverschil tussen categorieën als percentage uit te drukken, volstaat het de exponent van de regressiecoëfficiënt β te nemen en deze te percenteren: (eβ – 1) ∙ 100%. Hieruit volgt dat 40- tot 45-jarigen een uurloon hebben dat gemiddeld (e0,067 – 1) ∙ 100% = 6,9 procent hoger is dan het uurloon van 35- tot 40-jarigen. Op dezelfde manier wordt het percentuele loonverschil van vrouwen ten opzichte van mannen uitgerekend.
Naast de regressiecoëfficiënten worden ook de standaardfouten (Engels: standard errors oftewel SE) gepubliceerd. Deze geven de onzekerheid van de schattingen aan. Deze onzekerheid is ontstaan als gevolg van de meervoudige imputatie, waarbij ontbrekende waarden op enkele variabelen zijn ingevuld met een regressiemodel. De onzekerheid is niet het gevolg van steekproefvariatie, aangezien de onderzoekspopulatie integraal is waargenomen. De onzekerheid van de schattingen kan ook worden uitgedrukt met behulp van een betrouwbaarheidsinterval. De grenzen van het 95%-betrouwbaarheidsinterval van regressiecoëfficiënt β liggen bijvoorbeeld op grofweg β ± (1,96 ∙ SE). De betekenis hiervan is dat we bij herhaling van de procedure, waarbij steeds nieuwe geïmputeerde gegevensbestanden worden samengesteld, mogen verwachten dat 95 procent van de aldus berekende betrouwbaarheidsintervallen de werkelijke waarde van de geschatte coëfficiënt bevat.
Coëfficiënten die met een betrouwbaarheid van 95 procent (oftewel een tweezijdige p-waarde kleiner dan 0,05) van de referentiegroep verschillen, zijn in de tabellen gemarkeerd met een asterisk (*). Coëfficiënten die verschillen met een betrouwbaarheid van 99 procent (p < 0,01) zijn in de tabellen gemarkeerd met twee asterisken (**). Coëfficiënten die significant verschillen van de referentiegroep met een betrouwbaarheid van 99,9 procent (p < 0,001) zijn in de tabellen gemarkeerd met drie asterisken (***).
Er zijn twee regressiemodellen opgesteld, waarin een breed scala aan kenmerken is opgenomen. Met het eerste model worden verschillen in uurloon bij de overheid verklaard. Het tweede model verklaart verschillen in uurloon in het bedrijfsleven. In de aparte tabellenset op de website van het CBS is een overzicht te vinden van de verklarende variabelen die in de twee modellen zijn opgenomen en de bijbehorende uitkomsten. Omdat het gaat om twee verschillende modellen waar verschillende verklarende variabelen in zijn opgenomen, moeten de uitkomsten uit beide modellen los van elkaar beoordeeld worden. Zo kan het effect van leeftijd in het model voor de overheid niet vergeleken worden met het effect van leeftijd in het model voor het bedrijfsleven.
9.4 Karlson-Holm-Breen-decompositie
In de hoofdanalyse is het loonverschil tussen mannen en vrouwen gecorrigeerd voor een aantal achtergrondkenmerken. Om de individuele invloed van ieder kernmerk op het loonverschil te berekenen, is tevens een decompositie-analyse uitgevoerd. De mogelijkheden voor een decompositieanalyse zijn beperkt, doordat de hoofdanalyse gebaseerd is op een non-lineair model. Standaardtechnieken als de Kitagawa-Oaxaca-Blinder-methode zijn daarop niet van toepassing (Jann, 2018). Daarom is gekozen voor de Karlson-Holm-Breen-methode (Karlson et al., 2012).
De Karlson-Holm-Breen-methode schat de mate waarin ieder kenmerk het loonverschil tussen mannen en vrouwen kan verklaren. Anders dan sommige andere methoden wordt er dus geen ‘onverklaarde invloed’ geschat. Daarmee staat deze specifieke methode gelijk aan een mediatiemethode. De verklarende invloed van een kenmerk neemt toe naarmate het kenmerk (a) ongelijker tussen mannen en vrouwen is verdeeld en (b) een sterker effect heeft op het uurloon. Kenmerken kunnen zowel een bijdrage leveren aan het loonverschil (oftewel een “mediatie-effect”) als een dempende werking daarop uitoefenen (“suppressie-effect”).
Om de invloed van ieder kenmerk te bepalen worden twee regressiemodellen geschat. Het ene model is gelijk aan het regressiemodel in de hoofdanalyse, waarbij het uurloon de afhankelijke variabele is en geslacht en alle achtergrondkenmerken de onafhankelijke variabelen. Het andere model is een zogeheten ‘nulmodel’ dat als vergelijking dient. Bij een lineaire analyse zou het nulmodel simpelweg een regressie van uurloon op geslacht zijn, maar bij een non-lineaire analyse hangt de schaal van de coëfficiënten af van de modelvariabelen, waardoor een rechtstreekse vergelijking vertekend wordt. In plaats daarvan bestaat het nulmodel hier uit een regressie van het uurloon op geslacht alsmede op de residuen van lineaire regressies van de achtergrondkenmerken op geslacht (“x-residualisering”).
De twee regressiemodellen zijn geschat middels Poisson-regressies met standaardfouten gecorrigeerd voor mogelijke heteroscedasticiteit. Dit resulteert in de invloed van ieder kenmerk op de coëfficiënt van geslacht. Met andere woorden, de correctie van het loonverschil wordt toegekend aan de opgenomen variabelen. Wel is het zo dat de Poisson-coëfficiënten en daarmee de invloed van alle kenmerken op een logaritmische schaal worden uitgedrukt. Om de interpretatie te vergemakkelijken, zijn de schattingen terugvertaald naar het aanvankelijke loonverschil (in procentpunten).
Voor deze analyse is gebruik gemaakt van softwarepakket Stata, editie MP, versie 16.1. De cijfers zijn berekend met het pakket khb, versie 2.7 (Kohler, Karlson en Holm, 2011).
9.5 Kwantielregressie
Waar de andere analyses schattingen geven op het (voorwaardelijke) gemiddelde, geven kwantielregressies schattingen over de gehele verdeling. In plaats van dat het gemiddelde uurloon van mannen met het gemiddelde uurloon van vrouwen wordt vergeleken, kan iedere rang uit de uurloonverdeling van mannen met dezelfde rang uit de uurloonverdeling van vrouwen worden vergeleken. Een veel gebruikte rang is de mediaan oftewel het doorsneeloon (Q50). Andere interessante rangen zijn het tiende percentiel (Q10), waarmee de minst verdienende mannen met de minst verdienende vrouwen worden vergeleken, of juist het negentigste percentiel (Q90), waarmee hetzelfde wordt gedaan voor de meest verdienende mannen en vrouwen. Op die manier kan worden onderzocht of loonverschillen tussen mannen en vrouwen over de volle breedte, in de lagere loonsegmenten of juist in de hogere loonsegmenten ontstaan.
Zodoende is in dit rapport gebruik gemaakt van conditionele kwantielregressie. Naast het inzicht in loonsegmenten zijn kwantielregressies beter bestand tegen uitschieters in de uurloonverdeling. Een klein aantal personen met een zeer hoog of zeer laag uurloon kan merkbare invloed uitoefenen op het gemiddelde uurloon en daarmee op alle analyses die aan gemiddelden rekenen. Bij een kwantielregressie hebben deze per definitie enkel invloed op de allerlaagste en allerhoogste loonsegmenten.
Daarnaast bieden kwantielregressies een technisch voordeel. De andere analyses in deze publicatie zijn gebaseerd op non-lineaire modellen met een logaritmische functie. Kwantielregressies behoeven geen non-lineaire functie, omdat zij de eigenschap bezitten van equivariantie jegens monotone datatransformaties (Koenker, 2005). Zodoende zijn de uurlonen logaritmisch getransformeerd en is daarna gebruik gemaakt van een standaard schattingstechniek.
Voor deze analyse is gebruik gemaakt van R, editie 4.2.3. De cijfers zijn berekend met de functie conquer.process uit het pakket conquer, versie 1.3.3 (He et al., 2023).