Auteur: Rik van der Vliet, Jeanine van Wissen-Floris, Lucille Mattijssen, Jeroen Borghuis, Femke Bosman
Monitor Loonverschillen mannen en vrouwen, 2020

9. Methoden

9.1 Onderzoeksmethode

Samenstellen onderzoeksbestand

Voor de bepaling van het aantal banen en de berekening van uurlonen en loonverschillen is een onderzoeksbestand samengesteld met als basis de baaninformatie uit het SSB en jaargangen van de EBB. De baaninformatie is gebaseerd op de loonaangiftes die de Belastingdienst ontvangt van werkgevers. Het onderzoeksbestand bevat alleen de banen van werknemers uit de loonaangifte die gekoppeld konden worden aan een persoon uit de EBB uit 2019, 2020 of de eerste twee kwartalen van 2021.
Het onderzoeksbestand bestaat uit gegevens over de banen, de werknemers zelf en de bedrijven waar zij werken. Deze gegevens zijn afkomstig uit verschillende bronnen. Demografische kenmerken, zoals geslacht, leeftijd, migratieachtergrond en inkomensgegevens van de partner, zijn afkomstig uit het SSB. Opleidingsniveau, beroepsniveau en handicap of chronische ziekte zijn afkomstig uit de EBB. Informatie over de winstgevendheid van ondernemingen (waar personen werken), is met behulp van het Algemeen Bedrijven Register (ABR) toegevoegd uit de Statistiek Financiën van niet-financiële ondernemingen (NFO). Deze informatie is op ondernemingsniveau gekoppeld aan de baangegevens. In paragraaf 8.2 worden de bronbestanden kort beschreven.

Ophogen steekproef

Om uitspraken te kunnen doen over alle banen bij de overheid en het bedrijfsleven in Nederland, zijn de banen uit deze ‘gestapelde steekproef’ opgehoogd naar de totale populatie van 1 miljoen banen van werknemers bij de overheid en 7 miljoen banen in het bedrijfsleven. In de tabellenset die bij deze monitor hoort (op de website van het CBS) zijn enkele kerncijfers behorend bij de onderzoekspopulaties (banen) voor de peilmomenten 2008 tot en met 2020 samengevat in tabelvorm.
De banen van werknemers zijn gekoppeld aan twee jaren en twee kwartalen EBB (2019-2021 II). Omdat de EBB een steekproefonderzoek is onder personen, moet er worden opgehoogd naar alle banen van werknemers op 25 september 2020. De weging is in twee stappen gedaan.
De eerste stap bestond uit het ophogen van drie jaar EBB naar het aantal personen van 15 jaar en ouder in Nederland in 2020. Het EBB-gewicht werd hierbij gecorrigeerd voor het feit dat de steekproef van de EBB-jaren niet elk jaar even groot was. In deze stap werd herwogen naar de volgende kruisingen: geslacht × burgerlijke staat; geslacht × leeftijdscategorie; geslacht × landsdeel; en herkomst × geboorteland (Nederland of buitenland).
De tweede stap bestond uit het wegen naar het aantal banen op 25 september 2020. Hierbij werden de gewichten uit de vorige stap eerst herschaald naar het totale aantal banen op 25 september 2020 volgens de loonaangifte. In deze stap werd er herwogen naar de volgende variabelen of kruisingen van variabelen: geslacht × leeftijdscategorie; bedrijfssector (SBI); geslacht × dienstverband (vast: voltijd, deeltijd, of flexibel); geslacht × grootteklasse (1-9, 10-49, 50-249 of >250 werkzame personen); herkomst × dienstverband; type baan (enige baan van werknemer, hoofdbaan naast een andere bijbaan, bijbaan naast een hoofdbaan).
In de uitvoering van de regressieanalyses en het berekenen van het ongecorrigeerde loonverschil werd gebruik gemaakt van ophooggewichten. De ophooggewichten zorgen ervoor dat de steekproef een goede afspiegeling vormt van de populatie banen op het peilmoment.

9.2 Berekening gecorrigeerde loonverschillen

Het gecorrigeerde loonverschil is het verschil in (meetkundig) gemiddeld uurloon tussen categorieën werknemers, dat overblijft na correctie voor de achtergrondkenmerken. Feitelijk wordt bekeken hoe groot het verschil in uurloon is tussen mannen en vrouwen, als zij op alle andere achtergrondkenmerken in het model gelijk zijn. Dit noemen we het ‘corrigeren voor achtergrondkenmerken’ en resulteert in een gecorrigeerd loonverschil. Dit gecorrigeerde loonverschil is bepaald met behulp van een meervoudige regressieanalyse. Met deze techniek wordt nagegaan in hoeverre de afhankelijke variabele (in dit geval de natuurlijke logaritme van uurloon) kan worden verklaard met behulp van verschillende onafhankelijke (of verklarende) variabelen.
Een van de aannamen bij een regressieanalyse is dat de storingstermen normaal verdeeld zijn. Het uurloon is aan de onderkant begrensd, maar aan de bovenkant van de uurloonverdeling kunnen grote uitschieters voorkomen, wat er voor kan zorgen dat de storingstermen niet normaal verdeeld zijn. In de regressieanalyse is ervoor gekozen om in plaats van het uurloon de natuurlijke logaritme van het uurloon te gebruiken als afhankelijke variabele. Dit is minder scheef verdeeld (zie figuur 9.2.1). De negatieve waarden van de logaritme van het uurloon worden veroorzaakt door uurlonen tussen de 0 en 1 euro (45 waarnemingen bij de overheid en 95 bij het bedrijfsleven). Het gecorrigeerde beloningsverschil is berekend op basis van een meetkundig loongemiddelde, het ongecorrigeerde loonverschil op basis van een rekenkundig gemiddelde. Hierdoor kunnen de waarden van deze twee indicatoren niet direct met elkaar vergeleken worden.

Figuur 9.2.1 Verdeling van de natuurlijke logaritme van het uurloon, september 2020
Log-waardeOverheid (%)Bedrijfsleven (%)
-6,300
-6,200
-6,100
-600
-5,900
-5,800
-5,700
-5,600
-5,500
-5,400
-5,300
-5,200
-5,100
-500
-4,900
-4,800
-4,700
-4,600
-4,500
-4,400
-4,300
-4,200
-4,100
-400
-3,900
-3,800
-3,700
-3,600
-3,500
-3,400
-3,300
-3,200
-3,100
-300
-2,900
-2,800
-2,700
-2,600
-2,500
-2,400
-2,300
-2,200
-2,100
-200
-1,900
-1,800
-1,700
-1,600
-1,500
-1,400
-1,300
-1,200
-1,100
-100
-0,900
-0,800
-0,700
-0,600
-0,500
-0,400
-0,300
-0,200
-0,100
000
0,100
0,200
0,300,1
0,400
0,500,1
0,60,10
0,70,10,1
0,80,10,1
0,90,20,1
10,10,1
1,100,3
1,200,2
1,30,10,2
1,40,20,4
1,50,10,6
1,600,8
1,70,10,9
1,80,11,1
1,901,2
20,11,1
2,10,10,9
2,20,11
2,30,21,1
2,40,32,9
2,50,96,2
2,61,66,8
2,71,87,6
2,83,17,6
2,95,27,7
398,4
3,19,98,7
3,29,57,7
3,310,76,2
3,414,14,9
3,59,83,8
3,68,82,9
3,76,22,2
3,82,71,6
3,91,81,2
410,8
4,10,60,6
4,20,30,5
4,30,20,3
4,40,20,2
4,50,10,1
4,60,10,1
4,700,1
4,800,1
4,900
500
5,100
5,200
5,300
5,400
5,500
5,600
5,700
5,800
5,900
600
6,100
6,200
6,300
6,400
6,500
6,600
6,700
6,800
6,900
700
7,100
7,200
7,300

De beloningsfunctie van het geschatte model ziet er als volgt uit:

\[ \ln(Y) = \alpha + \sum_j \beta_j X_{ij} + \epsilon_i \] 

waarbij:
ln⁡(Y) de afhankelijke variabele: de natuurlijke logaritme van het uurloon Y,
ln(uurloon)
α het intercept (constante)
βj de regressiecoëfficiënt, behorend bij variabele Xj
Xij de score van een individu i op de variabele Xj 
εi de storingsterm, ofwel het residu, behorend bij individu i

In dit model geeft de regressiecoëfficiënt βj de verandering aan van de afhankelijke variabele ln(uurloon) als gevolg van een +1 toename van de verklarende variabelen Xj. Het intercept geeft het gemiddelde ln(uurloon) van iemand die op alle variabelen in het model 0 scoort (en dus in het geval van categorische variabelen in de referentiecategorie valt). De referentiecategorieën zijn hetzelfde gekozen als in eerdere edities van dit onderzoek. De storingsterm εi is het verschil tussen de modelvoorspelling van het ln(uurloon) van individu i, en het werkelijke ln(uurloon) van individu i.

Het regressiemodel bevat vrijwel uitsluitend categorische variabelen, met als enige uitzondering de variabele ‘percentage vrouwelijke collega’s’. Deze variabele is gecentreerd op 50 procent vrouwelijke collega’s. De waarde 0 staat hierbij dus voor een gelijke verdeling tussen mannelijke en vrouwelijke collega’s. De categorische variabelen zijn als dummyvariabelen in het model opgenomen. Een dummyvariabele is een variabele die de waarde 0 of de waarde 1 kan aannemen. Zo heeft de dummyvariabele van de sector onderwijs twee waarden: niet werkzaam in het onderwijs (0) en wel werkzaam in het onderwijs (1). Per dummyvariabele wordt een regressiecoëfficiënt geschat die de afwijking weergeeft van het uurloon ten opzichte van de referentiecategorie, wanneer de overige variabelen gelijk blijven.

De reden voor het gebruik van dummyvariabelen is dat de meeste variabelen geen continue verdeling hebben. Enkele variabelen die wel een continu verloop kennen, bijvoorbeeld leeftijd, zijn ingedeeld in categorieën die niet even groot zijn. Er is gekozen om ook deze variabelen als dummy's in het regressiemodel op te nemen om de interpretatie van de resultaten te vergemakkelijken en tegelijkertijd recht te doen aan de complexe, niet-lineaire samenhang tussen leeftijd en beloning.

In de tabellenset die bij deze monitor hoort (op de website van het CBS) worden de uitkomsten van de regressieanalyses weergeven door middel van de (ongestandaardiseerde) regressiecoëfficiënten. Regressiecoëfficiënt βj geeft de geschatte verandering in de afhankelijke variabele ln(uurloon) aan voor iedere +1 toename op verklarende variabele Xj, wanneer alle andere factoren in het model constant worden gehouden. Neem bijvoorbeeld de resultaten van opleidingsniveau binnen de overheid. Opleidingsniveau Mbo is de referentiecategorie waarmee andere opleidingsniveaus zijn vergeleken. De regressiecoëfficiënt van Hbo is positief (0,180), wat betekent dat banen van personen die een 1 scoren op de variabele ‘Hbo’ (en dus Hbo als hoogste opleiding hebben afgerond) een ln(uurloon) hebben dat gemiddeld 0,180 hoger is dan het ln(uurloon) van Mbo’ers, wanneer de banen op alle andere kenmerken gelijk zijn. Daarnaast is te zien dat de regressiecoëfficiënt van ‘Wo’ (0,311) groter is dan de regressiecoëfficiënt van Hbo. Dat betekent dat in de steekproef binnen de overheid het verschil in beloning tussen Mbo’ers en Wo’ers groter was dan het verschil tussen Mbo’ers en Hbo’ers. Om het geschatte loonverschil in euro’s tussen een categorie j en de bijbehorende referentiecategorie uit te drukken in een percentage, volstaat het de exponent van βj te nemen en deze te percenteren: (eβj −1)  ∙100%. Hieruit volgt dat Hbo’ers een uurloon hebben dat gemiddeld (e0,180 −1)  ∙100% = 19,7 procent hoger is dat het uurloon van Mbo’ers. Het voorspelde uurloon van Hbo’ers bij de overheid die 0 scoren op alle andere variabelen in het model kan berekend worden door het exponent te nemen van de constante plus de regressiecoëfficiënt van Hbo: (e2,788+0,180) = €18,45.

Naast de regressiecoëfficiënten worden ook de standaardfouten (SE) gepubliceerd. Hiermee is het mogelijk om een betrouwbaarheidsinterval bij de loonverschillen te berekenen. De grenzen voor het 95% betrouwbaarheidsinterval van regressiecoëfficiënt βj zijn βj ± (1,96 ∙SE). De betekenis is dat we bij herhaling van de procedure, met steeds nieuwe (aselecte) steekproeven uit dezelfde populatie, mogen verwachten dat 95% van de zo berekende betrouwbaarheidsintervallen de werkelijke waarde van de geschatte parameter zullen bevatten.

Coëfficiënten die significant verschillen van de referentiegroep met een betrouwbaarheid van 95 procent zijn in de tabellen gemarkeerd met een asterisk (*). Coëfficiënten die significant verschillen van de referentiegroep met een betrouwbaarheid van 99 procent (p-waarde < 0,01) zijn in de tabellen gemarkeerd met twee asterisken (**). Coëfficiënten die significant verschillen van de referentiegroep met een betrouwbaarheid van 99,9 procent (p-waarde < 0,001) zijn in de tabellen gemarkeerd met drie asterisken (***). Voor deze regressiecoëfficiënten is bewijs dat de coëfficiënt afwijkt van 0 in de populatie.

Een maat die iets zegt over de verklaringskracht van het model is de proportie verklaarde variantie R2. Deze maat geeft aan welk deel van de verschillen in uurlonen kan worden verklaard door de achtergrondkenmerken in de beloningsfunctie. Een lage R2 houdt in dat niet alle variabelen die van invloed zijn op de hoogte van het uurloon, in het model zijn opgenomen.

9.2.2 Verklaarde variantie en interpretatiekracht
R2Verklaarde variantieInterpretatiekracht model
<0,1< 10%Zeer zwak
0,1 - 0,2510 - 25%Zwak
0,25 - 0,525 - 50%Matig
0,5 - 0,7550 - 75%Sterk
0,75 - 0,975 - 90%Zeer sterk
> 0,9> 90%Uitzonderlijk sterk

Er zijn twee regressiemodellen opgesteld, waarin een breed scala aan achtergrondfactoren is opgenomen. Met het eerste model worden verschillen in uurloon bij de overheid verklaard. Het tweede model verklaart verschillen in uurloon in het bedrijfsleven. In de aparte tabellenset op de website van het CBS is een overzicht te vinden van de verklarende variabelen die in de twee modellen zijn opgenomen en de bijbehorende uitkomsten. Omdat het gaat om twee verschillende modellen waar verschillende verklarende variabelen in zijn opgenomen, moeten de uitkomsten uit beide modellen los van elkaar beoordeeld worden. Zo kan het effect van leeftijd in het model voor de overheid niet vergeleken worden met het effect van leeftijd in het model voor het bedrijfsleven.

9.3 Kitagawa-Oaxaca-Blinder decompositie methode

Naast het bestaande regressiemodel, dat zorgt voor longitudinaal vergelijkbare cijfers over ‘gecorrigeerde loonverschillen’, is tevens de Kitagawa-Oaxaca-Blinder methode uitgevoerd. De Kitagawa-Oaxaca-Blinder decompositie analyse is een variant van de meervoudige regressiemethode. Deze methode wordt doorgaans gebruikt om een verschil in gemiddelde uitkomsten tussen twee groepen te bekijken. Dit wordt gedaan door middel van een aparte lineaire regressieanalyse per groep. Deze methode is geschikt om het verschil in het gemiddelde uurloon tussen mannen en vrouwen nader te onderzoeken (Konings, 2005).

Met de Kitagawa-Oaxaca-Blinder methode kunnen loonverschillen tussen mannen en vrouwen uitgesplitst worden in een “verklaarbaar” deel en een residu of “onverklaarbaar” deel (Jann, 2008). Het verklaarbare deel geeft weer welk gedeelte van het loonverschil kan worden toegeschreven aan verschillen in objectieve factoren, zoals onderwijs of werkervaring, tussen mannen en vrouwen. Daarentegen weerspiegelt het onverklaarbare deel het gedeelte van de loonverschillen tussen mannen en vrouwen dat overblijft na correctie voor de verschillen in de achtergrondvariabelen die worden meegenomen in het model. De Kitagawa-Oaxaca-Blinder decompositie analyse maakt dit onderscheid op het niveau van achtergrondvariabelen. Dit is mogelijk omdat er voor iedere groep een aparte vergelijking geschat wordt, en daarom kan er bijvoorbeeld bekeken worden of een man met een extra jaar ervaring hoger beloond wordt dan een vrouw met een extra jaar ervaring.

Bij toepassing van de Kitagawa-Oaxaca-Blinder decompositie wordt voor ieder geslacht de volgende loonvergelijking geschat:

\[ \ln(Y_i) = \beta_i X_i + \epsilon_i \]

Waarbij: 
ln⁡(Yi) de afhankelijke variabele (de natuurlijke logaritme van het uurloon Y,
ln(uurloon)) voor elke groep i: mannen (m) en vrouwen (v).
βi vector van de te schatten regressiecoëfficiënten, behorend bij variabele Xj
Xi vector van de factoren die bijdragen aan het verklaarde deel zoals onderwijs en
ervaring
εi de storingsterm, ofwel het residu

Het gemiddelde loon voor elke groep i kan dan weergegeven worden door:

\[ \ln({\overline{Y_m}}) = \beta_m\overline{X_m} + \epsilon_m \text{ en } \ln({\overline{Y_\nu}}) = \beta_\nu\overline{X_\nu} + \epsilon_\nu \]

Het verschil tussen de gemiddelden van deze twee regressies geeft het loonverschil weer:

\[ \ln({\overline{Y_m}}) - \ln({\overline{Y_\nu}}) = \beta_m\overline{X_m} - \beta_\nu\overline{X_\nu} \]

Het loonverschil tussen beide geslachten wordt vervolgens uitgesplitst naar het verklaarbare en het onverklaarbare deel:

\[ \ln({\overline{Y_m}}) - \ln({\overline{Y_\nu}}) = \beta_m\left( \overline{X_m} - \overline{X_\nu} \right) + \overline{X_\nu} \left( \beta_m - \beta_\nu \right) \]

$$\beta_m\left( \overline{X_m} - \overline{X_\nu} \right)$$

is dan het effect op het uurloon ten gevolge van verschillen in de gemiddelde kenmerken tussen mannen en vrouwen, dus het verklaarbare deel. De term

$$\overline{X_\nu} \left( \beta_m - \beta_\nu \right)$$

weerspiegelt het onverklaarbare deel of residu.

9.4 Kwantielregressie

Kwantielregressie is een techniek die op de verschillende delen in de populatieverdeling het effect van de afhankelijke variabele Y conditioneel op de onafhankelijke variabelen X kan schatten. Een kwantiel geeft aan in hoeveel stukken de verdeling verdeeld is. Een kwantiel van 0.90 komt overeen met de 90ste percentiel in de verdeling (ξ0.9).

Een multivariabel lineair kwantielregressie model ziet er als volgt uit:

\[ \xi_q(Y|X) = X\beta(q) + \epsilon \]

Hier is Y de afhankelijke variabele. X geeft de matrix van de onafhankelijke variabele(n) weer. β staat voor de parametervector. Hierbij geeft q aan welk deel van de verdeling wordt bekeken en 𝜀 is de storingsterm, een term die niet opgenomen is in X, maar wel de afhankelijke variabele Y beïnvloedt. Het effect van geslacht, in ons geval het effect van vrouw zijn (dummy variabele geslacht=1) is dan af te lezen aan β1(q).

Naast een duidelijk voordeel van het bieden van meer inzichten in hoe loonverschillen variëren naar loonsegment, is een belangrijk voordeel van een kwantielregressie boven gewone (OLS) regressie dat het een meer robuuste methode is. De verstorende invloed van uitschieters in uurloon zijn bij een kwantielregressie minder groot dan bij een gewone regressie. Uitschieters in uurloon hebben namelijk per definitie enkel invloed op de uitkomsten in de kleinste en de grootste uurloonsegmenten.

Voor deze analyse is het softwarepakket Stata gebruikt met het pakket qreg voor de uitvoering van de kwantielregressie en het pakket grqreg voor de visuele weergave van de coëfficiënten.