Haalbaarheidsstudie toeslagenaffaire-onderzoek

6. De smalle vergelijkingsgroep

Voor het samenstellen van de smalle vergelijkingsgroep (ook wel controlegroep genoemd) is met een statistische matchingstechniek gezocht naar niet-gedupeerden in de brede vergelijkingsgroep die op relevante achtergrondkenmerken lijken op de gedupeerden. De resultaten van de werkwijze die hierbij gevolgd is worden in dit hoofdstuk toegelicht. Vervolgens wordt de kwaliteit van de smalle vergelijkingsgroep geëvalueerd en tot slot wordt bekeken of de aantallen ook na dupering/selectie groot genoeg zijn om onderzoek te doen. 

6.1 Relevante achtergrondkenmerken bepalen voor matching

Om door middel van matching een geschikte smalle vergelijkingsgroep te creëren, is het van belang om de juiste achtergrondkenmerken mee te nemen. Hier zijn een aantal voorwaarden aan verbonden. Het is belangrijk om te kijken naar kenmerken die waarschijnlijk relevant zijn voorafgaand aan dupering/selectie. Het uiteindelijke doel is namelijk om conclusies te kunnen trekken over mogelijkheden voor toekomstig onderzoek naar mogelijke gevolgen van dupering op de geselecteerde uitkomstmaten. Om dit te bereiken moeten beide groepen vergelijkbaar zijn op kenmerken die - voor de gedupeerden - nog niet beïnvloed kunnen zijn door dupering. Daarom wordt gekeken naar kenmerken in het jaar voorafgaand aan dupering/selectie.36) Daarnaast moeten zoveel mogelijk potentieel relevante kenmerken in het onderzoek worden opgenomen. Zoals besproken in Hoofdstuk 3 (Paragraaf 3.3.2) kan het niet includeren van kenmerken die van invloed zijn op zowel de kans op dupering als op de uitkomstmaten leiden tot een minder geschikte smalle vergelijkingsgroep.

Van alle kenmerken zoals opgenomen in Bijlage 4 is in kaart gebracht of deze samenhangen met enerzijds de kans om gedupeerd te raken door de toeslagenaffaire en anderzijds met de geselecteerde uitkomstmaten voorafgaand aan dupering/selectie (bijvoorbeeld: de kans op baanbeëindiging of in de ziektewet te raken). Om een selectie te maken van de meest relevante kenmerken, die uiteindelijk worden gebruikt om de smalle vergelijkingsgroep samen te stellen, zijn op hoofdlijnen twee stappen genomen.

Stap 1 – bivariate analyses

Om de smalle vergelijkingsgroep samen te stellen is in een eerste stap bepaald welke van de in Bijlage 4 opgenomen kenmerken een relatie vertonen met het al dan niet gedupeerd raken en met de geselecteerde uitkomstmaten, gemeten voorafgaand aan dupering/selectie (bijvoorbeeld wanbetaler van de zorgverzekering). Dit is onderzocht met behulp van met bivariate regressieanalyses.

Hoewel voor alle geselecteerde uitkomstmaten is bekeken welke achtergrondkenmerken relevant zijn, worden - ter illustratie - alleen de resultaten voor de uitkomstmaat wanbetaler van de zorgverzekering in dit hoofdstuk gepresenteerd. De resultaten voor de overige geselecteerde uitkomstmaten worden weergegeven in Bijlage 7. In onderstaande tabellen staan voor de meest relevante37) kenmerken de percentages voor verschillende groepen (wel of niet gedupeerd, en wel of geen wanbetaler van de zorgverzekering) weergegeven.

Binnen de gedupeerdengroep is een uitsplitsing gemaakt die aangeeft of men al dan niet het stempel Opzet/Grove Schuld heeft gekregen van de Belastingdienst. Dit is gedaan om inzicht te krijgen in de kenmerken van deze specifieke groep ten opzichte van de totale (integraal beoordeelde) gedupeerdengroep. 
De kenmerken zijn onder te verdelen in twee domeinen: demografische kenmerken (Tabel 6.1.1 en Tabel 6.1.2) en sociaaleconomische kenmerken (Tabel 6.1.3 en Tabel 6.1.4). Voor deze analyses zijn alle dupering/selectiejaren samengenomen. De kenmerken zijn gemeten voor de aanvrager in het jaar voorafgaand aan dupering/selectie, tenzij anders vermeld in de naam van het achtergrondkenmerk in de tabellen (dan gaat het om het totale huishouden of bijvoorbeeld een periode van drie jaar voorafgaand aan dupering/selectie).  

In onderstaande tabellen zijn de resultaten opgenomen van de bivariate analyses. Hierdoor ligt de pseudo R2 lager dan wanneer er meerdere kenmerken opgenomen worden in het model (zie ook stap 2 verderop in dit hoofdstuk). Alle verschillen zoals weergegeven in de tabellen zijn statistisch significant.38)

6.1.1 Demografische kenmerken naar dupering (ja/nee) en naar
wanbetaler van de zorgverzekering (ja/nee) gebaseerd op bivariate
analyses1)2)
Gedupeerd toeslagenaffaireGedupeerd toeslagenaffaireGedupeerd toeslagenaffaireWanbetaler zorgverzekeringWanbetaler zorgverzekeringWanbetaler zorgverzekering
Ja (%)Nee (%)McFadden R2Ja (%)Nee (%)McFadden R2
Aantal4 450952 63015 610709 620
Herkomst0,090,06
In NL geboren en
beide ouders in NL geboren
34794879
In NL geboren en
1 ouder in buitenland geboren
6676
In NL geboren en
2 ouders in buitenland geboren
193143
Niet in NL geboren
en beide ouders in NL geboren
1111
Niet in NL geboren
en 1 ouder in buitenland geboren
1111
Niet in NL geboren
en 2 ouders in buitenland geboren
40112910
Herkomstland0,10,07
Nederland34794879
Europa (exclusief NL)5686
Turkije10232
Marokko7241
Suriname183132
Overig Buiten-Europa168148
Nederlandse Cariben101101
Huishoudtype0,050,04
Paar met kinderen52785279
Eenouderhuishouden45144013
Overig/Onbekend
huishouden
3888
Leeftijd bij geboorte 1e kind0,070,11
Tussen de 10 en 25 jaar51125411
Tussen de 25 en 35 jaar42684068
Tussen de 35 en 55 jaar721621
Geen juridisch kind/
Onbekend
0000
1) Gedupeerd toeslagenaffaire “Nee” betreft de brede vergelijkingsgroep.
2) Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor de uitkomstmaat wanbetaler uitsluitend berekend over de jaren 2011-2015.

Op basis van de McFadden R2  weergegeven in Tabel 6.1.1 - is te zien dat de demografische kenmerken herkomst en leeftijd bij de geboorte van het eerste kind het meest relevant zijn voor het voorspellen van dupering. Vooral Surinaamse aanvragers en aanvragers uit de Nederlandse Cariben zijn sterk oververtegenwoordigd in de groep gedupeerden. Het is ook bekend dat herkomst een rol heeft gespeeld in de toeslagenaffaire.39) Daarnaast zijn jongere moeders (moeder geworden tussen de 10 en 25 jaar) sterk oververtegenwoordigd in de gedupeerdengroep. 

Voor het voorspellen van de kans op een wanbetaler van de zorgverzekering in het huishouden blijken ook - op basis van de McFadden R2 - leeftijd bij de geboorte van het eerste kind en herkomst het meest relevant. Jongere moeders (moeder geworden tussen de 10 en 25 jaar) zijn sterk oververtegenwoordigd in de groep die geregistreerd staat als wanbetaler van de zorgverzekering. Dit geldt ook voor personen met een niet-Nederlandse herkomst. Alle in de tabellen gepresenteerde resultaten zijn ook te bekijken in dit Excel-bestand.

6.1.2 Demografische kenmerken van gedupeerden naar stempel Opzet/Grove Schuld (ja/nee)
Opzet/Grove SchuldOpzet/Grove Schuld
Ja (%)Nee (%)
Aantal1 2403 210
Herkomst
In NL geboren en
beide ouders in NL geboren
2737
In NL geboren en
1 ouder in buitenland geboren
56
In NL geboren en
2 ouders in buitenland geboren
1919
Niet in NL geboren
en beide ouders in NL geboren
01
Niet in NL geboren
en 1 ouder in buitenland geboren
11
Niet in NL geboren
en 2 ouders in buitenland geboren
4837
Herkomstland
Nederland2737
Europa (exclusief NL)46
Turkije512
Marokko77
Suriname2217
Overig Buiten-Europa2213
Nederlandse Cariben148
Huishoudtype
Paar met kinderen3658
Eenouderhuishouden6239
Overig/Onbekend
huishouden
23
Leeftijd bij geboorte 1e kind
Tussen de 10 en 25 jaar6445
Tussen de 25 en 35 jaar3346
Tussen de 35 en 55 jaar38
Geen juridisch kind/
Onbekend
00

Gedupeerden die het stempel Opzet/Grove Schuld hebben gekregen (Zie Tabel 6.1.2) hebben nog vaker een niet-Nederlandse herkomst dan de totale gedupeerdengroep. Ook is de groep die het stempel Opzet/Grove Schuld heeft gekregen nog vaker jong moeder geworden en wonen zij vaker in een eenouderhuishouden vergeleken met de totale (integraal beoordeelde) gedupeerdengroep.

6.1.3 Sociaaleconomische kenmerken naar dupering (ja/nee) en naar
wanbetaler van de zorgverzekering (ja/nee) gebaseerd op bivariate
analyses1)
Gedupeerd toeslagenaffaireGedupeerd toeslagenaffaireGedupeerd toeslagenaffaireWanbetaler zorgverzekeringWanbetaler zorgverzekeringWanbetaler zorgverzekering
Ja (%)Nee (%)McFadden R2 Ja (%)Nee (%) McFadden R2
Aantal4 450952 63015 610709 620
Aantal jaar KOT
ontvangen
00,03
121284528
226242620
320171415
41512812
5109412
6810313
Arbeidsverleden0,060,13
Voortdurend werkzaam38762777
Gedeeltelijk werkzaam,
meer dan 3 jaar
15111611
Gedeeltelijk werkzaam,
tussen 2 en 3 jaar
135155
Gedeeltelijk werkzaam,
tussen 1 en 2 jaar
113132
Gedeeltelijk werkzaam,
tussen 1 maand en 1 jaar
112132
Niet werkzaam6272
Niet 48 maanden in NL6282
Baan0,040,09
Ja70946394
Nee306376
Onbekend0000
Baan en niet in de
ziektewet
0,040,09
Ja70946294
Nee306386
Onbekend0000
Eigen woning0,060,15
Ja36782179
Nee64227921
Hoogste opleiding0,050,11
Laag267357
Midden38254226
Hoog1238640
Onbekend23301726
Huishoudinkomen0,070,14
Kwartiel 163246820
Kwartiel 221251724
Kwartiel 3825726
Kwartiel 4425228
Onbekend4262
Vermogen van het
huishouden
0,030,06
Minder dan 0 euro50367343
Tot 50 000 euro40282026
50 000 euro en meer935531
Onbekend1121
Verdacht van een
misdrijf
0,020,05
Ja195255
Nee81957595
Wanbetaler
zorgverzekering2)
0,04
Ja222
Nee7898
1) Wanbetaler en verdachte zijn als achtergrondkenmerk bepaald over alle leden van het huishouden (zie bijlage 6). Echter, in het model op basis waarvan de McFadden R2 is berekend, zijn wanbetaler en verdachte als afhankelijke variabele gebruikt over alleen de aanvrager en/of eventuele stabiele partner (dus niet de overige huishoudleden). Dit is gedaan om het model in lijn te houden met de manier waarop verdachte van een misdrijf en wanbetaler van de zorgverzekering als uitkomstmaat worden geaggregeerd (zie bijlage 6). Dit wordt voor de uitkomstmaten (na dupering/selectie) namelijk alleen gedaan op basis van aanvragers en (stabiele) partners (zie voor toelichting paragraaf 4.2.).
2) Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor het achtergrondkenmerk wanbetaler zorgverzekering uitsluitend berekend over de jaren 2011-2015.

Op basis van de McFadden R2 weergegeven in Tabel 6.1.3 is te zien dat - van de sociaaleconomische kenmerken - huishoudinkomen, eigen woning en recent arbeidsverleden het meest relevant zijn voor het voorspellen van dupering. Gedupeerden hebben vaker een laag inkomen (1e kwartiel), minder vaak een eigen woning en zijn in de voorgaande vier jaar minder vaak voortdurend werkzaam geweest dan niet-gedupeerden.

Voor het voorspellen van de kans op een wanbetaler van de zorgverzekering in het huishouden blijken - op basis van de McFadden R2 in Tabel 6.1.3 - eigen woning, recent arbeidsverleden, huishoudinkomen, en hoogste opleidingsniveau het meest relevant. Personen met een laag inkomen (1e kwartiel) zijn sterk oververtegenwoordigd in de groep die geregistreerd staat als wanbetaler van de zorgverzekering. Dit geldt ook voor personen met een laag opleidingsniveau, personen zonder eigen woning, en personen die niet de volledige voorgaande vier jaren werkzaam zijn geweest.

6.1.4 Sociaaleconomische kenmerken van gedupeerden naar stempel
Opzet/Grove Schuld (ja/nee)
Opzet/Grove SchuldOpzet/Grove Schuld
Ja (%)Nee (%)
Aantal1 2403 210
Aantal jaar KOT
ontvangen
12121
22526
32220
41615
51110
659
Arbeidsverleden
Voortdurend werkzaam2244
Gedeeltelijk werkzaam,
meer dan 3 jaar
1415
Gedeeltelijk werkzaam,
tussen 2 en 3 jaar
1512
Gedeeltelijk werkzaam,
tussen 1 en 2 jaar
1510
Gedeeltelijk werkzaam,
tussen 1 maand en 1 jaar
1610
Niet werkzaam114
Niet 48 maanden in NL75
Baan
Ja5477
Nee4623
Onbekend00
Baan en niet in de
ziektewet
Ja5376
Nee4724
Onbekend00
Eigen woning
Ja1843
Nee8257
Hoogste opleiding
Laag3622
Midden4137
Hoog515
Onbekend1825
Huishoudinkomen
Kwartiel 17857
Kwartiel 21323
Kwartiel 3311
Kwartiel 415
Onbekend54
Vermogen van het
huishouden
Minder dan 0 euro5547
Tot 50 000 euro4040
50 000 euro en meer311
Onbekend11
Verdacht van een
misdrijf
Ja2417
Nee7683
Wanbetaler
zorgverzekering1)
Ja3019
Nee7081
1) Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor het achtergrondkenmerk wanbetaler zorgverzekering uitsluitend berekend over de jaren 2011-2015.

Wanneer we kijken naar gedupeerden die het stempel Opzet/Grove Schuld hebben gekregen (Zie Tabel 6.1.4), dan is bijvoorbeeld te zien dat deze specifieke groep nog vaker een lager inkomen heeft (1e kwartiel), en nog minder vaak voortdurend werkzaam is geweest dan de totale gedupeerdengroep. Ook hebben zij nog minder vaak een eigen woning.

Samenvattend blijkt dat alle in bovenstaande tabellen gerapporteerde kenmerken in meer of mindere mate van belang zijn bij het voorspellen van de kans op dupering en/of de kans op een wanbetaler van de zorgverzekering. Voor het voorspellen van de kans op dupering blijken op basis van bivariate analyses de volgende kenmerken het meest van belang: herkomst, leeftijd bij de geboorte van het eerste kind, recent arbeidsverleden, huishoudinkomen en eigen woning. Voor de kans op een wanbetaler van de zorgverzekering in het huishouden blijken woningbezit, recent arbeidsverleden, huishoudinkomen, hoogste opleidingsniveau en leeftijd bij de geboorte van het eerste kind het meest relevant. 

Stap 2 – multivariate analyses

In de tabellen 6.1.1 en 6.1.3 en in Bijlage 7 is voor de meest relevante kenmerken40) weergegeven op welke manier en in welke mate deze samenhangen met de kans op dupering en met de geselecteerde uitkomstmaten: inkomen, werkuren, vermogen van het huishouden, wanbetaler van de zorgverzekering, verandering van woonsituatie, baanbeëindiging, in de ziektewet raken, medicijngebruik bij psychiatrische aandoeningen en/of psychologische problemen (psychofarmaca), gemaakte GGZ-kosten en geregistreerd als verdachte van een misdrijf. Deze resultaten zijn gebaseerd op bivariate analyses. Dit betekent dat voor elke analyse slechts twee variabelen meegenomen zijn (de verschillende kenmerken enerzijds en de kans op dupering of één van de uitkomstmaten anderzijds). Sommige van de kenmerken hangen onderling sterk samen. Daarom zijn bovenstaande analyses uitgebreid met modellen waarin meerdere kenmerken tegelijk opgenomen worden. Dit worden multivariate analyses genoemd. Op deze manier kan een betere selectie gemaakt worden van kenmerken die samenhangen met de kans op dupering en met de geselecteerde uitkomstmaten, rekening houdend met andere kenmerken. Om een uiteindelijke keuze te maken voor kenmerken die meegenomen moeten worden bij het samenstellen van de smalle vergelijkingsgroep is, naast inhoudelijke overwegingen, het Akaike information criterion (AIC) gebruikt.41)

Belangrijkste kenmerken voor dupering
Voor het voorspellen van de kans om slachtoffer te worden van de toeslagenaffaire blijkt een model met land van herkomst, huishoudinkomen, leeftijd bij geboorte van het eerste kind, aantal jaar kinderopvangtoeslag, recent arbeidsverleden en wanbetaler van de zorgverzekering in het huishouden het meest geschikte multivariate model. Deze kenmerken hangen het sterkst samen met dupering (rekening houdend met de andere kenmerken in het model). Grotendeels komt dit overeen met het model dat in het vorige CBS onderzoek is gebruikt om een smalle vergelijkingsgroep samen te stellen.42)
Personen met de volgende achtergrondkenmerken hadden een significant grotere kans om slachtoffer te worden van de toeslagenaffaire: een niet-Nederlandse herkomst, een lager huishoudinkomen, relatief jong bij de geboorte van het eerste kind, meerdere jaren kinderopvangtoeslag ontvangen, een minder lange periode gewerkt in de voorgaande vier jaar en een wanbetaler van de zorgverzekering in het huishouden. Net als bij de eerder gepresenteerde bivariate analyses (stap 1) zijn alle dupering/selectiejaren samengenomen.

Belangrijkste kenmerken voor de geselecteerde uitkomstmaten
Vervolgens is voor elk van de tien geselecteerde uitkomstmaten geanalyseerd welke kenmerken - voorafgaand aan dupering/selectie - van voorspellende waarde zijn (zie Bijlage 7). Het gaat hierbij om de operationalisering gebruikt om de McFadden R2 te berekenen waarbij alle kenmerken zoals beschreven in Bijlage 4 zijn getoetst. Om de meest relevante kenmerken te bepalen voor ieder van de tien uitkomstmaten, is dezelfde procedure gevolgd als tijdens het bepalen van de belangrijkste kenmerken voor dupering.
Het is belangrijk om ook relevante kenmerken voor de uitkomstmaten in kaart te brengen, hiervoor kunnen immers andere kenmerken van belang zijn dan de zes kenmerken die het belangrijkst bleken bij het voorspellen van de kans op dupering. Het creëren van de multivariate modellen voor elk van de tien uitkomstmaten heeft een aantal belangrijke kenmerken opgeleverd. Voor de uitkomstmaten gaat het om de volgende nieuwe kenmerken: contractsoort, burgerlijke staat, vermogen van het huishouden, hoogste opleidingsniveau, huishoudtype, wisseling van adres, belangrijkste inkomensbron, leeftijd oudste kind in het huishouden, gebruik psychofarmaca in het huishouden, een kind dat naar speciaal onderwijs gaat in het huishouden, geregistreerd als verdachte van een misdrijf, werkuren van de aanvrager, het ontvangen van huurtoeslag en leeftijd van de aanvrager. Voor deze kenmerken is bekeken welke iets toevoegden aan het beschreven model voor het voorspellen van dupering. Hierbij is rekening gehouden met:

  • Voor hoeveel van de tien uitkomstmaten een bepaald kenmerk van belang was;
  • De statistische toevoeging van een kenmerk aan het bestaande multivariate model voor het voorspellen van dupering;
  • De mate van multicollineariteit die ontstond door toevoeging van een kenmerk aan het bestaande multivariate model voor het voorspellen van dupering;
  • De mate waarin een kenmerk iets meet dat nog niet (geheel) wordt gemeten door de andere kenmerken in het bestaande multivariate model voor het voorspellen van dupering.

Op basis van bovenstaande selectiecriteria zijn de volgende vier kenmerken aan het bestaande model voor het voorspellen van dupering toegevoegd: 

  • Hoogste opleidingsniveau;
  • Vermogen van het huishouden;
  • Geregistreerd als verdachte van een misdrijf;
  • Huishoudtype.

6.2 Het propensity score matching model

Op basis van de resultaten van de hierboven beschreven multivariate analyses zijn de belangrijkste kenmerken geselecteerd voor het matchen van de smalle vergelijkingsgroep. Het model dat gebruikt is om de matching op propensity scores uit te voeren is opgenomen in Tabel 6.2.1. Dit model is berekend op alle gedupeerden en alle personen in de brede vergelijkingsgroep. Alle kenmerken die zijn opgenomen zorgen tezamen voor een vrij goed passend model, te zien aan de McFadden R2 van 0,18. Dit betekent dat met dit model de kans op dupering vrij goed kan worden voorspeld. Voor elk kenmerk (bijvoorbeeld herkomstland) is in Tabel 6.2.1 een waarde voor het Average Marginal Effect (AME) opgenomen. Het marginale effect van een gegeven categorie (bijvoorbeeld herkomstland Turkije) beschrijft hoe de kans op dupering toe- of afneemt wanneer iemand in de referentiecategorie (Nederland) wordt vergeleken met iemand in die categorie (Turkije), en alle andere kenmerken in het model niet veranderen. Het marginale effect verschilt in principe per persoon. Om het samen te vatten in één getal kan het gemiddelde marginale effect (AME) worden berekend. Dit is de gemiddelde waarde van de marginale effecten voor alle personen in de dataset. Ter illustratie: de gemiddelde kans op dupering in de dataset is ongeveer gelijk aan 0,005 (4450 / 950000). Voor een gemiddeld persoon met als herkomstland Turkije is deze voorspelde kans (0,005 + 0,014 (AME voor herkomstland Turkije) =) 0,019. Vergeleken met de gemiddelde voorspelde kans van 0,005 is de kans op dupering voor personen die Turkije als herkomstland hebben bijna vier keer groter.

6.2.1 Propensity score matching model: logistische regressie analyse
waarin dupering wordt voorspeld
Bs.e.AME
Huishoudinkomen
Kwartiel 1/Onbekend
Kwartiel 2-0,21***0,04-0,001
Kwartiel 3-0,71***0,06-0,003
Kwartiel 4-1,15***0,09-0,004
Herkomstland
Nederland
Europa (exclusief NL)0,32***0,070,001
Turkije1,9***0,060,014
Marokko1,46***0,070,008
Suriname1,68***0,050,011
Overig Buiten-Europa0,85***0,050,003
Nederlandse Cariben1,48***0,060,008
Leeftijd bij geboorte 1e kind
Tussen de 10 en 25 jaar
Tussen de 25 en 35 jaar-0,56***0,04-0,003
Tussen de 35 en 55 jaar-0,81***0,07-0,004
Geen juridisch kind/
Onbekend
0,150,30,001
Aantal jaar KOT
ontvangen
1
20,45***0,050,002
30,72***0,050,003
40,89***0,050,004
50,98***0,060,004
60,95***0,070,004
Arbeidsverleden
Voortdurend werkzaam
Gedeeltelijk werkzaam,
meer dan 3 jaar
0,45***0,050,002
Gedeeltelijk werkzaam,
tussen 2 en 3 jaar
0,61***0,050,003
Gedeeltelijk werkzaam,
tussen 1 en 2 jaar
0,67***0,060,003
Gedeeltelijk werkzaam,
tussen 1 maand en 1 jaar
0,69***0,060,003
Niet werkzaam0,19**0,070,001
Niet 48 maanden in NL0,41***0,080,002
Wanbetaler
zorgverzekering1)
Nee
Ja0,84***0,050,005
Hoogste opleiding
Laag
Midden-0,08*0,040
Hoog-0,54***0,06-0,002
Onbekend-0,21***0,05-0,001
Vermogen van het
huishouden
Minder dan 0 euro/
Onbekend
Tot 50 000 euro-0,15***0,03-0,001
50 000 euro en meer-0,66***0,06-0,003
Verdacht van een
misdrijf
Nee
Ja0,38***0,040,002
Huishoudtype
Paar met kinderen
Eenouderhuishouden0,32***0,040,002
Overig/Onbekend
huishouden
-0,26**0,09-0,001
McFadden R20,18
1) Voor het berekenen van de propensity scores is het propensity score matching model (Tabel 6.2.1) voor ieder jaar apart geschat. Informatie over wanbetaler zorgverzekering is echter pas beschikbaar vanaf dupering/selectiejaar 2011 en derhalve uitsluitend voor de jaren 2011-2015 meegenomen in de berekening van de propensity scores.

6.3 Exact matching

Vanwege het belang van herkomst voor dupering wordt voor dit kenmerk exact matching toegepast. Deze exact matching wordt ook uitgevoerd voor dupering/selectiejaar, bezit van een woning, het hebben van een baan, het hebben van een baan en niet in de ziektewet zitten, geregistreerd als verdachte van een misdrijf, en geregistreerd als wanbetaler van de zorgverzekering. Op dupering/selectiejaar is exact gematcht om ervoor te zorgen dat iemand die bijvoorbeeld gedupeerd is geraakt in 2008, niet gematcht kan worden aan iemand uit de brede vergelijkingsgroep die toegewezen is aan een ander jaartal. Dit dient voorkomen te worden omdat de situatie van een ouder in 2008 door veranderingen in de tijd behoorlijk kan verschillen van de situatie van een ouder in 2013, en ook de meting van achtergrondkenmerken en uitkomstmaten in een dergelijk geval vijf jaar uit elkaar zou liggen. Hierdoor zou de vergelijkbaarheid van de gedupeerden en smalle vergelijkingsgroep in het geding kunnen komen. Op baan, en baan en niet in de ziektewet, is exact gematcht omdat het om voorwaarden gaat met betrekking tot het verliezen van een baan respectievelijk het in de ziektewet terecht komen. Op verdachte van een misdrijf en wanbetaler van de zorgverzekering is exact gematcht omdat het onmogelijk blijkt om de gedupeerdengroep en de smalle vergelijkingsgroep op deze kenmerken gelijk te krijgen zonder hierop exact te matchen.

6.4 Resultaten matching

In een iteratief proces zijn steeds de resultaten van de matching bekeken. Dit houdt in dat eerst naar de vergelijkbaarheid tussen gedupeerden en niet-gedupeerden is gekeken. Vervolgens is gevarieerd met de variabelen waarop exact wordt gematcht en is het matchingsmodel model aangepast, waarna weer naar de resultaten is gekeken. Ook zijn de resultaten voor verschillende matchingsmethoden (nearest neighbor en caliper) met elkaar vergeleken. Uiteindelijk leverde de aanpak waarbij exact matching op herkomst, dupering/selectiejaar, koopwoning, baan en niet in ziektewet, verdacht van misdrijf, en wanbetaler van de zorgverzekering wordt gecombineerd met het nearest neighbor propensity score matching model van Tabel 6.2.1 de meest vergelijkbare groepen op voorafgaand aan dupering/selectie. Daarnaast kon voor bijna alle gedupeerden een geschikte match gevonden worden. De gedupeerdengroep en de smalle vergelijkingsgroep zijn - na matching - op alle kenmerken in het model (zie Tabel 6.2.1) en de kenmerken waarop exact is gematcht - niet langer significant afwijkend in het jaar voorafgaand aan dupering/selectie43). Dit was nog wel het geval wanneer de gedupeerdengroep met de brede vergelijkingsgroep wordt vergeleken, zoals te zien is in de figuren 6.4.1, 6,4.2 en 6.4.3. 
Deze figuren tonen herkomstland, huishoudtype en hoogste opleidingsniveau, waarbij de verschillen tussen de brede vergelijkingsgroep, de smalle vergelijkingsgroep en de gedupeerdengroep worden weergegeven.44) Zoals in deze figuren te zien is, zijn er duidelijke verschillen op de kenmerken tussen de gedupeerden en de brede vergelijkingsgroep, maar zijn er geen (significante) verschillen tussen de groep gedupeerden en de smalle vergelijkingsgroep. Dit geldt voor alle kenmerken die meegenomen zijn in het matchingsproces. Dit geldt ook voor alle dupering/selectiejaren afzonderlijk. Samenvattend is er door middel van matching uit de brede vergelijkingsgroep een smalle vergelijkingsgroep geselecteerd die op belangrijke achtergrondkenmerken vergelijkbaar is met de gedupeerdengroep.45)

6.4.1 Herkomstland1)
nameNederland (%)Europa (exclusief Nederland) (%)Turkije (%)Marokko (%)Suriname (%)Overig Buiten-Europa (%)Nederlandse Cariben (%)
Brede vergelijkingsgroep79622381
Smalle vergelijkingsgroep34510817169
Gedupeerdengroep345107181610
Bron: CBS
1) Mogelijk zijn ook andere indelingen relevant (bijvoorbeeld een indeling naar werelddeel), die kunnen eventueel in toekomstig onderzoek worden bekeken.
 

6.4.2 Huishoudtype
namePaar met kinderen (%)Eenouderhuishouden (%)Overig of onbekend huishouden (%)
Brede vergelijkingsgroep78148
Smalle vergelijkingsgroep52463
Gedupeerdengroep52453
Bron: CBS

6.4.3 Hoogste opleidingsniveau1)
nameLaag (%)Midden (%)Hoog (%)Onbekend (%)
Brede vergelijkingsgroep7253830
Smalle vergelijkingsgroep27391123
Gedupeerdengroep26381223
Bron: CBS
1) De cijfers voor hoogste opleidingsniveau zijn ongewogen. Omdat de CBS gegevens over opleidingsniveau selectief zijn naar opleidingsniveau en leeftijd is het voor toekomstig onderzoek raadzaam om ook gewogen cijfers te bekijken.

Tot slot is bekeken of de groepen significant van elkaar verschillen op de tien geselecteerde uitkomstmaten gemeten in het jaar voorafgaand aan dupering/selectie (Voor deze figuren is dezelfde operationalisering gebruikt als beschreven voor de McFadden R2 in Bijlage 7). Ter illustratie worden in Figuur 6.4.4 de verdelingen gepresenteerd voor de brede vergelijkingsgroep, de smalle vergelijkingsgroep, en de gedupeerdengroep op de uitkomstmaat wanbetaler van de zorgverzekering (gemeten voorafgaand aan dupering/selectie). Voor de overige uitkomstmaten zijn deze figuren opgenomen in Bijlage 8.

6.4.4 Wanbetaler van de zorgverzekering in het jaar voorafgaand aan dupering/selectie1)
nameJa (%)Nee (%)
Brede vergelijkingsgroep298
Smalle vergelijkingsgroep2080
Gedupeerdengroep2080
Bron: CBS
1) Dit kenmerk is bepaald voor de aanvrager en diens stabiele partner indien aanwezig. Stabiliteit partner is bepaald over het jaar voor dupering/selectie en de drie jaren na dupering/selectie. Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor de uitkomstmaat wanbetaler zorgverzekering uitsluitend berekend over de jaren 2011-2015.
 

Figuur 6.4.4 toont dat er ook op de uitkomstmaat wanbetaler van de zorgverzekering, voorafgaand aan dupering/selectie, geen verschillen tussen de groep gedupeerden en de smalle vergelijkingsgroep zijn na matching. Dit is logisch, aangezien op dit kenmerk exact is gematcht. Ook op de overige negen uitkomstmaten zijn er in het jaar voorafgaand aan dupering/selectie geen significante verschillen meer te zien tussen de gedupeerden en de smalle vergelijkingsgroep. Dit betekent dat het met deze smalle vergelijkingsgroep mogelijk is om de uitkomstmaten na dupering/selectie te vergelijken tussen de gedupeerdengroep en de smalle vergelijkingsgroep. Hiermee is het mogelijk om te bekijken in hoeverre bepaalde uitkomsten na dupering vaker of minder vaak voorkomen in de gedupeerdengroep. Wel kan het zo zijn dat de groepen verschillen op unobserved confounders (zie voor toelichting Paragraaf 3.2.2 Kanttekeningen matching).

6.5 Aantallen na dupering/selectie

Er is ook bekeken in hoeverre de aantallen na dupering/selectie groot genoeg zijn om betrouwbare statistische conclusies te kunnen trekken. Voor alle tien de geselecteerde uitkomstmaten - huishoudinkomen; werkuren; vermogen van het huishouden; wanbetaler van de zorgverzekering; verandering van woonsituatie; baanbeëindiging; in de ziektewet raken; medicijngebruik bij psychiatrische aandoeningen en psychologische problemen (psychofarmaca); gemaakte GGZ-kosten; geregistreerd als verdachte van een misdrijf - zijn de aantallen na dupering/selectie groot genoeg om onderzoek te doen. Daarbij kan gekeken worden naar de gehele gedupeerdengroep versus de gehele smalle vergelijkingsgroep. Het is eventueel qua aantallen ook mogelijk om de resultaten uit te splitsen naar het al dan niet hebben van een partner. Dit kan inzichtelijk zijn, omdat de groep alleenstaande aanvragers over het algemeen meer KOT ontvangt dan niet-alleenstaande aanvragers. De alleenstaanden hebben daardoor waarschijnlijk hogere terugvorderingen gekregen dan niet-alleenstaande aanvragers. Wanneer wordt uitgesplitst naar het stempel Opzet/Grove Schuld geldt voor bepaalde uitkomstmaten (met name voor de groep die dit stempel heeft gekregen) dat er sprake kan zijn van lage aantallen. Dit geldt ook voor uitsplitsingen naar hoogte van de terugvordering. Dit laatste is onder andere afhankelijk van hoe de hoogte van de terugvordering wordt geoperationaliseerd (in hoeveel categorieën de hoogte van de terugvordering wordt opgesplitst).

36) Voor een aantal kenmerken wordt een periode van meerdere jaren bekeken, omdat dit een betrouwbaarder beeld geeft. Dit is bijvoorbeeld het geval voor huishoudinkomen. Hier wordt een periode van drie jaar bekeken omdat het inkomen sterk kan fluctueren van jaar tot jaar. 
37) Dit betreft de kenmerken die zijn gebruikt voor het samenstellen van de smalle vergelijkingsgroep (zie paragraaf 6.2). Deze kenmerken bleken op basis van multivariate analyses (stap 2) het meest belangrijk voor het voorspellen van dupering en de geselecteerde uitkomstmaten, of zijn nodig om de groepen gelijk te maken op de geselecteerde uitkomstmaten voorafgaand aan dupering/selectie.
38) Het betreft verschillen tussen de groep gedupeerden en niet-gedupeerden op elk achtergrondkenmerk. Dit is getoetst met Chi-square verschiltoetsen, waarbij alle p-waarden kleiner dan 0,005 bleken te zijn. 
39) Zie bijvoorbeeld het rapport van de Autoriteit Persoonsgegevens waarin beschreven wordt hoe (een dubbele) nationaliteit in het verleden door de Belastingdienst/Toeslagen verwerkt is bij aanvragers van kinderopvangtoeslag. Ook Amnesty en het College voor de Rechten van de Mens hebben hierover gepubliceerd. Ook de betrokken staatssecretaris heeft erkend dat er sprake is geweest van institutioneel racisme bij de Belastingdienst/Toeslagen. 
40) Dit betreft de kenmerken die zijn gebruik voor het samenstellen van de smalle vergelijkingsgroep (zie Paragraaf 6.2). Deze kenmerken blijken op basis van multivariate analyses (stap 2) het belangrijkste voor het voorspellen van dupering en de geselecteerde uitkomstmaten (bijvoorbeeld wanbetaler van de zorgverzekering) of zijn nodig om de groepen gelijk te maken op de geselecteerde uitkomstmaten voorafgaand aan dupering/selectie.
41) Zowel voor dupering als voor de geselecteerde tien uitkomstmaten zijn meer dan 1000 regressiemodellen met elkaar vergeleken. De algemene procedure die gevolgd is, is dat zowel voor dupering als voor de geselecteerde uitkomstmaten kenmerken geselecteerd zijn die bivariaat de sterkste samenhang vertoonden. Vervolgens zijn de andere kenmerken in verschillende combinaties toegevoegd waarna een keuze is gemaakt om een kenmerk toe te voegen. Vervolgens zijn meerdere combinaties van kenmerken verkend. Dit is voor alle dupering/selectiejaren samen gedaan en vervolgens zijn de regressiemodellen voor alle dupering/selectiejaren afzonderlijk gedraaid. Dit omdat de samenhang tussen de kenmerken en gedupeerdheid kan veranderen door de tijd heen. Het terugvorderingsbeleid van de Belastingdienst/Toeslagen heeft immers over de tijd heen aanpassingen gekend. Omdat er geen duidelijke verschillen zichtbaar waren tussen de jaren worden alle dupering/selectiejaren samengenomen.
42) Voor deze haalbaarheidsstudie is ook recent arbeidsverleden getoetst en dit blijkt een belangrijke voorspeller voor de kans op dupering. In de huidige studie is inkomen gemiddeld over drie jaar meegenomen, want deze blijkt de kans op dupering beter te voorspellen dan inkomen in het jaar voorafgaand aan dupering/selectie, zoals in het vorige CBS onderzoek gebruikt.
43) Omdat er veel verschillende variabelen zijn vergeleken tussen de groepen zijn er veel significantietoetsen gedaan. Het is dan gebruikelijk om een correctie toe te passen (bijvoorbeeld een Bonferroni-correctie). In deze haalbaarheidsstudie is voor een meer conservatieve aanpak gekozen (zonder correctie). In toekomstig onderzoek kan een dergelijke correctie eventueel worden toegepast.
44) Voor alle kenmerken is de standardized mean difference bestudeerd. Er zijn ook andere checks uitgevoerd om de kwaliteit van de smalle vergelijkingsgroep te beoordelen. Zo zijn de common support figuren bestudeerd voor de verschillende methodes. 
45) De gedupeerden en smalle vergelijkingsgroep verschillen nog wel significant op een aantal andere variabelen zoals leeftijd aanvrager, leeftijd van het oudste kind en burgerlijke staat, maar het gaat om kleine verschillen.