6. De smalle vergelijkingsgroep
Voor het samenstellen van de smalle vergelijkingsgroep (ook wel controlegroep genoemd) is met een statistische matchingstechniek gezocht naar niet-gedupeerden in de brede vergelijkingsgroep die op relevante achtergrondkenmerken lijken op de gedupeerden. De resultaten van de werkwijze die hierbij gevolgd is worden in dit hoofdstuk toegelicht. Vervolgens wordt de kwaliteit van de smalle vergelijkingsgroep geëvalueerd en tot slot wordt bekeken of de aantallen ook na dupering/selectie groot genoeg zijn om onderzoek te doen.
6.1 Relevante achtergrondkenmerken bepalen voor matching
Om door middel van matching een geschikte smalle vergelijkingsgroep te creëren, is het van belang om de juiste achtergrondkenmerken mee te nemen. Hier zijn een aantal voorwaarden aan verbonden. Het is belangrijk om te kijken naar kenmerken die waarschijnlijk relevant zijn voorafgaand aan dupering/selectie. Het uiteindelijke doel is namelijk om conclusies te kunnen trekken over mogelijkheden voor toekomstig onderzoek naar mogelijke gevolgen van dupering op de geselecteerde uitkomstmaten. Om dit te bereiken moeten beide groepen vergelijkbaar zijn op kenmerken die - voor de gedupeerden - nog niet beïnvloed kunnen zijn door dupering. Daarom wordt gekeken naar kenmerken in het jaar voorafgaand aan dupering/selectie.36) Daarnaast moeten zoveel mogelijk potentieel relevante kenmerken in het onderzoek worden opgenomen. Zoals besproken in Hoofdstuk 3 (Paragraaf 3.3.2) kan het niet includeren van kenmerken die van invloed zijn op zowel de kans op dupering als op de uitkomstmaten leiden tot een minder geschikte smalle vergelijkingsgroep.
Van alle kenmerken zoals opgenomen in Bijlage 4 is in kaart gebracht of deze samenhangen met enerzijds de kans om gedupeerd te raken door de toeslagenaffaire en anderzijds met de geselecteerde uitkomstmaten voorafgaand aan dupering/selectie (bijvoorbeeld: de kans op baanbeëindiging of in de ziektewet te raken). Om een selectie te maken van de meest relevante kenmerken, die uiteindelijk worden gebruikt om de smalle vergelijkingsgroep samen te stellen, zijn op hoofdlijnen twee stappen genomen.
Stap 1 – bivariate analyses
Om de smalle vergelijkingsgroep samen te stellen is in een eerste stap bepaald welke van de in Bijlage 4 opgenomen kenmerken een relatie vertonen met het al dan niet gedupeerd raken en met de geselecteerde uitkomstmaten, gemeten voorafgaand aan dupering/selectie (bijvoorbeeld wanbetaler van de zorgverzekering). Dit is onderzocht met behulp van met bivariate regressieanalyses.
Hoewel voor alle geselecteerde uitkomstmaten is bekeken welke achtergrondkenmerken relevant zijn, worden - ter illustratie - alleen de resultaten voor de uitkomstmaat wanbetaler van de zorgverzekering in dit hoofdstuk gepresenteerd. De resultaten voor de overige geselecteerde uitkomstmaten worden weergegeven in Bijlage 7. In onderstaande tabellen staan voor de meest relevante37) kenmerken de percentages voor verschillende groepen (wel of niet gedupeerd, en wel of geen wanbetaler van de zorgverzekering) weergegeven.
Binnen de gedupeerdengroep is een uitsplitsing gemaakt die aangeeft of men al dan niet het stempel Opzet/Grove Schuld heeft gekregen van de Belastingdienst. Dit is gedaan om inzicht te krijgen in de kenmerken van deze specifieke groep ten opzichte van de totale (integraal beoordeelde) gedupeerdengroep.
De kenmerken zijn onder te verdelen in twee domeinen: demografische kenmerken (Tabel 6.1.1 en Tabel 6.1.2) en sociaaleconomische kenmerken (Tabel 6.1.3 en Tabel 6.1.4). Voor deze analyses zijn alle dupering/selectiejaren samengenomen. De kenmerken zijn gemeten voor de aanvrager in het jaar voorafgaand aan dupering/selectie, tenzij anders vermeld in de naam van het achtergrondkenmerk in de tabellen (dan gaat het om het totale huishouden of bijvoorbeeld een periode van drie jaar voorafgaand aan dupering/selectie).
In onderstaande tabellen zijn de resultaten opgenomen van de bivariate analyses. Hierdoor ligt de pseudo R2 lager dan wanneer er meerdere kenmerken opgenomen worden in het model (zie ook stap 2 verderop in dit hoofdstuk). Alle verschillen zoals weergegeven in de tabellen zijn statistisch significant.38)
Gedupeerd toeslagenaffaire | Gedupeerd toeslagenaffaire | Gedupeerd toeslagenaffaire | Wanbetaler zorgverzekering | Wanbetaler zorgverzekering | Wanbetaler zorgverzekering | |
---|---|---|---|---|---|---|
Ja (%) | Nee (%) | McFadden R2 | Ja (%) | Nee (%) | McFadden R2 | |
Aantal | 4 450 | 952 630 | 15 610 | 709 620 | ||
Herkomst | 0,09 | 0,06 | ||||
In NL geboren en beide ouders in NL geboren | 34 | 79 | 48 | 79 | ||
In NL geboren en 1 ouder in buitenland geboren | 6 | 6 | 7 | 6 | ||
In NL geboren en 2 ouders in buitenland geboren | 19 | 3 | 14 | 3 | ||
Niet in NL geboren en beide ouders in NL geboren | 1 | 1 | 1 | 1 | ||
Niet in NL geboren en 1 ouder in buitenland geboren | 1 | 1 | 1 | 1 | ||
Niet in NL geboren en 2 ouders in buitenland geboren | 40 | 11 | 29 | 10 | ||
Herkomstland | 0,1 | 0,07 | ||||
Nederland | 34 | 79 | 48 | 79 | ||
Europa (exclusief NL) | 5 | 6 | 8 | 6 | ||
Turkije | 10 | 2 | 3 | 2 | ||
Marokko | 7 | 2 | 4 | 1 | ||
Suriname | 18 | 3 | 13 | 2 | ||
Overig Buiten-Europa | 16 | 8 | 14 | 8 | ||
Nederlandse Cariben | 10 | 1 | 10 | 1 | ||
Huishoudtype | 0,05 | 0,04 | ||||
Paar met kinderen | 52 | 78 | 52 | 79 | ||
Eenouderhuishouden | 45 | 14 | 40 | 13 | ||
Overig/Onbekend huishouden | 3 | 8 | 8 | 8 | ||
Leeftijd bij geboorte 1e kind | 0,07 | 0,11 | ||||
Tussen de 10 en 25 jaar | 51 | 12 | 54 | 11 | ||
Tussen de 25 en 35 jaar | 42 | 68 | 40 | 68 | ||
Tussen de 35 en 55 jaar | 7 | 21 | 6 | 21 | ||
Geen juridisch kind/ Onbekend | 0 | 0 | 0 | 0 | ||
1) Gedupeerd toeslagenaffaire “Nee” betreft de brede vergelijkingsgroep. 2) Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor de uitkomstmaat wanbetaler uitsluitend berekend over de jaren 2011-2015. |
Op basis van de McFadden R2 - weergegeven in Tabel 6.1.1 - is te zien dat de demografische kenmerken herkomst en leeftijd bij de geboorte van het eerste kind het meest relevant zijn voor het voorspellen van dupering. Vooral Surinaamse aanvragers en aanvragers uit de Nederlandse Cariben zijn sterk oververtegenwoordigd in de groep gedupeerden. Het is ook bekend dat herkomst een rol heeft gespeeld in de toeslagenaffaire.39) Daarnaast zijn jongere moeders (moeder geworden tussen de 10 en 25 jaar) sterk oververtegenwoordigd in de gedupeerdengroep.
Voor het voorspellen van de kans op een wanbetaler van de zorgverzekering in het huishouden blijken ook - op basis van de McFadden R2 - leeftijd bij de geboorte van het eerste kind en herkomst het meest relevant. Jongere moeders (moeder geworden tussen de 10 en 25 jaar) zijn sterk oververtegenwoordigd in de groep die geregistreerd staat als wanbetaler van de zorgverzekering. Dit geldt ook voor personen met een niet-Nederlandse herkomst. Alle in de tabellen gepresenteerde resultaten zijn ook te bekijken in dit Excel-bestand.
Opzet/Grove Schuld | Opzet/Grove Schuld | |
---|---|---|
Ja (%) | Nee (%) | |
Aantal | 1 240 | 3 210 |
Herkomst | ||
In NL geboren en beide ouders in NL geboren | 27 | 37 |
In NL geboren en 1 ouder in buitenland geboren | 5 | 6 |
In NL geboren en 2 ouders in buitenland geboren | 19 | 19 |
Niet in NL geboren en beide ouders in NL geboren | 0 | 1 |
Niet in NL geboren en 1 ouder in buitenland geboren | 1 | 1 |
Niet in NL geboren en 2 ouders in buitenland geboren | 48 | 37 |
Herkomstland | ||
Nederland | 27 | 37 |
Europa (exclusief NL) | 4 | 6 |
Turkije | 5 | 12 |
Marokko | 7 | 7 |
Suriname | 22 | 17 |
Overig Buiten-Europa | 22 | 13 |
Nederlandse Cariben | 14 | 8 |
Huishoudtype | ||
Paar met kinderen | 36 | 58 |
Eenouderhuishouden | 62 | 39 |
Overig/Onbekend huishouden | 2 | 3 |
Leeftijd bij geboorte 1e kind | ||
Tussen de 10 en 25 jaar | 64 | 45 |
Tussen de 25 en 35 jaar | 33 | 46 |
Tussen de 35 en 55 jaar | 3 | 8 |
Geen juridisch kind/ Onbekend | 0 | 0 |
Gedupeerden die het stempel Opzet/Grove Schuld hebben gekregen (Zie Tabel 6.1.2) hebben nog vaker een niet-Nederlandse herkomst dan de totale gedupeerdengroep. Ook is de groep die het stempel Opzet/Grove Schuld heeft gekregen nog vaker jong moeder geworden en wonen zij vaker in een eenouderhuishouden vergeleken met de totale (integraal beoordeelde) gedupeerdengroep.
Gedupeerd toeslagenaffaire | Gedupeerd toeslagenaffaire | Gedupeerd toeslagenaffaire | Wanbetaler zorgverzekering | Wanbetaler zorgverzekering | Wanbetaler zorgverzekering | |
---|---|---|---|---|---|---|
Ja (%) | Nee (%) | McFadden R2 | Ja (%) | Nee (%) | McFadden R2 | |
Aantal | 4 450 | 952 630 | 15 610 | 709 620 | ||
Aantal jaar KOT ontvangen | 0 | 0,03 | ||||
1 | 21 | 28 | 45 | 28 | ||
2 | 26 | 24 | 26 | 20 | ||
3 | 20 | 17 | 14 | 15 | ||
4 | 15 | 12 | 8 | 12 | ||
5 | 10 | 9 | 4 | 12 | ||
6 | 8 | 10 | 3 | 13 | ||
Arbeidsverleden | 0,06 | 0,13 | ||||
Voortdurend werkzaam | 38 | 76 | 27 | 77 | ||
Gedeeltelijk werkzaam, meer dan 3 jaar | 15 | 11 | 16 | 11 | ||
Gedeeltelijk werkzaam, tussen 2 en 3 jaar | 13 | 5 | 15 | 5 | ||
Gedeeltelijk werkzaam, tussen 1 en 2 jaar | 11 | 3 | 13 | 2 | ||
Gedeeltelijk werkzaam, tussen 1 maand en 1 jaar | 11 | 2 | 13 | 2 | ||
Niet werkzaam | 6 | 2 | 7 | 2 | ||
Niet 48 maanden in NL | 6 | 2 | 8 | 2 | ||
Baan | 0,04 | 0,09 | ||||
Ja | 70 | 94 | 63 | 94 | ||
Nee | 30 | 6 | 37 | 6 | ||
Onbekend | 0 | 0 | 0 | 0 | ||
Baan en niet in de ziektewet | 0,04 | 0,09 | ||||
Ja | 70 | 94 | 62 | 94 | ||
Nee | 30 | 6 | 38 | 6 | ||
Onbekend | 0 | 0 | 0 | 0 | ||
Eigen woning | 0,06 | 0,15 | ||||
Ja | 36 | 78 | 21 | 79 | ||
Nee | 64 | 22 | 79 | 21 | ||
Hoogste opleiding | 0,05 | 0,11 | ||||
Laag | 26 | 7 | 35 | 7 | ||
Midden | 38 | 25 | 42 | 26 | ||
Hoog | 12 | 38 | 6 | 40 | ||
Onbekend | 23 | 30 | 17 | 26 | ||
Huishoudinkomen | 0,07 | 0,14 | ||||
Kwartiel 1 | 63 | 24 | 68 | 20 | ||
Kwartiel 2 | 21 | 25 | 17 | 24 | ||
Kwartiel 3 | 8 | 25 | 7 | 26 | ||
Kwartiel 4 | 4 | 25 | 2 | 28 | ||
Onbekend | 4 | 2 | 6 | 2 | ||
Vermogen van het huishouden | 0,03 | 0,06 | ||||
Minder dan 0 euro | 50 | 36 | 73 | 43 | ||
Tot 50 000 euro | 40 | 28 | 20 | 26 | ||
50 000 euro en meer | 9 | 35 | 5 | 31 | ||
Onbekend | 1 | 1 | 2 | 1 | ||
Verdacht van een misdrijf | 0,02 | 0,05 | ||||
Ja | 19 | 5 | 25 | 5 | ||
Nee | 81 | 95 | 75 | 95 | ||
Wanbetaler zorgverzekering2) | 0,04 | |||||
Ja | 22 | 2 | ||||
Nee | 78 | 98 | ||||
1) Wanbetaler en verdachte zijn als achtergrondkenmerk bepaald over alle leden van het huishouden (zie bijlage 6). Echter, in het model op basis waarvan de McFadden R2 is berekend, zijn wanbetaler en verdachte als afhankelijke variabele gebruikt over alleen de aanvrager en/of eventuele stabiele partner (dus niet de overige huishoudleden). Dit is gedaan om het model in lijn te houden met de manier waarop verdachte van een misdrijf en wanbetaler van de zorgverzekering als uitkomstmaat worden geaggregeerd (zie bijlage 6). Dit wordt voor de uitkomstmaten (na dupering/selectie) namelijk alleen gedaan op basis van aanvragers en (stabiele) partners (zie voor toelichting paragraaf 4.2.). 2) Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor het achtergrondkenmerk wanbetaler zorgverzekering uitsluitend berekend over de jaren 2011-2015. |
Op basis van de McFadden R2 weergegeven in Tabel 6.1.3 is te zien dat - van de sociaaleconomische kenmerken - huishoudinkomen, eigen woning en recent arbeidsverleden het meest relevant zijn voor het voorspellen van dupering. Gedupeerden hebben vaker een laag inkomen (1e kwartiel), minder vaak een eigen woning en zijn in de voorgaande vier jaar minder vaak voortdurend werkzaam geweest dan niet-gedupeerden.
Voor het voorspellen van de kans op een wanbetaler van de zorgverzekering in het huishouden blijken - op basis van de McFadden R2 in Tabel 6.1.3 - eigen woning, recent arbeidsverleden, huishoudinkomen, en hoogste opleidingsniveau het meest relevant. Personen met een laag inkomen (1e kwartiel) zijn sterk oververtegenwoordigd in de groep die geregistreerd staat als wanbetaler van de zorgverzekering. Dit geldt ook voor personen met een laag opleidingsniveau, personen zonder eigen woning, en personen die niet de volledige voorgaande vier jaren werkzaam zijn geweest.
Opzet/Grove Schuld | Opzet/Grove Schuld | |
---|---|---|
Ja (%) | Nee (%) | |
Aantal | 1 240 | 3 210 |
Aantal jaar KOT ontvangen | ||
1 | 21 | 21 |
2 | 25 | 26 |
3 | 22 | 20 |
4 | 16 | 15 |
5 | 11 | 10 |
6 | 5 | 9 |
Arbeidsverleden | ||
Voortdurend werkzaam | 22 | 44 |
Gedeeltelijk werkzaam, meer dan 3 jaar | 14 | 15 |
Gedeeltelijk werkzaam, tussen 2 en 3 jaar | 15 | 12 |
Gedeeltelijk werkzaam, tussen 1 en 2 jaar | 15 | 10 |
Gedeeltelijk werkzaam, tussen 1 maand en 1 jaar | 16 | 10 |
Niet werkzaam | 11 | 4 |
Niet 48 maanden in NL | 7 | 5 |
Baan | ||
Ja | 54 | 77 |
Nee | 46 | 23 |
Onbekend | 0 | 0 |
Baan en niet in de ziektewet | ||
Ja | 53 | 76 |
Nee | 47 | 24 |
Onbekend | 0 | 0 |
Eigen woning | ||
Ja | 18 | 43 |
Nee | 82 | 57 |
Hoogste opleiding | ||
Laag | 36 | 22 |
Midden | 41 | 37 |
Hoog | 5 | 15 |
Onbekend | 18 | 25 |
Huishoudinkomen | ||
Kwartiel 1 | 78 | 57 |
Kwartiel 2 | 13 | 23 |
Kwartiel 3 | 3 | 11 |
Kwartiel 4 | 1 | 5 |
Onbekend | 5 | 4 |
Vermogen van het huishouden | ||
Minder dan 0 euro | 55 | 47 |
Tot 50 000 euro | 40 | 40 |
50 000 euro en meer | 3 | 11 |
Onbekend | 1 | 1 |
Verdacht van een misdrijf | ||
Ja | 24 | 17 |
Nee | 76 | 83 |
Wanbetaler zorgverzekering1) | ||
Ja | 30 | 19 |
Nee | 70 | 81 |
1) Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor het achtergrondkenmerk wanbetaler zorgverzekering uitsluitend berekend over de jaren 2011-2015. |
Wanneer we kijken naar gedupeerden die het stempel Opzet/Grove Schuld hebben gekregen (Zie Tabel 6.1.4), dan is bijvoorbeeld te zien dat deze specifieke groep nog vaker een lager inkomen heeft (1e kwartiel), en nog minder vaak voortdurend werkzaam is geweest dan de totale gedupeerdengroep. Ook hebben zij nog minder vaak een eigen woning.
Samenvattend blijkt dat alle in bovenstaande tabellen gerapporteerde kenmerken in meer of mindere mate van belang zijn bij het voorspellen van de kans op dupering en/of de kans op een wanbetaler van de zorgverzekering. Voor het voorspellen van de kans op dupering blijken op basis van bivariate analyses de volgende kenmerken het meest van belang: herkomst, leeftijd bij de geboorte van het eerste kind, recent arbeidsverleden, huishoudinkomen en eigen woning. Voor de kans op een wanbetaler van de zorgverzekering in het huishouden blijken woningbezit, recent arbeidsverleden, huishoudinkomen, hoogste opleidingsniveau en leeftijd bij de geboorte van het eerste kind het meest relevant.
Stap 2 – multivariate analyses
In de tabellen 6.1.1 en 6.1.3 en in Bijlage 7 is voor de meest relevante kenmerken40) weergegeven op welke manier en in welke mate deze samenhangen met de kans op dupering en met de geselecteerde uitkomstmaten: inkomen, werkuren, vermogen van het huishouden, wanbetaler van de zorgverzekering, verandering van woonsituatie, baanbeëindiging, in de ziektewet raken, medicijngebruik bij psychiatrische aandoeningen en/of psychologische problemen (psychofarmaca), gemaakte GGZ-kosten en geregistreerd als verdachte van een misdrijf. Deze resultaten zijn gebaseerd op bivariate analyses. Dit betekent dat voor elke analyse slechts twee variabelen meegenomen zijn (de verschillende kenmerken enerzijds en de kans op dupering of één van de uitkomstmaten anderzijds). Sommige van de kenmerken hangen onderling sterk samen. Daarom zijn bovenstaande analyses uitgebreid met modellen waarin meerdere kenmerken tegelijk opgenomen worden. Dit worden multivariate analyses genoemd. Op deze manier kan een betere selectie gemaakt worden van kenmerken die samenhangen met de kans op dupering en met de geselecteerde uitkomstmaten, rekening houdend met andere kenmerken. Om een uiteindelijke keuze te maken voor kenmerken die meegenomen moeten worden bij het samenstellen van de smalle vergelijkingsgroep is, naast inhoudelijke overwegingen, het Akaike information criterion (AIC) gebruikt.41)
Belangrijkste kenmerken voor dupering
Voor het voorspellen van de kans om slachtoffer te worden van de toeslagenaffaire blijkt een model met land van herkomst, huishoudinkomen, leeftijd bij geboorte van het eerste kind, aantal jaar kinderopvangtoeslag, recent arbeidsverleden en wanbetaler van de zorgverzekering in het huishouden het meest geschikte multivariate model. Deze kenmerken hangen het sterkst samen met dupering (rekening houdend met de andere kenmerken in het model). Grotendeels komt dit overeen met het model dat in het vorige CBS onderzoek is gebruikt om een smalle vergelijkingsgroep samen te stellen.42)
Personen met de volgende achtergrondkenmerken hadden een significant grotere kans om slachtoffer te worden van de toeslagenaffaire: een niet-Nederlandse herkomst, een lager huishoudinkomen, relatief jong bij de geboorte van het eerste kind, meerdere jaren kinderopvangtoeslag ontvangen, een minder lange periode gewerkt in de voorgaande vier jaar en een wanbetaler van de zorgverzekering in het huishouden. Net als bij de eerder gepresenteerde bivariate analyses (stap 1) zijn alle dupering/selectiejaren samengenomen.
Belangrijkste kenmerken voor de geselecteerde uitkomstmaten
Vervolgens is voor elk van de tien geselecteerde uitkomstmaten geanalyseerd welke kenmerken - voorafgaand aan dupering/selectie - van voorspellende waarde zijn (zie Bijlage 7). Het gaat hierbij om de operationalisering gebruikt om de McFadden R2 te berekenen waarbij alle kenmerken zoals beschreven in Bijlage 4 zijn getoetst. Om de meest relevante kenmerken te bepalen voor ieder van de tien uitkomstmaten, is dezelfde procedure gevolgd als tijdens het bepalen van de belangrijkste kenmerken voor dupering.
Het is belangrijk om ook relevante kenmerken voor de uitkomstmaten in kaart te brengen, hiervoor kunnen immers andere kenmerken van belang zijn dan de zes kenmerken die het belangrijkst bleken bij het voorspellen van de kans op dupering. Het creëren van de multivariate modellen voor elk van de tien uitkomstmaten heeft een aantal belangrijke kenmerken opgeleverd. Voor de uitkomstmaten gaat het om de volgende nieuwe kenmerken: contractsoort, burgerlijke staat, vermogen van het huishouden, hoogste opleidingsniveau, huishoudtype, wisseling van adres, belangrijkste inkomensbron, leeftijd oudste kind in het huishouden, gebruik psychofarmaca in het huishouden, een kind dat naar speciaal onderwijs gaat in het huishouden, geregistreerd als verdachte van een misdrijf, werkuren van de aanvrager, het ontvangen van huurtoeslag en leeftijd van de aanvrager. Voor deze kenmerken is bekeken welke iets toevoegden aan het beschreven model voor het voorspellen van dupering. Hierbij is rekening gehouden met:
- Voor hoeveel van de tien uitkomstmaten een bepaald kenmerk van belang was;
- De statistische toevoeging van een kenmerk aan het bestaande multivariate model voor het voorspellen van dupering;
- De mate van multicollineariteit die ontstond door toevoeging van een kenmerk aan het bestaande multivariate model voor het voorspellen van dupering;
- De mate waarin een kenmerk iets meet dat nog niet (geheel) wordt gemeten door de andere kenmerken in het bestaande multivariate model voor het voorspellen van dupering.
Op basis van bovenstaande selectiecriteria zijn de volgende vier kenmerken aan het bestaande model voor het voorspellen van dupering toegevoegd:
- Hoogste opleidingsniveau;
- Vermogen van het huishouden;
- Geregistreerd als verdachte van een misdrijf;
- Huishoudtype.
6.2 Het propensity score matching model
Op basis van de resultaten van de hierboven beschreven multivariate analyses zijn de belangrijkste kenmerken geselecteerd voor het matchen van de smalle vergelijkingsgroep. Het model dat gebruikt is om de matching op propensity scores uit te voeren is opgenomen in Tabel 6.2.1. Dit model is berekend op alle gedupeerden en alle personen in de brede vergelijkingsgroep. Alle kenmerken die zijn opgenomen zorgen tezamen voor een vrij goed passend model, te zien aan de McFadden R2 van 0,18. Dit betekent dat met dit model de kans op dupering vrij goed kan worden voorspeld. Voor elk kenmerk (bijvoorbeeld herkomstland) is in Tabel 6.2.1 een waarde voor het Average Marginal Effect (AME) opgenomen. Het marginale effect van een gegeven categorie (bijvoorbeeld herkomstland Turkije) beschrijft hoe de kans op dupering toe- of afneemt wanneer iemand in de referentiecategorie (Nederland) wordt vergeleken met iemand in die categorie (Turkije), en alle andere kenmerken in het model niet veranderen. Het marginale effect verschilt in principe per persoon. Om het samen te vatten in één getal kan het gemiddelde marginale effect (AME) worden berekend. Dit is de gemiddelde waarde van de marginale effecten voor alle personen in de dataset. Ter illustratie: de gemiddelde kans op dupering in de dataset is ongeveer gelijk aan 0,005 (4450 / 950000). Voor een gemiddeld persoon met als herkomstland Turkije is deze voorspelde kans (0,005 + 0,014 (AME voor herkomstland Turkije) =) 0,019. Vergeleken met de gemiddelde voorspelde kans van 0,005 is de kans op dupering voor personen die Turkije als herkomstland hebben bijna vier keer groter.
B | s.e. | AME | |
---|---|---|---|
Huishoudinkomen | |||
Kwartiel 1/Onbekend | |||
Kwartiel 2 | -0,21*** | 0,04 | -0,001 |
Kwartiel 3 | -0,71*** | 0,06 | -0,003 |
Kwartiel 4 | -1,15*** | 0,09 | -0,004 |
Herkomstland | |||
Nederland | |||
Europa (exclusief NL) | 0,32*** | 0,07 | 0,001 |
Turkije | 1,9*** | 0,06 | 0,014 |
Marokko | 1,46*** | 0,07 | 0,008 |
Suriname | 1,68*** | 0,05 | 0,011 |
Overig Buiten-Europa | 0,85*** | 0,05 | 0,003 |
Nederlandse Cariben | 1,48*** | 0,06 | 0,008 |
Leeftijd bij geboorte 1e kind | |||
Tussen de 10 en 25 jaar | |||
Tussen de 25 en 35 jaar | -0,56*** | 0,04 | -0,003 |
Tussen de 35 en 55 jaar | -0,81*** | 0,07 | -0,004 |
Geen juridisch kind/ Onbekend | 0,15 | 0,3 | 0,001 |
Aantal jaar KOT ontvangen | |||
1 | |||
2 | 0,45*** | 0,05 | 0,002 |
3 | 0,72*** | 0,05 | 0,003 |
4 | 0,89*** | 0,05 | 0,004 |
5 | 0,98*** | 0,06 | 0,004 |
6 | 0,95*** | 0,07 | 0,004 |
Arbeidsverleden | |||
Voortdurend werkzaam | |||
Gedeeltelijk werkzaam, meer dan 3 jaar | 0,45*** | 0,05 | 0,002 |
Gedeeltelijk werkzaam, tussen 2 en 3 jaar | 0,61*** | 0,05 | 0,003 |
Gedeeltelijk werkzaam, tussen 1 en 2 jaar | 0,67*** | 0,06 | 0,003 |
Gedeeltelijk werkzaam, tussen 1 maand en 1 jaar | 0,69*** | 0,06 | 0,003 |
Niet werkzaam | 0,19** | 0,07 | 0,001 |
Niet 48 maanden in NL | 0,41*** | 0,08 | 0,002 |
Wanbetaler zorgverzekering1) | |||
Nee | |||
Ja | 0,84*** | 0,05 | 0,005 |
Hoogste opleiding | |||
Laag | |||
Midden | -0,08* | 0,04 | 0 |
Hoog | -0,54*** | 0,06 | -0,002 |
Onbekend | -0,21*** | 0,05 | -0,001 |
Vermogen van het huishouden | |||
Minder dan 0 euro/ Onbekend | |||
Tot 50 000 euro | -0,15*** | 0,03 | -0,001 |
50 000 euro en meer | -0,66*** | 0,06 | -0,003 |
Verdacht van een misdrijf | |||
Nee | |||
Ja | 0,38*** | 0,04 | 0,002 |
Huishoudtype | |||
Paar met kinderen | |||
Eenouderhuishouden | 0,32*** | 0,04 | 0,002 |
Overig/Onbekend huishouden | -0,26** | 0,09 | -0,001 |
McFadden R2 | 0,18 | ||
1) Voor het berekenen van de propensity scores is het propensity score matching model (Tabel 6.2.1) voor ieder jaar apart geschat. Informatie over wanbetaler zorgverzekering is echter pas beschikbaar vanaf dupering/selectiejaar 2011 en derhalve uitsluitend voor de jaren 2011-2015 meegenomen in de berekening van de propensity scores. |
6.3 Exact matching
Vanwege het belang van herkomst voor dupering wordt voor dit kenmerk exact matching toegepast. Deze exact matching wordt ook uitgevoerd voor dupering/selectiejaar, bezit van een woning, het hebben van een baan, het hebben van een baan en niet in de ziektewet zitten, geregistreerd als verdachte van een misdrijf, en geregistreerd als wanbetaler van de zorgverzekering. Op dupering/selectiejaar is exact gematcht om ervoor te zorgen dat iemand die bijvoorbeeld gedupeerd is geraakt in 2008, niet gematcht kan worden aan iemand uit de brede vergelijkingsgroep die toegewezen is aan een ander jaartal. Dit dient voorkomen te worden omdat de situatie van een ouder in 2008 door veranderingen in de tijd behoorlijk kan verschillen van de situatie van een ouder in 2013, en ook de meting van achtergrondkenmerken en uitkomstmaten in een dergelijk geval vijf jaar uit elkaar zou liggen. Hierdoor zou de vergelijkbaarheid van de gedupeerden en smalle vergelijkingsgroep in het geding kunnen komen. Op baan, en baan en niet in de ziektewet, is exact gematcht omdat het om voorwaarden gaat met betrekking tot het verliezen van een baan respectievelijk het in de ziektewet terecht komen. Op verdachte van een misdrijf en wanbetaler van de zorgverzekering is exact gematcht omdat het onmogelijk blijkt om de gedupeerdengroep en de smalle vergelijkingsgroep op deze kenmerken gelijk te krijgen zonder hierop exact te matchen.
6.4 Resultaten matching
In een iteratief proces zijn steeds de resultaten van de matching bekeken. Dit houdt in dat eerst naar de vergelijkbaarheid tussen gedupeerden en niet-gedupeerden is gekeken. Vervolgens is gevarieerd met de variabelen waarop exact wordt gematcht en is het matchingsmodel model aangepast, waarna weer naar de resultaten is gekeken. Ook zijn de resultaten voor verschillende matchingsmethoden (nearest neighbor en caliper) met elkaar vergeleken. Uiteindelijk leverde de aanpak waarbij exact matching op herkomst, dupering/selectiejaar, koopwoning, baan en niet in ziektewet, verdacht van misdrijf, en wanbetaler van de zorgverzekering wordt gecombineerd met het nearest neighbor propensity score matching model van Tabel 6.2.1 de meest vergelijkbare groepen op voorafgaand aan dupering/selectie. Daarnaast kon voor bijna alle gedupeerden een geschikte match gevonden worden. De gedupeerdengroep en de smalle vergelijkingsgroep zijn - na matching - op alle kenmerken in het model (zie Tabel 6.2.1) en de kenmerken waarop exact is gematcht - niet langer significant afwijkend in het jaar voorafgaand aan dupering/selectie43). Dit was nog wel het geval wanneer de gedupeerdengroep met de brede vergelijkingsgroep wordt vergeleken, zoals te zien is in de figuren 6.4.1, 6,4.2 en 6.4.3.
Deze figuren tonen herkomstland, huishoudtype en hoogste opleidingsniveau, waarbij de verschillen tussen de brede vergelijkingsgroep, de smalle vergelijkingsgroep en de gedupeerdengroep worden weergegeven.44) Zoals in deze figuren te zien is, zijn er duidelijke verschillen op de kenmerken tussen de gedupeerden en de brede vergelijkingsgroep, maar zijn er geen (significante) verschillen tussen de groep gedupeerden en de smalle vergelijkingsgroep. Dit geldt voor alle kenmerken die meegenomen zijn in het matchingsproces. Dit geldt ook voor alle dupering/selectiejaren afzonderlijk. Samenvattend is er door middel van matching uit de brede vergelijkingsgroep een smalle vergelijkingsgroep geselecteerd die op belangrijke achtergrondkenmerken vergelijkbaar is met de gedupeerdengroep.45)
name | Nederland (%) | Europa (exclusief Nederland) (%) | Turkije (%) | Marokko (%) | Suriname (%) | Overig Buiten-Europa (%) | Nederlandse Cariben (%) |
---|---|---|---|---|---|---|---|
Brede vergelijkingsgroep | 79 | 6 | 2 | 2 | 3 | 8 | 1 |
Smalle vergelijkingsgroep | 34 | 5 | 10 | 8 | 17 | 16 | 9 |
Gedupeerdengroep | 34 | 5 | 10 | 7 | 18 | 16 | 10 |
Bron: CBS
1) Mogelijk zijn ook andere indelingen relevant (bijvoorbeeld een indeling naar werelddeel), die kunnen eventueel in toekomstig onderzoek worden bekeken. |
name | Paar met kinderen (%) | Eenouderhuishouden (%) | Overig of onbekend huishouden (%) |
---|---|---|---|
Brede vergelijkingsgroep | 78 | 14 | 8 |
Smalle vergelijkingsgroep | 52 | 46 | 3 |
Gedupeerdengroep | 52 | 45 | 3 |
Bron: CBS |
name | Laag (%) | Midden (%) | Hoog (%) | Onbekend (%) |
---|---|---|---|---|
Brede vergelijkingsgroep | 7 | 25 | 38 | 30 |
Smalle vergelijkingsgroep | 27 | 39 | 11 | 23 |
Gedupeerdengroep | 26 | 38 | 12 | 23 |
Bron: CBS
1) De cijfers voor hoogste opleidingsniveau zijn ongewogen. Omdat de CBS gegevens over opleidingsniveau selectief zijn naar opleidingsniveau en leeftijd is het voor toekomstig onderzoek raadzaam om ook gewogen cijfers te bekijken. |
Tot slot is bekeken of de groepen significant van elkaar verschillen op de tien geselecteerde uitkomstmaten gemeten in het jaar voorafgaand aan dupering/selectie (Voor deze figuren is dezelfde operationalisering gebruikt als beschreven voor de McFadden R2 in Bijlage 7). Ter illustratie worden in Figuur 6.4.4 de verdelingen gepresenteerd voor de brede vergelijkingsgroep, de smalle vergelijkingsgroep, en de gedupeerdengroep op de uitkomstmaat wanbetaler van de zorgverzekering (gemeten voorafgaand aan dupering/selectie). Voor de overige uitkomstmaten zijn deze figuren opgenomen in Bijlage 8.
name | Ja (%) | Nee (%) |
---|---|---|
Brede vergelijkingsgroep | 2 | 98 |
Smalle vergelijkingsgroep | 20 | 80 |
Gedupeerdengroep | 20 | 80 |
Bron: CBS
1) Dit kenmerk is bepaald voor de aanvrager en diens stabiele partner indien aanwezig. Stabiliteit partner is bepaald over het jaar voor dupering/selectie en de drie jaren na dupering/selectie. Informatie over wanbetaler zorgverzekering is pas beschikbaar vanaf dupering/selectiejaar 2011, daarom zijn de verdelingen voor de uitkomstmaat wanbetaler zorgverzekering uitsluitend berekend over de jaren 2011-2015. |
Figuur 6.4.4 toont dat er ook op de uitkomstmaat wanbetaler van de zorgverzekering, voorafgaand aan dupering/selectie, geen verschillen tussen de groep gedupeerden en de smalle vergelijkingsgroep zijn na matching. Dit is logisch, aangezien op dit kenmerk exact is gematcht. Ook op de overige negen uitkomstmaten zijn er in het jaar voorafgaand aan dupering/selectie geen significante verschillen meer te zien tussen de gedupeerden en de smalle vergelijkingsgroep. Dit betekent dat het met deze smalle vergelijkingsgroep mogelijk is om de uitkomstmaten na dupering/selectie te vergelijken tussen de gedupeerdengroep en de smalle vergelijkingsgroep. Hiermee is het mogelijk om te bekijken in hoeverre bepaalde uitkomsten na dupering vaker of minder vaak voorkomen in de gedupeerdengroep. Wel kan het zo zijn dat de groepen verschillen op unobserved confounders (zie voor toelichting Paragraaf 3.2.2 Kanttekeningen matching).
6.5 Aantallen na dupering/selectie
Er is ook bekeken in hoeverre de aantallen na dupering/selectie groot genoeg zijn om betrouwbare statistische conclusies te kunnen trekken. Voor alle tien de geselecteerde uitkomstmaten - huishoudinkomen; werkuren; vermogen van het huishouden; wanbetaler van de zorgverzekering; verandering van woonsituatie; baanbeëindiging; in de ziektewet raken; medicijngebruik bij psychiatrische aandoeningen en psychologische problemen (psychofarmaca); gemaakte GGZ-kosten; geregistreerd als verdachte van een misdrijf - zijn de aantallen na dupering/selectie groot genoeg om onderzoek te doen. Daarbij kan gekeken worden naar de gehele gedupeerdengroep versus de gehele smalle vergelijkingsgroep. Het is eventueel qua aantallen ook mogelijk om de resultaten uit te splitsen naar het al dan niet hebben van een partner. Dit kan inzichtelijk zijn, omdat de groep alleenstaande aanvragers over het algemeen meer KOT ontvangt dan niet-alleenstaande aanvragers. De alleenstaanden hebben daardoor waarschijnlijk hogere terugvorderingen gekregen dan niet-alleenstaande aanvragers. Wanneer wordt uitgesplitst naar het stempel Opzet/Grove Schuld geldt voor bepaalde uitkomstmaten (met name voor de groep die dit stempel heeft gekregen) dat er sprake kan zijn van lage aantallen. Dit geldt ook voor uitsplitsingen naar hoogte van de terugvordering. Dit laatste is onder andere afhankelijk van hoe de hoogte van de terugvordering wordt geoperationaliseerd (in hoeveel categorieën de hoogte van de terugvordering wordt opgesplitst).
37) Dit betreft de kenmerken die zijn gebruikt voor het samenstellen van de smalle vergelijkingsgroep (zie paragraaf 6.2). Deze kenmerken bleken op basis van multivariate analyses (stap 2) het meest belangrijk voor het voorspellen van dupering en de geselecteerde uitkomstmaten, of zijn nodig om de groepen gelijk te maken op de geselecteerde uitkomstmaten voorafgaand aan dupering/selectie.
38) Het betreft verschillen tussen de groep gedupeerden en niet-gedupeerden op elk achtergrondkenmerk. Dit is getoetst met Chi-square verschiltoetsen, waarbij alle p-waarden kleiner dan 0,005 bleken te zijn.
39) Zie bijvoorbeeld het rapport van de Autoriteit Persoonsgegevens waarin beschreven wordt hoe (een dubbele) nationaliteit in het verleden door de Belastingdienst/Toeslagen verwerkt is bij aanvragers van kinderopvangtoeslag. Ook Amnesty en het College voor de Rechten van de Mens hebben hierover gepubliceerd. Ook de betrokken staatssecretaris heeft erkend dat er sprake is geweest van institutioneel racisme bij de Belastingdienst/Toeslagen.
40) Dit betreft de kenmerken die zijn gebruik voor het samenstellen van de smalle vergelijkingsgroep (zie Paragraaf 6.2). Deze kenmerken blijken op basis van multivariate analyses (stap 2) het belangrijkste voor het voorspellen van dupering en de geselecteerde uitkomstmaten (bijvoorbeeld wanbetaler van de zorgverzekering) of zijn nodig om de groepen gelijk te maken op de geselecteerde uitkomstmaten voorafgaand aan dupering/selectie.
41) Zowel voor dupering als voor de geselecteerde tien uitkomstmaten zijn meer dan 1000 regressiemodellen met elkaar vergeleken. De algemene procedure die gevolgd is, is dat zowel voor dupering als voor de geselecteerde uitkomstmaten kenmerken geselecteerd zijn die bivariaat de sterkste samenhang vertoonden. Vervolgens zijn de andere kenmerken in verschillende combinaties toegevoegd waarna een keuze is gemaakt om een kenmerk toe te voegen. Vervolgens zijn meerdere combinaties van kenmerken verkend. Dit is voor alle dupering/selectiejaren samen gedaan en vervolgens zijn de regressiemodellen voor alle dupering/selectiejaren afzonderlijk gedraaid. Dit omdat de samenhang tussen de kenmerken en gedupeerdheid kan veranderen door de tijd heen. Het terugvorderingsbeleid van de Belastingdienst/Toeslagen heeft immers over de tijd heen aanpassingen gekend. Omdat er geen duidelijke verschillen zichtbaar waren tussen de jaren worden alle dupering/selectiejaren samengenomen.
42) Voor deze haalbaarheidsstudie is ook recent arbeidsverleden getoetst en dit blijkt een belangrijke voorspeller voor de kans op dupering. In de huidige studie is inkomen gemiddeld over drie jaar meegenomen, want deze blijkt de kans op dupering beter te voorspellen dan inkomen in het jaar voorafgaand aan dupering/selectie, zoals in het vorige CBS onderzoek gebruikt.
43) Omdat er veel verschillende variabelen zijn vergeleken tussen de groepen zijn er veel significantietoetsen gedaan. Het is dan gebruikelijk om een correctie toe te passen (bijvoorbeeld een Bonferroni-correctie). In deze haalbaarheidsstudie is voor een meer conservatieve aanpak gekozen (zonder correctie). In toekomstig onderzoek kan een dergelijke correctie eventueel worden toegepast.
44) Voor alle kenmerken is de standardized mean difference bestudeerd. Er zijn ook andere checks uitgevoerd om de kwaliteit van de smalle vergelijkingsgroep te beoordelen. Zo zijn de common support figuren bestudeerd voor de verschillende methodes.
45) De gedupeerden en smalle vergelijkingsgroep verschillen nog wel significant op een aantal andere variabelen zoals leeftijd aanvrager, leeftijd van het oudste kind en burgerlijke staat, maar het gaat om kleine verschillen.