Auteur: Ellen Webbink, Monica Deschinger, Thirsa Leendertse, Petra Molenaar-Cox, Sander van Schie
Vermogensonderzoeken in het buitenland 2019

2. Methode

Om een beeld te krijgen van de aantallen met betrekking tot vermogensonderzoeken in het buitenland in 2019, is een enquête aan alle Nederlandse gemeenten gestuurd. De vraagstelling was identiek aan het onderzoek over 2018. Voor de gemeenten die niet hebben gerespondeerd zijn, voor zover de respons dit toeliet, de aantallen geschat op basis van gemeenten die wel hebben gerespondeerd. In dit hoofdstuk wordt een toelichting gegeven op de manier van uitvragen en de gebruikte ophoogmethode.

2.1 Enquête

Het onderzoek is uitgevoerd middels een enquête die naar alle gemeenten in Nederland is verstuurd. Deze enquête is te vinden in de bijlage. De gemeenten zijn benaderd via de berichtgevers van de Bijstandsdebiteuren- en fraudestatistiek (BDFS). Een berichtgever is een gemeente of een door een aantal gemeenten opgezette dienst die de gegevens voor de BDFS aanlevert aan het CBS. Een berichtgever kan dus gegevens verstrekken over verschillende gemeenten, maar het omgekeerde komt ook voor: verschillende berichtgevers kunnen over één gemeente rapporteren. 

In de enquête zijn de volgende aantallen en bedragen uitgevraagd:

  • Het aantal gestarte vermogensonderzoeken in het buitenland in 2019.
  • Het aantal geconstateerde overtredingen van de inlichtingenplicht in 2019 wegens het verzwijgen van vermogen in het buitenland. Het gaat hier om alle overtredingen die in 2019 zijn geconstateerd, ongeacht het jaar waarin het onderzoek is gestart en de sanctie die hierop volgde.
  • Het aantal opgelegde boetes en vorderingen in dit kader, met een datum besluit in 2019 en de totale beginschuld hiervan. Ook hier geldt dat het bijbehorende onderzoek niet in 2019 hoeft te zijn gestart.

De enquête is begin februari 2021 verstuurd naar alle berichtgevers met het verzoek om deze binnen vier weken terug te sturen. Na het verstrijken van de deadline is begin maart 2021 een rappelmail verstuurd naar de berichtgevers die nog niet hadden gerespondeerd, met het verzoek de gegevens alsnog binnen twee weken terug te sturen. Nadat de deadline van het rappel verstreken was, is telefonisch of per mail contact opgenomen met de berichtgevers van gemeenten met meer dan 50 duizend inwoners die op dat moment nog niet hadden gerespondeerd, om zo te respons te verhogen.

2.2 Schatting totale aantallen

2.2.1 Multiple imputation

Om een landelijk beeld te krijgen moet de non-respons worden bijgeschat. De non-respons omvat enerzijds gemeenten die de enquête niet hebben ingevuld en anderzijds gemeenten die wel gerespondeerd hebben, maar geen (volledige) informatie konden geven. Voor de ophoging voor niet-responderende gemeenten en missende waarden is gebruik gemaakt van een methode die goed om kan gaan met het feit dat de aantallen die gemeenten verstrekken vaak zeer laag of nul zijn: Multiple Imputation (Random Hot Deck Imputation, methode predictive mean matching). Hiermee kan de respons worden aangevuld met een schatting, om zo een totaalbeeld te krijgen over de gevraagde cijfers. Bij deze statistische methode wordt bij elke non-respons-gemeente een gelijkende responderende gemeente (donorgemeente) gezocht. Vervolgens wordt de door de responderende gemeente ingevulde waarde geïmputeerd bij de non-respons-gemeente. Deze procedure leidt tot een volledig gevulde dataset. Om een zo betrouwbaar mogelijke schatting te krijgen, wordt de imputatieprocedure meerdere keren herhaald, wat leidt tot meerdere volledig gevulde datasets. De daarop volgende analyse om totaalcijfers voor Nederland te bepalen wordt gebaseerd op het gemiddelde van alle volledig gevulde datasets. De schattingsmethode is uitgevoerd met het statistisch programma R, en specifieker met de package Multivariate imputation by chained equations (MICE). Dit is andere software ten opzichte van het voorgaande onderzoek. Hier is voor gekozen omdat de voorheen gebruikte SPSS-software minder goed om blijkt te gaan met de spreiding in de waarden1).

Bovenstaande analyse is uitgevoerd voor de gevraagde aantallen in de enquête. Het aantal gemeenten dat vermogensonderzoeken is gestart in 2019 (onderzoeksvraag 1), is vervolgens afgeleid op basis van de (geïmputeerde) antwoorden op de vraag naar het aantal gestarte vermogensonderzoeken in het buitenland in 2019 (onderzoeksvraag 2). De gemeenten met een (geïmputeerd) aantal hoger dan 0, tellen mee voor het aantal gemeenten dat vermogensonderzoeken is gestart in 2019. Deze berekening is uitgevoerd voor alle geïmputeerde datasets. Door middel van de totalen van deze datasets kon ook voor dit aantal een puntschatting worden berekend, op dezelfde manier als voor de aantallen uit de enquête.

Het analyseproces omvat drie stappen.

Stap 1: Controle en correctie
De eerste stap van het analyseproces is het controleren en eventueel corrigeren van de enquêtedata. Bij enquêtes met deels ontbrekende antwoorden zijn deze, indien mogelijk, afgeleid op basis van de overige antwoorden. Wanneer bijvoorbeeld het aantal opgelegde vorderingen 0 was, is de totale beginschuld van de vorderingen ook op 0 gezet, indien deze ontbrak.

Stap 2: Imputatie met behulp van donorgemeente
Voor gemeenten die niet hebben gerespondeerd, is een donorgemeente gezocht die lijkt op de gemeente qua:

  • het totale aantal vorderingen wegens schending van de inlichtingenplicht (ontstaansgrondcodes 51 tot en met 56 in de BDFS), met een datum besluit in 2019;
  • gemeentegrootteklasse;
  • het aandeel personen met een migratieachtergrond;
  • bevolkingsdichtheid. 

Deze kenmerken zijn voor alle gemeenten bekend, ook voor de gemeenten die de enquête niet hebben ingestuurd. De achtergrondkenmerken worden gebruikt als hulpvariabelen om de ontbrekende enquêtedata (de doelvariabelen) te kunnen invullen (imputeren) bij de twee typen non-respons-gemeenten. Naast deze achtergrondkenmerken worden ook de enquêtevariabelen die worden geïmputeerd gebruikt als hulpvariabelen. Voor het schatten van het aantal gestarte onderzoeken bijvoorbeeld wordt naast de achtergrondkenmerken gebruik gemaakt van het aantal constateringen, het aantal vorderingen, de beginschuld van de vorderingen, het aantal boetes en de beginschuld van de boetes. Deze aanpak is identiek aan die van het eerder uitgevoerde onderzoek.

De vier achtergrondkenmerken zijn op basis van inhoudelijke gronden en ervaring uit het voorgaande onderzoek over 2018 gekozen als hulpvariabelen. Voor 2018 is met behulp van verkennende analyses (correlaties, chikwadraattoetsen en variantieanalyses), gebaseerd op gemeenten waarvan alle informatie bekend is, geconcludeerd dat deze vier kenmerken de beste bijdrage leveren aan het imputatieproces.

De imputatie van de ontbrekende waarden op basis van een donorgemeente is 100 keer uitgevoerd. In totaal heeft dit geleid tot 100 volledig gevulde datasets plus de originele dataset. Bij elke imputatieronde is opnieuw een donorgemeente gezocht, waardoor de geïmputeerde datasets van elkaar verschillen. Voor elke dataset is een populatietotaal voor de doelvariabele geschat. De uiteindelijke schattingen van de aantallen zijn de gemiddelden van de 100 schattingen. Bij de imputatie van de ontbrekende waarden op basis van een donorgemeente is één gemeente uitgesloten, omdat deze als een representatieve uitbijter geïdentificeerd kon worden op de variabele 'aantal vermogensonderzoeken in het buitenland'. Dat betekent dat de ingevulde responswaarde van deze gemeente wel juist is, maar niet representatief voor andere gemeenten van dezelfde grootteklasse. Bij de berekening van de onzekerheidsmarges is de betreffende gemeente wel meegenomen.

Stap 3: Onzekerheidsmarges berekenen
Omdat de aantallen die in deze publicatie gepresenteerd worden voor een deel geschat zijn, hebben de uitkomsten een bepaalde onzekerheidsmarge. 

Op basis van de spreiding in de 100 verschillende schattingen kan een onzekerheidsmarge worden bepaald van de uiteindelijke schatting van de aantallen. Voor de schattingen zijn marges en relatieve marges berekend om uitspraken te kunnen doen over de nauwkeurigheid van de schattingen. De onzekerheidsmarges zijn op de volgende manier berekend:

\[Marge = \sqrt{\left( \frac{\sum(y-\bar{y})^{2}}{n-1} \right) * (1 + \frac{1}{n})} * 1,96\]

Waarbij:
y  =  schatting in geïmputeerde dataset
ӯ  =  gemiddelde aantal van alle schattingen (puntschatting)
n  =  aantal imputaties

De marges zijn vervolgens gebruikt om een 95%-betrouwbaarheidsinterval voor de schatting te construeren. Het 95%-betrouwbaarheidsinterval wil zeggen dat in 95 van de 100 gevallen het werkelijke aantal binnen dit interval valt. Dit betekent dat er een kleine kans is dat het werkelijke aantal hoger of lager dan dit interval is. Hoe breder het interval is, hoe minder nauwkeurig de schatting. De relatieve marges zijn berekend door de marge te delen door de puntschatting. 

Om te bepalen of de schattingen betrouwbaar zijn, wordt naast de marges ook gekeken naar het aantal verschillende waarden van de doelvariabelen en de spreiding hiervan. Een klein aantal verschillende waarden met daarbij een grote spreiding, maakt het moeilijker om een betrouwbaar model samen te stellen waarmee kan worden bijgeschat voor de non-respons.

2.3 Gebruikte bronnen

Naast de gegevens die uit de enquête beschikbaar zijn gekomen, is ook gebruik gemaakt van informatie uit de Bijstandsdebiteuren en -fraudestatistiek (BDFS) en van cijfers op gemeenteniveau afkomstig van CBS StatLine. 

Bijstandsdebiteuren en -fraudestatistiek (BDFS)
Voor het bepalen van het totale aantal vorderingen wegens schending van de inlichtingenplicht met een datum besluit in 2019 is de BDFS gebruikt. De BDFS is een maandstatistiek en bevat informatie die door gemeenten en de Sociale Verzekeringsbank (SVB) wordt aangeleverd over de in Nederland openstaande schulden die ontstaan zijn vanuit de algemene- en bijzondere bijstand, IOAW, IOAZ en Bbz. Maandelijks worden bestanden met gegevens over afzonderlijke vorderingen door de gemeenten en de SVB aan het CBS verstrekt. Gegevens van de SVB zijn in de analyse niet meegenomen. In de analyse zijn per gemeente alle vorderingen met codes 51 tot en met 56 op het kenmerk Ontstaansgrond vordering en een datum besluit in 2019 meegenomen. 

Er is gebruik gemaakt van transactiebestanden. De term transactiebestand wordt gebruikt voor de bestanden waarin de administratief vertraagde informatie voor de drie verslagmaanden volgend op een bepaalde verslagmaand wordt gebruikt om de data voor die verslagmaand te verbeteren.

CBS StatLine
De overige gegevens die zijn gebruikt in de ophogingsmethode (gemeentegrootteklasse, het aandeel personen met een migratieachtergrond en de bevolkingsdichtheid) zijn ontleend aan tabellen op gemeenteniveau die zijn gepubliceerd op CBS StatLine2).

 

1) Zie voor meer uitleg over het probleem.
2) Bron: Regionale kerncijfers Nederland.