Vooronderzoek AI-model intergenerationele armoede

3. Mogelijke meerwaarde van AI-model intergenerationele armoede

Tijdens het vooronderzoek zijn drie uitgangspunten als basis genomen. Op basis van deze drie uitgangspunten is onderzocht wat de mogelijke meerwaarde zou kunnen zijn van het toepassen van AI-modellen, ten opzichte van het reeds eerder uitgevoerde onderzoek naar intergenerationele armoede:

  1. Het gebruiken een AI-model i.p.v. “klassieke” regressie-analyses.
  2. Het includeren van een bredere populatie.
  3. Het meenemen van meerdere achtergrondkenmerken.

De uitkomsten van het vooronderzoek, in relatie tot deze drie uitgangspunten, worden hieronder beschreven. Bij het vooronderzoek is het integrale inkomensbestand 2021 als basis genomen. Dit zijn de meest recente definitieve gegevens die momenteel beschikbaar zijn en bovendien is het jaar 2021 relatief stabiel qua inkomen1).

3.1. Het gebruiken een AI-model i.p.v. “klassieke” regressie-analyses

De methode die gebruikt wordt in de eerder ontwikkelde AI-modellen is eXtreme Gradient Boosting (XGBoost) (Chen and Guestrin, 20162)). XGBoost combineert meerdere beslisbomen om tot gedetailleerde schattingen te komen. In een beslisboom wordt de data telkens op basis van één kenmerk in twee groepen verdeeld. De groepen worden zo bepaald dat iedere keer als een splitsing gemaakt wordt, de toename in de modelkwaliteit het grootst is. De methode zal proberen ervoor te zorgen dat de groepen zoveel mogelijk gelijke records bevat wat betreft de doelvariabele (transitie uit armoede). Doordat XGBoost meerdere beslisbomen combineert, ontstaan er subgroepen die op meerdere kenmerken gebaseerd zijn. Deze subgroepen hebben ieder een bepaalde kans op transitie uit armoede. Iedere opeenvolgende beslisboom verhoogt de modelkwaliteit. Door de beslisbomen uiteindelijk te combineren wordt het model robuuster.

Voor het goed functioneren van een dergelijk AI-model is enerzijds een voldoende grote populatie nodig, met anderzijds voldoende variatie in relevante achtergrondkenmerken. Alleen dan is het mogelijk om tot gedetailleerde schattingen te komen voor de kans op transitie uit armoede, voor verschillende subgroepen die gebaseerd zijn op meerdere kenmerken. Het is echter niet goed mogelijk om een harde ondergrens te geven op het aantal personen dat minimaal in een dataset moet zitten, wil deze geschikt zijn voor het toepassen van AI-modellen. Dit hangt af van veel factoren: de zeldzaamheid van de gebeurtenis die gemodelleerd wordt, het aantal kenmerken dat meegenomen wordt in het model, de mate van detail in de kenmerken en het gewenste detail van het model. Een andere factor waar de gewenste omvang van af hangt is de voorspellende waarde van de kenmerken (de sterkte waarmee kenmerken en doelvariabele samenhangen).

Aan de hand van het model voor transitie uit de armoede (Van der Laan et al. 2022)3) is ook een vereenvoudigd model geschat (pagina's 21-24). Dit model deelt de populatie in in een aantal groepen en de kans om uit armoede te komen wordt geschat aan de hand van de fractie mensen in een bepaalde groep dat uit de armoede komt. Voor een redelijke schatting van die fractie zijn al snel circa 100 personen per groep nodig. De kleinste groep bevat 1% van de populatie. In dat geval zijn er circa 10.000 personen (1% van 1 miljoen) nodig om een soortgelijk eenvoudig model te schatten. Voor complexere modellen neemt dit aantal snel toe.

Deelconclusie 1: Om tot gedetailleerde schattingen te komen door middel van de XGBoost techniek is een dataset van voldoende omvang en met voldoende (variatie in) relevante achtergrondkenmerken nodig.

3.2. Het includeren van een bredere populatie

In het eerdere intergenerationele armoedeonderzoek, bestond de onderzoekspopulatie uit circa 932.000 personen van 25 tot 43 jaar in 2020, waarvoor ook inkomensgegevens over de ouders in 1995 beschikbaar waren, zie figuur 3.2.1:

Figuur_030201

Alhoewel dit al een vrij grote onderzoekspopulatie is, zou de meerwaarde van het AI-model voor intergenerationele armoede kunnen zitten in het includeren van een ruimere populatie. Bijvoorbeeld door in 2021 te kijken naar alle personen van 25 jaar of ouder, die een eigen huishouden hebben (exclusief studentenhuishoudens). Op basis van het ouder-kind-bestand kan afgeleid worden wie de ouders van deze personen zijn. Vergelijkbaar aan het eerdere onderzoek, wordt voor deze ouders naar het inkomen 25 jaar terug gekeken, dat wil zeggen het inkomen in 1996 op basis van het RIO (steekproef van circa een derde van de bevolking). Het inkomen van de personen in 2021 wordt gerelateerd aan het inkomen van de ouders in 1996 (indien deze in de steekproef van het RIO zaten). De opzet is dus in principe vergelijkbaar met het eerdere onderzoek, alleen wordt de doelgroep verbreed van 25 tot 43 jaar naar 25plus.

De oudere personen in het cohort van 2021 waren in 1996 zelf al volwassen. Bijvoorbeeld iemand die in 2021 60 jaar is, was in 1996 35 jaar. Dat betekent dat deze persoon (waarschijnlijk) al een eigen huishouden had en niet meer bij zijn / haar ouders inwoonde. Dit verandert de insteek van de onderzoeksvraag. Er wordt immers niet meer alleen gekeken naar de relatie tussen het inkomen van het kind op volwassen leeftijd en het inkomen van de ouders tijdens de “vormende” jaren van het minderjarige kind. Maar voor een deel van de populatie wordt gekeken naar de relatie tussen het inkomen van het volwassen kind en het inkomen van diens ouders toen het kind al volwassen was. Het is aannemelijk dat vooral de vormende jaren van invloed zijn op het toekomstige inkomen van het kind op latere leeftijd. In de vormende jaren wordt meestal het fundament gelegd voor het opleidingsniveau van het kind. Het is waarschijnlijk dat de invloed van het inkomen van de ouders op het moment dat het kind zelf al volwassen is en een eigen huishouden heeft, beperkter zal zijn. Dit kan getoetst worden door de leeftijd van het kind mee te nemen in de analyse, zie figuur 3.2.2:

Figuur_030202

Als je puur geïnteresseerd bent in het effect van het inkomen van ouders tijdens de vormende jaren van het kind, op het uiteindelijke inkomen van het kind zelf, zou je voor deze oudere personen in het cohort (degenen die in 2021 43 jaar of ouder waren), eigenlijk verder terug moeten kijken in de tijd naar het inkomen van de ouders op het moment dat de kinderen nog minderjarig waren. Aangezien het RIO pas in 1994 gestart is, zou dat alleen kunnen met inkomensgegevens uit Inkomenspanelonderzoek (IPO) dat in 1977 startte, en aanvankelijk om de vier jaar werd uitgevoerd en vanaf 1989 jaarlijks. Het IPO (dat net als het RIO inmiddels vervangen is door de integrale inkomensstatistiek) was vooral bedoeld voor gedetailleerde inkomensstatistieken op landelijk niveau. Het laatste IPO in 2014 omvatte circa 280.000 panelleden, aanzienlijk lager dan het RIO. Toch kan er vanuit het IPO voor circa 80.000 kind-ouder-matches per jaar het inkomen van de ouders achterhaald worden. Dit is schematisch weergegeven in figuur 3.2.3:

Figuur_030203

In tabel 3.2.1 is een overzicht opgenomen van cohorten. Voor elk jaartal is weergegeven wat de leeftijd van het kind is. Je zou dan naar de 20 gele cohorten kunnen kijken: personen die in 1977–1996 zijn geboren, het inkomen van hun ouders tijdens hun jeugd (cohort 18: 1977–1994, cohort 37: 1996–2013) en hun eigen inkomen op 25-jarige leeftijd (cohort 18: 2002, cohort 37: 2021). Zowel het verzamelen van de data als het analyseren ervan zal niet triviaal zijn. Ook ontbreken van mensen geboren tussen 1977 en 1989 vrijwel alle jaargegevens van de ouders: alleen de inkomens van de ouders uit 1977, 1981 en 1985 zijn beschikbaar. Bovendien veranderen huishoudens in de loop van de tijd van samenstelling, hetgeen de analyse nog complexer maakt. Voorgestelde cohort-aanpak lijkt te bewerkelijk voor hetgeen het zou opleveren.

In tabel 3.2.1 is een overzicht opgenomen van cohorten. Voor elk jaartal is weergegeven wat de leeftijd van het kind is.

Deelconclusie 2: Het verbreden van de doelgroep (25 jaar of ouder) t.o.v. het eerder uitgevoerde onderzoek naar intergenerationele armoede (25 tot 43 jaar) vereist een gestratificeerde analyse, waarbij onderscheid gemaakt wordt tussen kinderen die in 1996 minderjarig danwel meerderjarig waren. Het is de verwachting dat de relatie tussen het inkomen van de ouders en het inkomen van de kinderen minder sterk zal zijn op het moment dat de kinderen uit huis zijn. Voor de oudere personen in het cohort moet daarom eigenlijk verder terug gekeken worden in de tijd, naar het moment dat zij minderjarig waren. Dan kom je uit bij het IPO, hetgeen van onvoldoende jaren inkomensinformatie over de ouders oplevert. Nadeel is bovendien dat de ouders in de vormende jaren van de kinderen jonger zullen zijn dan het kind in 2021 (50-jarigen in 2021 waren in 1977 6 jaar en de ouders zullen toen meestal jonger dan 50 zijn geweest). De geschatte inkomensmobiliteit kan dan te hoog uitpakken. Het verbreden van de doelgroep is dus geen reële optie.

3.3. Het meenemen van meerdere achtergrondkenmerken

Het reeds uitgevoerde onderzoek naar intergenerationele armoede omvatte een beperkte set aan achtergrondkenmerken, namelijk leeftijd, opleidingsniveau, herkomst en huishoudenssamenstelling. Een mogelijke meerwaarde die een AI-model kan hebben ten opzichte van het reeds bestaande onderzoek, is dat er meerdere achtergrondkenmerken in samenhang gemodelleerd kunnen worden. Dan moeten er voor zowel de kinderen als de ouders wel voldoende data beschikbaar zijn voor deze achtergrondkenmerken. Dit is uitgezocht voor personen die in 2021 25 tot 43 jaar oud zijn en hun ouders in 1996.

Voor de personen in het cohort 2021 zijn voldoende aanvullende achtergrondkenmerken beschikbaar. Deze personen zijn immers maximaal 42 jaar oud, waardoor gegevens als het hebben van werk, gebruik van landelijke armoederegelingen zoals zorg- en huurtoeslag, uitkeringen en bijstand, informatie over de woning en (eventuele) partner veelal integraal geregistreerd staan.

Vervolgens is uitgezocht welke achtergrondkenmerken we zouden kunnen meenemen van de ouders van dit cohort in 1996. Deze ouders zullen gemiddeld ongeveer 40 jaar oud zijn in 1996 (zie intergenerationele armoede). Voor basiskenmerken zoals leeftijd, herkomst en huishoudenssamenstelling is er geen probleem, deze variabelen zijn immers ook al meegenomen in het eerder uitgevoerde onderzoek. Vanuit het RIO 1996 zijn wel de voornaamste inkomensbron van het huishouden en de sociaal-economische positie van personen af te leiden. Het opleidingsniveau van de ouders is lastiger, omdat deze data pas vanaf 1999 beschikbaar zijn (en in deze opzet kijken we naar de ouders in 1996). Bovendien is de verwachting dat vooral gegevens van oudere mensen zullen ontbreken, waardoor een selectie-effect kan ontstaan. Overige achtergrondkenmerken van de ouders zijn niet beschikbaar. Te denken valt bijvoorbeeld aan gegevens over voortijdig schoolverlaten, verhuizingen, migratiemotief, arbeidsduur of deeltijdfactor, het hebben van problematische schulden, zorgkosten en medicijngebruik. Dit soort kenmerken zijn mogelijk van invloed op intergenerationele armoede, maar hierover zijn voor deze groep ouders geen registerdata beschikbaar4).

Een bewerkelijk alternatief zou kunnen zijn om de populatie 25-jarigen in 2021 te nemen en daaraan informatie te koppelen van ouders over 1996 (toen de populatie 0 was) t/m 2013 (toen de populatie 17 was). Dit is schematisch weergegeven in figuur 3.3.1. Het voordeel hiervan is dat er meer informatie over de ouders beschikbaar is, omdat het om een relatief jong cohort gaat. Bovendien wordt er niet naar 1 peiljaar in het verleden gekeken, maar wordt er gekeken naar het inkomen van de ouders gedurende alle jaren dat het kind minderjarig was. Het nadeel is echter dat het dan om een relatief kleine onderzoekspopulatie gaat (enkele degenen die in 2021 25 jaar waren). Bovendien zijn de waarnemingen niet onafhankelijk en zouden we van de nieuwe generatie maar één jaar aan informatie gebruiken. Ook zijn deze mensen nog relatief jong, waardoor hun inkomen waarschijnlijk nog niet stabiel is.

Figuur_030301

Men zou dat in principe ook voor oudere leeftijdsgroepen kunnen doen, maar dan moet er ook weer verder terug in de tijd gekeken worden (42-jarigen in 2021 waren 0 in 1979 en 17 in 1996: in dit geval is er dan informatie van de ouders uit 1981, 1985 en de jaren 1989-1996). De verwachting is dat deze aanpak zeer tijdsintensief is en relatief weinig meerwaarde oplevert ten opzichte van het reeds bestaande onderzoek.

Deelconclusie 3: Voor de personen in 2021 zijn voldoende achtergrondkenmerken beschikbaar uit de registers van het CBS. Voor hun ouders in 1996 zijn echter vooral basiskenmerken beschikbaar zoals leeftijd, herkomst, huishoudenssamenstelling en inkomensgerelateerde informatie (bijv. baan of uitkering). Er zijn voor deze oudere generatie onvoldoende aanvullende achtergrondkenmerken beschikbaar in de registers die het CBS ter beschikking heeft, wanneer er in de tijd wordt teruggekeken.

1) Nadat in 2020 de economie forse klappen kreeg vanwege het coronavirus, was er in 2021 weer sprake van herstel (zie Ontwikkelingen op de markt voor bedrijfsfinanciering - Financieringsmonitor 2022 | CBS). Ook was in 2021 de tijdelijke overbruggingsregeling zelfstandig ondernemers (Tozo) nog van kracht (zie https://www.cbs.nl/nl-nl/maatwerk/2022/44/tabellen-tozo-definitief-2021 | CBS). Consumentenprijzen waren in 2021 gemiddeld 2,7 procent hoger dan in 2020, ten opzichte van een prijsstijging van 1,3 procent een jaar daarvoor. Vooral de prijsontwikkeling van energie droeg bij aan de hogere inflatie in 2021. (zie https://www.cbs.nl/nl-nl/nieuws/2022/02/inflatie-2-7-procent-in-2021| CBS). Dit was echter nog voor de Russische invasie in Oekraïne (februari 2022).
2) Chen, T.Q. and Guestrin, C. (2016) Xgboost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, 13-17 August 2016, 785-794.
3) J. van der Laan,  N. Schalken en  S. Tan (2022). Risicofactoren voor transitie uit armoede, CBS. https://www.cbs.nl/nl-nl/over-ons/onderzoek-en-innovatie/project/risicofactoren-voor-armoede-18-30-en-40-64-jarigen-in-armoede. https://doi.org/10.1145/2939672.2939785.
4) Ook indien de leeftijd van het 2021-cohort aangepast zou worden naar 30 tot 42 jaar, is de verwachting dat er voor de ouders onvoldoende achtergrondkenmerken beschikbaar zullen zijn.