Bijlage B - Methode
B1 Inleiding
Armoede is een complex probleem waarbij verschillende kenmerken een rol kunnen spelen. De verschillende kenmerken hebben waarschijnlijk interacties met elkaar en de relatie tussen kenmerken en de kans om uit armoede te komen is waarschijnlijk niet-lineair. Om deze complexe relaties goed te kunnen onderzoeken is er gekozen om gebruik te maken van machinelearning, een vorm van Artificial Intelligence (AI). Er is een AI-model ontwikkeld om te bepalen welke (combinaties van) kenmerken samenhangen met de kans om uit armoede te komen bij minderjarige kinderen. Het model schat de kans dat een kind dat in 2020 arm was in 2021 niet meer arm was op basis van de kenmerken zoals beschreven in Bijlage A. De methode die gebruikt is, is vergelijkbaar met de methode uit eerder onderzoek naar transitie in en uit armoede bij volwassen (Laan e.a., 2021, 2022). De uitgebreide methodebeschrijving is in de eerdere rapporten terug te vinden, hier wordt een beknoptere beschrijving gegeven.
B2 Beslisbomen
De methode die gebruikt is, heet eXtreme Gradient Boosting (XGBoost) en maakt gebruik van beslisbomen (Chen en Guestrin, 2016). Een beslisboom deelt de kinderen in groepen in, aan de hand van kenmerken van de kinderen, hun ouder(s) (en eventuele partner), hun huishouden of hun buurt. Dat indelen gebeurt in een aantal stappen. In de eerste stap worden alle arme kinderen in twee groepen verdeeld, bijvoorbeeld op basis van inkomensbron van het huishouden: het huishouden leeft van een bijstandsuitkering of niet. In een volgende stap wordt elke groep weer verdeeld in twee groepen. De eerste groep (kinderen in een huishouden met bijstand) wordt bijvoorbeeld verdeeld in kinderen met een leeftijd tot of vanaf 15 jaar en de tweede groep (kinderen uit een huishouden zonder bijstand) wordt verdeeld in kinderen waarvan de moeder wel of niet een vaste baan heeft.
De selectie van de kenmerken die gebruikt worden (hier: bijstandsuitkering, leeftijd, vaste baan moeder) en de selectiecriteria (bijvoorbeeld de grens van 15 jaar) worden door het model bepaald zodat ieder van de uiteindelijke groepen in de boom zoveel mogelijk bestaat uit kinderen die of allemaal arm blijven of allemaal uit de armoede komen. Om de kans om uit armoede te komen voor een bepaald kind te schatten, wordt gekeken in welke groep dit kind valt. De kans om uit de armoede te komen is dan het aandeel (percentage) kinderen binnen dat groepje dat uit de armoede komt ten opzichte van alle kinderen binnen dat groepje.
B3 XGBoost
Beslisbomen hebben als voordeel dat ze makkelijk te begrijpen zijn. Beslisbomen kunnen ook omgaan met ontbrekende waarden in de kenmerken. Van niet iedereen is bijvoorbeeld het opleidingsniveau bekend. Kinderen van ouders met een onbekend opleidingsniveau kunnen in de boom ingedeeld worden in de groep waarop ze het meest lijken (wat betreft hun kans om uit de armoede te komen). Beslisbomen hebben als nadeel dat de schattingen erg onzeker zijn (Hastie e.a., 2001). Een kleine verandering in de data kan al vroeg in de boom tot een andere splitsing leiden, wat effect heeft op alle verdere splitsingen. Dit kan verbeterd worden door meerdere beslisbomen te combineren, waarbij elke boom op een aselect sample van de data wordt getraind (en in elke splitsing een aselect deel van de kenmerken wordt aangeboden). Nadeel van dit zogenaamde bagging is dat kenmerken die sterk correleren ongeveer even vaak worden gekozen, waardoor hun belang wordt onderschat. XGBoost lost dit op door bomen niet onafhankelijk (parallel) te schatten maar na elkaar (sequentieel). Iedere volgende beslisboom verbetert voorspellingen van de voorgaande beslisbomen. Hiermee levert XGBoost robuustere resultaten dan klassieke beslisbomen en heeft het minder moeite met gecorreleerde kenmerken dan bagging.
B4 Tunen en schatten van het model
Bij het schatten van het XGboost-model moet een goede balans gevonden worden tussen ‘overfit’ en ‘onderfit’. Bij overfit bevat het model te veel detail. Het gaat allerlei eigenschappen beschrijven die toevallig in de dataset zitten waarmee het model geschat is. Het model is daardoor niet goed toepasbaar op andere datasets. Bij een nieuwe dataset zal het model slechtere schattingen opleveren. Bij onderfit bevat het model te weinig detail. Het model is te grof en zal in het algemeen minder goed schatten. Machine‐learning methodes zoals XGboost hebben bijna altijd een aantal zogenaamde hyperparameters waarmee deze twee effecten tegen elkaar afgewogen kunnen worden. Bij het schatten van het model moeten verschillende waardes van deze hyperparameters uitgeprobeerd worden om een goed model te vinden.
De onderstaande hyperparameters zijn onderzocht:
- ntree: het aantal beslisbomen dat geschat wordt. Dit is de belangrijkste parameter. Hoe meer bomen, hoe meer detail de methode kan schatten.
- boomdiepte: maximale diepte van de bomen, dus het aantal keer dat de dataset gesplitst wordt. Bij een boomdiepte van 4 kan de dataset in maximaal 24 = 16 groepen verdeeld worden. Ook hier geldt weer: hoe dieper de boom hoe meer detail.
- leersnelheid: hoe snel leert het model. Als de snelheid hoog is dan hebben de eerst geschatte beslisbomen heel veel invloed op de schattingen. Omdat er een zekere mate van toeval zit in deze beslisbomen kan het model hiermee minder goed zijn. Een lagere leersnelheid is in het algemeen beter maar zorgt er wel voor dat het aantal bomen (ntree) hoger moet zijn en dat het trainen langer duurt.
Om de optimale waarde te vinden van deze hyperparameters is een deel van de dataset gebruikt. De hele dataset (met de hele populatie) is hiervoor verdeeld in een training/validatieset (90 procent van de data) en een testset (10 procent). De training/validatieset is vervolgens verdeeld in een trainingset (90 procent) en een validatieset (10 procent). De trainingset is gebruikt om verschillende modellen te trainen met verschillende combinaties van hyperparameters. De validatieset is gebruikt om te kijken welk model en dus welke combinatie van hyperparameters de beste voorspellingen geeft.
Voor dit onderzoek leverde een model met minimaal 500 bomen, een maximale boomdiepte van 15 splitsingen en een leersnelheid van 0.1 de beste voorspellingen op. Deze parameters zijn vervolgens gebruikt om een model te schatten op de hele training/validatieset. De kwaliteit van dat uiteindelijke model is geëvalueerd in de testset. Hierbij is gebruik gemaakt van kruisvalidatie; dat betekent dat het proces van schatten en evalueren van het model 10 keer is herhaald, waarbij steeds een ander deel van de data als training/validatieset en testset gebruikt is. Dit is gedaan om een robuustere schatting van de modelkwaliteit te krijgen. Een bijkomend voordeel is dat er voor iedereen in de populatie een schatting is.
B5 Modelkwaliteit
Om de kwaliteit van het model te meten wordt de geschatte kans om uit armoede te komen voor ieder kind vergeleken met de daadwerkelijk waargenomen waarde. Idealiter is de geschatte kans uit het model gelijk aan één als een kind uit armoede is gekomen en is de geschatte kans gelijk aan nul wanneer het kind in armoede blijft. Op dat moment weet het model perfect onderscheid te maken tussen kinderen die wel en niet arm blijven. De volgende twee alinea’s zijn vrij technisch van aard. Deze informatie is vooral bedoeld voor onderzoekers die met dergelijke modellen werken.
Er bestaan verschillende maten om de kwaliteit van een model te bepalen. Om de modellen te trainen is in dit onderzoek gebruik gemaakt van de negatieve log-likelihood voor binaire classificatie. Dit is een maat voor het verschil tussen de voorspelde kans en de waargenomen uitkomstvariabele (indicator voor uit armoede komen). Verder worden nog drie aanvullende kwaliteitsmaten bekeken: F1+mmn(c*), MCC(c*) en Somers’ D. Deze zijn gebaseerd op de confusiematrix. In een eerdere publicatie wordt dit uitgebreid uitgelegd (Laan e.a., 2021). Hoe hoger de drempelwaarde c, hoe minder false positives en hoe meer true negatives maar ook hoe minder true positives en hoe meer false negatives. De F1+ is het harmonisch gemiddelde van recall en precisie voor de positieve categorie (‘komt uit armoede’). De toevoeging mmn staat voor min-max normalisatie, een manier om de score te herschalen van bereik [a;1] naar bereik [0;1], waarbij a de waargenomen fractie is die uit de armoede komt. MCC is Matthews’ correlatiecoëfficiënt voor de correlatie tussen twee binaire variabelen. F1 en MCC worden gegeven voor de optimale drempelwaarde c* waarbij ze de hoogste score geven. Somers’ D is de area under the ROC-curve (AUC) herschaald van bereik [0,5;1] naar bereik [0;1]. AUC is de oppervlakte onder de curve wanneer de recall van de positieve categorie wordt geplot tegen de recall van de negatieve categorie voor verschillende drempelwaardes.
De kwaliteit van de voorspellingen in dit onderzoek is goed en opvallend beter dan vergelijkbare modellen die in eerder onderzoek voor de arme populatie volwassenen gebruikt waren (Laan e.a., 2021, 2022). De F1+mmn(c*) is 0.90. Dit betekent dat bij de optimale drempelwaarde het harmonisch gemiddelde van recall en precisie op 90 procent ligt tussen gokken (dat kind uit armoede komt met kans 0.38) en foutloze schattingen. De MCC(c*) is 0.84. Dit betekent dat bij de optimale drempelwaarde de waargenomen en geschatte indicatoren voor uit armoede komen sterk positief gecorreleerd zijn. Somers’ D is 0.95. Dit betekent dat 95 procent van de oppervlakte boven de diagonaal onder de ROC-curve is.
B6 SHAP-Waarden
Het is belangrijk om te begrijpen hoe het model voorspellingen maakt. Je wilt bijvoorbeeld uitspraken kunnen doen als: ‘Dit kind heeft een grote kans om uit de armoede te komen, want hoewel het huishouden van het kind leeft van de bijstand, is het kind niet heel jong meer en heeft zijn/haar alleenstaande ouder recent een partner gevonden. Deze laatste twee kenmerken verhogen de kans om uit de armoede te komen.’ Een manier daarvoor is om voor ieder kenmerk en per kind een zogenoemde SHapley Additive exPlanation (SHAP)-waarde te berekenen. Een positieve SHAP-waarde betekent dat iemands score op het kenmerk de kans om uit armoede te komen verhoogt (potentieel stimulerende factor). Een negatieve SHAP-waarde betekent dat iemands score op het kenmerk de kans om uit armoede te komen verlaagt (potentieel remmende factor). Een SHAP-waarde rond nul betekent dat iemands score op het kenmerk geen effect heeft op de kans om uit de armoede te komen. Dus hoe meer de SHAP-waarden van nul afwijken (in positieve of negatieve richting), hoe belangrijker een kenmerk. Er kan dus een rangorde van kenmerken worden gemaakt: kenmerken die vaker ver van nul afwijken zijn belangrijker en dragen meer bij aan de kans om uit armoede te komen.
Wanneer een kind een SHAP-waarde van +0,7 voor een kenmerk heeft, betekent dit dat toevoegen van dit kenmerk aan het model de odds om uit armoede te komen bij dit kind met een factor e0,7 ≈ 2 toeneemt. Stel dat een kind in verwachting een kans van bijvoorbeeld 0,8 heeft om uit de armoede te komen (odds 0,8 / (1 − 0,8) = 4). De odds van een kind met een SHAP-waarde van +0,7 op een kenmerk stijgt dan naar 2 × 4 = 8. Dit vertaalt zich naar een toename in kans van 0,8 naar 0,89 (8 / (1 + 8)). Een SHAP-waarde van −0,7 vertaalt zich in dit geval naar een afname in kans van 0,8 naar 0,67. Voor een kind met in verwachting een kans van bijvoorbeeld 0,2 betekent een SHAP-waarde van +0,7 voor een kenmerk dat de kans stijgt naar 0,33.
SHAP-waardes opgeteld over kenmerken geeft per kind de logit van de voorspelde kans dat het kind uit de armoede komt. Absolute SHAP-waardes gemiddeld over kinderen geeft het relatieve belang van het kenmerk. In de figuren in dit rapport worden de SHAP-waardes voor de verschillende kenmerken en subgroepen op de x-as weergegeven. Om het minder technisch te maken wordt in de figuren niet gesproken over SHAP-waardes maar is het label vervangen door “<- Lagere kans” voor negatieve SHAP-waardes en “Hogere kans ->” voor positieve SHAP-waardes. In de figuren wordt de gemiddelde SHAP-waarde per kenmerk weergegeven en het bijbehorende interval (waardes van 80% van de groep, het 10e t/m 90e percentiel). De afwijking van nul en de breedte van het interval zijn beide indicatief voor de bijdrage van het kenmerk aan de kans om uit armoede te komen.
B7 Eenvoudiger model
XGBoost is gemaakt om de modelkwaliteit zo hoog mogelijk te maken, dus om de kans op transitie uit armoede zo goed mogelijk te voorspellen. Een nadeel van dergelijke AI-modellen is dat ze lastig te begrijpen zijn. Naast de SHAP-waardes is er ook gebruik gemaakt van een simpeler model dat de schattingen van het complexe XGBoost-model probeert te beschrijven (Molnar C., 2019). Hiervoor is een enkele regressieboom gebruikt, waarbij alleen de belangrijkste kenmerken (volgens de SHAP-waarden) uit het complexe XGboost-model worden meegenomen. Vanwege zijn eenvoud kan het eenvoudigere model de schattingen van het complexe model maar beperkt beschrijven en is het een zeer versimpelde weergave van de werkelijkheid. Het oorspronkelijke XGBoost-model verklaart 76% van de variantie in de waargenomen indicator voor uit armoede komen. De enkelvoudige beslisboom verklaart 24% van de variantie in de logit van de door XGBoost geschatte kans om uit armoede te komen. Het complexere XGBoost heeft dus meerwaarde om tot betere schattingen te komen, maar de enkelvoudige beslisboom is bedoeld om het complexe XGBoost model beter te begrijpen. Ook kunnen er door middel van het versimpelde model concrete groepen geschat worden die verschillen in hun kans op armoede. Dit kan mogelijk toch aanknopingspunten bieden voor armoedebeleid.
B8 Subgroepen
Zowel het XGBoost als het eenvoudigere model zijn ontwikkeld voor kinderen in armoede in heel Nederland. Vervolgens is voor 13 specifieke subgroepen bekeken of de bijdrage van bepaalde kenmerken en de kans om uit armoede te komen verschilt van heel Nederland. Deze specifieke subgroepen zijn tijdens het onderzoek aangedragen door inhoudelijk experts op het gebied van armoede. Dit noemen we de inhoudelijke subgroepen.
Daarnaast zijn er ook subgroepen bepaald op basis van de data. Met behulp van het eenvoudigere model zijn subgroepen bepaald die een hoge of juist lage kans hebben om uit de armoede te komen. Dit noemen we de datagedreven subgroepen.