Auteur: Lydia Geijtenbeek
Wat is de meerwaarde van Artificiële Intelligentie in statistisch onderzoek?

1. Inleiding

1.1 Introductie

Het ministerie van Binnenlandse Zaken en Koninkrijksrelaties (BZK) heeft het CBS gevraagd om aan te geven wat de meerwaarde is van complexere methoden zoals Artificiële Intelligentie (AI) ten opzichte van meer traditionele statistische methoden. AI is echter een breed begrip waar veel onder valt, en met veel verschillende definities. Daarom gebruiken we hier de term Machinaal Leren (ML). In deze notitie richten we ons op rekenmethoden om binnen een bepaalde dataset een uitkomst (bv. inkomen, energieverbruik, aantal kinderen) te beschrijven aan de hand van achtergrondkenmerken (bv. leeftijd, samenstelling van het huishouden, inkomensbron). We bekijken een aantal methoden waarvan er drie vallen onder de noemer AI/ML2). Op volgorde van eenvoudig tot complex zijn dat:

  1. Kruistabellen
  2. Regressieanalyse
  3. Eenvoudige beslisboom (AI/ML)
  4. Complexe beslisboom (AI/ML)
  5. Neurale netwerken (AI/ML)

Voor elk van deze methoden geven we een korte beschrijving, plus voor- en nadelen en we geven aan in welke situaties ML-methoden een meerwaarde kunnen hebben.

Nota bene:

  • Al deze methoden kunnen enkel in beeld brengen hoe kenmerken met een bepaalde uitkomst samenhangen, maar niet waarom. Het gaat dan ook enkel om verbanden, maar niet over oorzaak en gevolg.
  • Er bestaan veel meer methoden dan genoemd in deze notitie. We richten ons hier vooral op methoden die binnen het CBS relatief veel worden gebruikt.

1.2 Voorbeelden

Om de beschrijving tastbaar te maken gebruiken we voorbeelden. Deze introduceren we hier.

Voorbeeld: kleinkinderen

Eerst een theoretisch voorbeeld, waarbij we kijken naar de uitkomst ‘heeft kleinkinderen’. Deze komt vrijwel alleen voor bij een selecte groep, namelijk ouderen (55+).

Voorbeeld: energiearmoede

Het CBS gebruikt beslisbomen om voor gemeenten en BZK onderzoek te doen naar groepen met een grote kans op energiearmoede 3). Als voorbeeld gebruiken we een vereenvoudigde versie van dit onderzoek om beslisbomen te vergelijken met tabellen en regressie. Deze versie kijkt naar 100.000 woningen, en bekijkt enkel de volgende achtergrondkenmerken: type huishouden, leeftijd hoofdbewoner, bouwjaar, woningtype, oppervlakte, type eigendom.

Voorbeeld: kinderarmoede

In opdracht van BZK heeft het CBS de afgelopen jaren onderzoek uitgevoerd naar kenmerken die samenhangen met de kans om uit armoede te komen of arm te blijven 4), 5). Hierbij werd gebruik gemaakt van ML in de vorm van een complex beslisboom algoritme (XGBoost). Voor het onderzoek over kinderarmoede heeft het CBS onderzocht welke kenmerken bijdragen aan de kans dat een arm kind het volgende jaar uit de armoede komt, wat die kans is, en welke combinaties van kenmerken samengaan met een hoge of lage kans 6).

2) Meer specifiek: supervised Machine Learning/Machinaal Leren. Bij supervised ML is er een dataset beschikbaar met daarin voor (een representatieve steekproef van) objecten de achtergrondkenmerken en uitkomst. Aan de hand van deze dataset wordt een model geschat dat zo goed mogelijk de uitkomst voorspelt.
3) https://www.cbs.nl/nl-nl/maatwerk/2024/24/energiearmoede-voor-gemeenten-2021
4) https://www.cbs.nl/nl-nl/over-ons/innovatie/project/risicofactoren-voor-transities-in-en-uit-armoede
5) https://www.cbs.nl/nl-nl/over-ons/onderzoek-en-innovatie/project/risicofactoren-voor-armoede-18-30-en-40-64-jarigen-in-armoede
6) https://www.cbs.nl/nl-nl/longread/aanvullende-statistische-diensten/2024/kenmerken-die-samenhangen-met-de-kans-om-uit-kinderarmoede-te-komen