Auteur: Lydia Geijtenbeek
Wat is de meerwaarde van Artificiële Intelligentie in statistisch onderzoek?

Samenvatting

In deze notitie beschrijven we mogelijke voordelen van Artificiële Intelligentie1) (AI) of Machinaal Leren (ML) voor statistisch onderzoek. We beperken ons tot methoden die een bepaalde uitkomst (bv. inkomen, werkloosheid) van een groep in beeld te brengen in relatie tot bepaalde achtergrondkenmerken (bv. geslacht, type woning).We vergelijken vijf methoden, van eenvoudige kruistabellen tot meer complexe beslisbomen of neurale netwerken, waarvan er drie onder de noemer AI/ML vallen. Van eenvoudig tot complex zijn dat:

  1. Kruistabellen
  2. Regressieanalyse
  3. Eenvoudige beslisboom (AI/ML)
  4. Complexe beslisboom (AI/ML)
  5. Neurale netwerken (AI/ML)

Een nadeel van complexere methoden, is dat ze meestal meer ontwikkel- en rekentijd kosten. Daarnaast zijn de resultaten soms lastiger te interpreteren. Een voordeel van complexe methoden is dat ze beter inzichtelijk maken hoe verschillende kenmerken samen een uitkomst beïnvloeden. Ook kan je met complexe methoden (betere) schattingen maken van de uitkomst. In de hoofdtekst van dit document wordt dit nader toegelicht, inclusief voorbeelden en lijsten met voor- en nadelen per methode.

Uiteindelijk bepalen vooral de vraag en de situatie welke methode het meest geschikt is. Het onderstaande schema geeft voor een aantal mogelijke vragen van de gebruiker en mogelijke kenmerken van de data voor elk van de vijf methoden aan in hoeverre deze heel geschikt (+), een beetje geschikt (±) of minder geschikt (-) is:

Tabel 1 Mate van toepasselijkheid van de vijf methoden afhankelijk van de vraag en achtergrondkenmerken
Wat is de vraag, en welke achtergrondkenmerken
neem je mee?
Kruis-tabelRegressie-analyseEenvoudige beslisboomComplexe beslisboomNeuraal netwerk
Snel inzicht in een uitkomst met enkele
achtergrondkenmerken die onderling
weinig samenhangen.
+±---
Inzicht in het verband tussen een uitkomst
en enkele achtergrondkenmerken
die onderling samenhangen
±+±±-
Inzicht in de mate waarin een uitkomst
samenhangt met verschillende achtergrondkenmerken
±+++-
Inzicht in het verband tussen een uitkomst
en een groot aantal (combinaties van)
achtergrondkenmerken, of achtergrondkenmerken
die onderling samenhangen
-±++-
Groepen identificeren met combinaties
van kenmerken waarbij de uitkomsten gemiddeld
relatief hoog (of juist laag) zijn
--+--
En berekening die voor elke combinatie
van kenmerken een uitkomst schat. Dit is
vooral interessant voor gevallen
waarbij de uitkomst (nog) niet bekend is.
-±±++
Een zo scherp mogelijke schatting van de
uitkomst op basis van achtergrondkenmerken,
waarbij uitlegbaarheid of
transparantie geen issue is.
---±+

Onze conclusie is hiermee dat AI/ML zeker nuttig kan zijn, afhankelijk van de vraag en de data. Vooral in gevallen met veel achtergrondkenmerken die bovendien onderling samenhangen, heeft AI/ML vaak meerwaarde.

1) Er zijn veel verschillende definities van AI, en niet iedereen zou de methodes die hier beschreven worden onder AI scharen. Daarom gebruiken we in dit document bij voorkeur de term Machinaal Leren (ML).