Samenvatting
In deze notitie beschrijven we mogelijke voordelen van Artificiële Intelligentie1) (AI) of Machinaal Leren (ML) voor statistisch onderzoek. We beperken ons tot methoden die een bepaalde uitkomst (bv. inkomen, werkloosheid) van een groep in beeld te brengen in relatie tot bepaalde achtergrondkenmerken (bv. geslacht, type woning).We vergelijken vijf methoden, van eenvoudige kruistabellen tot meer complexe beslisbomen of neurale netwerken, waarvan er drie onder de noemer AI/ML vallen. Van eenvoudig tot complex zijn dat:
- Kruistabellen
- Regressieanalyse
- Eenvoudige beslisboom (AI/ML)
- Complexe beslisboom (AI/ML)
- Neurale netwerken (AI/ML)
Een nadeel van complexere methoden, is dat ze meestal meer ontwikkel- en rekentijd kosten. Daarnaast zijn de resultaten soms lastiger te interpreteren. Een voordeel van complexe methoden is dat ze beter inzichtelijk maken hoe verschillende kenmerken samen een uitkomst beïnvloeden. Ook kan je met complexe methoden (betere) schattingen maken van de uitkomst. In de hoofdtekst van dit document wordt dit nader toegelicht, inclusief voorbeelden en lijsten met voor- en nadelen per methode.
Uiteindelijk bepalen vooral de vraag en de situatie welke methode het meest geschikt is. Het onderstaande schema geeft voor een aantal mogelijke vragen van de gebruiker en mogelijke kenmerken van de data voor elk van de vijf methoden aan in hoeverre deze heel geschikt (+), een beetje geschikt (±) of minder geschikt (-) is:
Wat is de vraag, en welke achtergrondkenmerken neem je mee? | Kruis-tabel | Regressie-analyse | Eenvoudige beslisboom | Complexe beslisboom | Neuraal netwerk |
---|---|---|---|---|---|
Snel inzicht in een uitkomst met enkele achtergrondkenmerken die onderling weinig samenhangen. | + | ± | - | - | - |
Inzicht in het verband tussen een uitkomst en enkele achtergrondkenmerken die onderling samenhangen | ± | + | ± | ± | - |
Inzicht in de mate waarin een uitkomst samenhangt met verschillende achtergrondkenmerken | ± | + | + | + | - |
Inzicht in het verband tussen een uitkomst en een groot aantal (combinaties van) achtergrondkenmerken, of achtergrondkenmerken die onderling samenhangen | - | ± | + | + | - |
Groepen identificeren met combinaties van kenmerken waarbij de uitkomsten gemiddeld relatief hoog (of juist laag) zijn | - | - | + | - | - |
En berekening die voor elke combinatie van kenmerken een uitkomst schat. Dit is vooral interessant voor gevallen waarbij de uitkomst (nog) niet bekend is. | - | ± | ± | + | + |
Een zo scherp mogelijke schatting van de uitkomst op basis van achtergrondkenmerken, waarbij uitlegbaarheid of transparantie geen issue is. | - | - | - | ± | + |
Onze conclusie is hiermee dat AI/ML zeker nuttig kan zijn, afhankelijk van de vraag en de data. Vooral in gevallen met veel achtergrondkenmerken die bovendien onderling samenhangen, heeft AI/ML vaak meerwaarde.