Auteur: Lydia Geijtenbeek
Wat is de meerwaarde van Artificiële Intelligentie in statistisch onderzoek?

3. Vergelijking methoden

In het vorige hoofdstuk hebben we gekeken naar de voor- en nadelen van vijf methoden. In dit hoofdstuk vergelijken we deze methoden met elkaar. Tabel 7 geeft een samenvatting over hoe verschillende methodes scoren op een aantal relevante aspecten. Hieronder volgt een meer algemene beschrijving van een paar belangrijke aspecten waarop deze methoden en welke methode in bepaalde gevallen geschikt is:

  • Doel. Waar wil je statistiek voor gebruiken? Wil je het verband weten tussen de uitkomst en een categoriaal (gemaakt) achtergrondkenmerk? Neem dan een kruistabel. Wil je weten welke kenmerken het sterkste samenhangen met de uitkomst? Gebruik dan regressie of een beslisboom. Wil je groepen maken op basis van combinaties van kenmerken met hele hoge of lage uitkomst? Neem een eenvoudige beslisboom. Of wil je aan de hand van kenmerken de kans schatten op een bepaalde uitkomst? Dan kan je regressie, een beslisboom of een neuraal netwerk gebruiken.
  • Begrijpelijkheid. Hoe lastig is het voor een gebruiker van de data om de uitkomsten te lezen en interpreteren? Een kruistabel met een of twee variabelen is voor veel mensen goed te begrijpen, en een groep uit een beslisboom die bestaat uit 2-5 kenmerken ook. De geschatte coëfficiënten van een regressie, een score voor het belang van variabelen of de boomdiagram van een eenvoudige beslisboom zijn voor de meeste mensen ook wel te volgen. De formule van een regressie is al iets ingewikkelder. En een complexe beslisboom of neuraal netwerk valt eigenlijk niet direct te lezen. Er zijn wel methoden die helpen bij de interpretatie van dit soort modellen.
  • Kenmerken. Waar moet je op letten bij de achtergrondkenmerken? Bij beslisbomen of neurale netwerken kan je veel kenmerken meenemen, bij kruistabellen of regressie minder. Met name bij regressie is er vaak een uitgebreide voorbewerking van de kenmerken nodig, en moet je goed opletten welke variabele mee kunnen en zo ja in welke vorm. Ook bij kruistabellen moet je vooraf nadenken over een indeling. AI/ML-methoden zijn flexibeler in de hoeveelheid en vorm van de variabelen.
  • Complexiteit, ofwel hoe ingewikkeld is het om een methode toe te passen? Complexere methoden vergen meer van de onderzoeker, kosten meestal meer tijd, en vragen vaak ook meer rekenkracht. Een kruistabel maken is vrij eenvoudig. Een regressie of eenvoudige beslisboom is iets ingewikkelder, je moet vaak dingen testen en controleren, en enige wiskundige kennis is vereist. Voor een complexe beslisboom moet je een groot aantal instellingen bepalen en testen, op verschillende manieren de kwaliteit in de gaten houden, en vereist dat je kan programmeren en een gedegen wiskundige of statistische basis hebt.

Tabel 7 Samenvatting van voor- en nadelen van methoden
KruistabelRegressieEenvoudige beslisboomComplexe beslisboom Neuraal netwerk
Begrijpelijkheid van het eindresultaatHoog,
mits
1-2 variabelen
MiddenHoog/MiddenMidden/LaagLaag
Complexiteit van methodeLaagLaag/MiddenMiddenMidden/HoogHoog
Voorspelkracht van het modelLaagMiddenMiddenMidden/HoogMidden/Hoog
Hoe leidt je het belang
van kenmerken af?
Via verschillen
in uitkomst
(X² of RL toets)
Via p-/T-waardeVia maat
voor ?importance?
Via maat voor
belang bij
schatting (bv. SHAP)
Via maat voor
belang bij
schatting (bv. SHAP)
Kan je groepen afleiden op basis van
enkele kenmerken
met hoge/lage uitkomst?
Enkel per kenmerkEnkel per kenmerkJaNee Nee
Hoeveelheid kenmerken kan je
(tegelijkertijd) meenemen?
Enkele (1-3)Niet te veel (5-20)Mogen er
veel zijn (>100)
Mogen er
veel zijn (>100)
Mogen er
veel zijn (>100)
Beschouwt de methode de
kenmerken los van elkaar
of in samenhang?
Losse kenmerkenVooral
losse kenmerken,
beetje samenhang
Lokale samenhang
deel binnen
een tak van de boom
Samenhang binnen
delen van de boom
en tussen bomen
Volledige samenhang
Kan omgaan met interacties
of non-lineaire verbanden?
NeeBeetje, mits je
die er vooraf instopt
JaJaJa
Kosten (tijd)?LaagMiddenMiddenHoogZeer hoog