3. Vergelijking methoden
In het vorige hoofdstuk hebben we gekeken naar de voor- en nadelen van vijf methoden. In dit hoofdstuk vergelijken we deze methoden met elkaar. Tabel 7 geeft een samenvatting over hoe verschillende methodes scoren op een aantal relevante aspecten. Hieronder volgt een meer algemene beschrijving van een paar belangrijke aspecten waarop deze methoden en welke methode in bepaalde gevallen geschikt is:
- Doel. Waar wil je statistiek voor gebruiken? Wil je het verband weten tussen de uitkomst en een categoriaal (gemaakt) achtergrondkenmerk? Neem dan een kruistabel. Wil je weten welke kenmerken het sterkste samenhangen met de uitkomst? Gebruik dan regressie of een beslisboom. Wil je groepen maken op basis van combinaties van kenmerken met hele hoge of lage uitkomst? Neem een eenvoudige beslisboom. Of wil je aan de hand van kenmerken de kans schatten op een bepaalde uitkomst? Dan kan je regressie, een beslisboom of een neuraal netwerk gebruiken.
- Begrijpelijkheid. Hoe lastig is het voor een gebruiker van de data om de uitkomsten te lezen en interpreteren? Een kruistabel met een of twee variabelen is voor veel mensen goed te begrijpen, en een groep uit een beslisboom die bestaat uit 2-5 kenmerken ook. De geschatte coëfficiënten van een regressie, een score voor het belang van variabelen of de boomdiagram van een eenvoudige beslisboom zijn voor de meeste mensen ook wel te volgen. De formule van een regressie is al iets ingewikkelder. En een complexe beslisboom of neuraal netwerk valt eigenlijk niet direct te lezen. Er zijn wel methoden die helpen bij de interpretatie van dit soort modellen.
- Kenmerken. Waar moet je op letten bij de achtergrondkenmerken? Bij beslisbomen of neurale netwerken kan je veel kenmerken meenemen, bij kruistabellen of regressie minder. Met name bij regressie is er vaak een uitgebreide voorbewerking van de kenmerken nodig, en moet je goed opletten welke variabele mee kunnen en zo ja in welke vorm. Ook bij kruistabellen moet je vooraf nadenken over een indeling. AI/ML-methoden zijn flexibeler in de hoeveelheid en vorm van de variabelen.
- Complexiteit, ofwel hoe ingewikkeld is het om een methode toe te passen? Complexere methoden vergen meer van de onderzoeker, kosten meestal meer tijd, en vragen vaak ook meer rekenkracht. Een kruistabel maken is vrij eenvoudig. Een regressie of eenvoudige beslisboom is iets ingewikkelder, je moet vaak dingen testen en controleren, en enige wiskundige kennis is vereist. Voor een complexe beslisboom moet je een groot aantal instellingen bepalen en testen, op verschillende manieren de kwaliteit in de gaten houden, en vereist dat je kan programmeren en een gedegen wiskundige of statistische basis hebt.
Kruistabel | Regressie | Eenvoudige beslisboom | Complexe beslisboom | Neuraal netwerk | |
---|---|---|---|---|---|
Begrijpelijkheid van het eindresultaat | Hoog, mits 1-2 variabelen | Midden | Hoog/Midden | Midden/Laag | Laag |
Complexiteit van methode | Laag | Laag/Midden | Midden | Midden/Hoog | Hoog |
Voorspelkracht van het model | Laag | Midden | Midden | Midden/Hoog | Midden/Hoog |
Hoe leidt je het belang van kenmerken af? | Via verschillen in uitkomst (X² of RL toets) | Via p-/T-waarde | Via maat voor ?importance? | Via maat voor belang bij schatting (bv. SHAP) | Via maat voor belang bij schatting (bv. SHAP) |
Kan je groepen afleiden op basis van enkele kenmerken met hoge/lage uitkomst? | Enkel per kenmerk | Enkel per kenmerk | Ja | Nee | Nee |
Hoeveelheid kenmerken kan je (tegelijkertijd) meenemen? | Enkele (1-3) | Niet te veel (5-20) | Mogen er veel zijn (>100) | Mogen er veel zijn (>100) | Mogen er veel zijn (>100) |
Beschouwt de methode de kenmerken los van elkaar of in samenhang? | Losse kenmerken | Vooral losse kenmerken, beetje samenhang | Lokale samenhang deel binnen een tak van de boom | Samenhang binnen delen van de boom en tussen bomen | Volledige samenhang |
Kan omgaan met interacties of non-lineaire verbanden? | Nee | Beetje, mits je die er vooraf instopt | Ja | Ja | Ja |
Kosten (tijd)? | Laag | Midden | Midden | Hoog | Zeer hoog |