4. Conclusie
In deze notitie zijn verschillende methoden voor statistisch onderzoek vergeleken, waaronder AI/ML-methoden. Elke methode heeft voor- en nadelen en de voornaamste conclusie is dat het van de data en de doelen afhangt welke methode het meest geschikt is.
Over het algemeen geldt dat een complexe (ML) methode vaak kwalitatief betere uitkomsten geeft. Het nadeel is dat deze wel meer tijd kost en lastiger te begrijpen is. Overigens geldt dit zowel tussen methoden als binnen één enkele methode: een ML-model geeft vaak een betere schatting dan een regressie, maar een regressie met veel interactietermen geeft ook vaak een betere schatting dan een eenvoudige regressie. Daarnaast hangt het van de methode af wat je er wel en niet mee kan: met een kruistabel kan je niet bepalen welke kenmerken het meest relevant zijn voor de uitkomst, en kan je ook niet een uitkomst schatten op basis van achtergrondkenmerken. Daarvoor zijn complexere methoden nodig zoals een regressie, of ML-methoden zoals een beslisboom of neuraal netwerk.
Wat de beste methode is hangt vooral af van de soort data en het doel van het onderzoek:
- Als er maar weinig kenmerken samenhangen met de uitkomst, en de samenhang is bovendien simpel en eenduidig, gebruik dan kruistabellen. Andere methoden voegen weinig toe, maar kosten wel meer tijd en zijn minder eenvoudig te begrijpen.
- Als je wil weten voor welke combinaties van kenmerken de uitkomst hoog of juist laag is, gebruik dan kruistabellen of eenvoudige beslisbomen. Bij meer dan 2 of 3 kenmerken wordt een kruistabel onoverzichtelijk, en werkt een beslisboom meestal beter.
- Als je wil weten welke kenmerken het meeste samenhangen met een hoge of lage uitkomst, gebruik dan regressie of een beslisboom. Regressie is relatief snel en eenvoudig, maar werkt alleen goed als er niet te veel kenmerken zijn, en als vooraf duidelijk is hoe de kenmerken met de uitkomst samenhangen. Een beslisboom kan omgaan met een groot aantal kenmerken, en met kenmerken die onderling samenhangen. Een complexe beslisboom kost meer tijd, maar geeft ook betere resultaten.
- Als je een schatting wilt van de uitkomst op basis van de kenmerken, gebruik dan regressie, een beslisboom of een neuraal netwerk. Je gebruikt een regressie als er niet te veel kenmerken zijn, als de onderlinge samenhang beperkt is, of als vooraf duidelijk is hoe de uitkomst met de kenmerken samenhangt. Als er veel kenmerken zijn,
Tot slot: het kan het zinvol zijn om methoden te combineren. Zo kan je een eenvoudige boom gebruiken om te bepalen welke (combinaties van) kenmerken relevant zijn, en vervolgens een kruistabel of regressie maken met alleen de meeste relevante kenmerken en combinaties daarvan. Of net als bij kinderarmoede een complexe beslisboom gebruiken om af te leiden wat de belangrijkste kenmerken zijn, en daarnaast een eenvoudige beslisboom om groepen af te leiden met een hoge kans op armoede.