Onderzoek naar eerlijke en uitlegbare algoritmen

/ Auteur: Masja de Ree
Joosje Goedhart (links) en Tessa Cramwinkel deden onderzoek aan de UvA naar eerlijke en uitlegbare algoritmen
© Sjoerd van der Hucht Fotografie / My Eyes4u productions
In de Nederlandse samenleving worden steeds meer beslissingen genomen door geautomatiseerde systemen die gebruik maken van algoritmen. Gemeenten en andere overheden zetten ze bijvoorbeeld in om te kijken wat de kans is dat een leerling van school gaat voordat zijn opleiding is afgerond. Maar hoe zorg je ervoor dat dat niet leidt tot oneerlijke situaties? En hoe leg je uit hoe zo’n algoritme werkt? Joosje Goedhart en Tessa Cramwinckel deden er - in samenwerking met het CBS - onderzoek naar voor hun masterscriptie bij de opleiding artificiële intelligentie (AI) aan de Universiteit van Amsterdam.

Definities algoritmische eerlijkheid

Algoritmen kunnen ingezet worden om beslissingen te nemen: bijvoorbeeld om een selectie te maken uit een pool van sollicitanten of om in te schatten wat voor zorg iemand nodig heeft. Joosje Goedhart: ‘Er bestaan verschillende definities van algoritmische eerlijkheid, waarbij een onderscheid gemaakt kan worden tussen groepseerlijkheid en individuele eerlijkheid.’ Het eerste betekent bijvoorbeeld dat je uit een groep sollicitanten evenveel mannen als vrouwen uitnodigt. Het tweede betekent dat je individuen met een gelijke achtergrond gelijk behandelt. Vaak wordt aangenomen dat groepseerlijkheid bij een algoritme leidt tot een minder goede uitkomst, een minder goede ‘voorspelkracht’.

Kwaliteit van initiële datasets belangrijk

Goedhart: ‘In het voorbeeld met de sollicitanten zou dat betekenen dat je niet de beste kandidaten selecteert. Ik heb in de praktijk getest of dat echt zo is door de uitkomsten van verschillende groepseerlijkheid algoritmen voor verschillende toepassingen te vergelijken.’ Goedhart voerde haar scriptie, die ze in oktober 2020 afrondde, uit bij de gemeente Amsterdam en overlegde daarbij regelmatig met deskundigen van het CBS. Het CBS werkte in die periode ook aan een project over eerlijke algoritmen, samen met de Universiteit van Amsterdam en de gemeente Amsterdam. ‘Ik concludeer dat de ingebouwde formules om het algoritme eerlijker te maken niet altijd doen wat ze beloven. De wisselwerking tussen groepseerlijkheid en de voorspelkracht van je model hangt vooral af van de kwaliteit van je initiële dataset.’

Uitlegbaarheid van algoritmen

Tessa Cramwinckel worstelde met de vraag: wat betekent ‘uitlegbaarheid’ bij algoritmen. Uit haar bijna afgeronde onderzoek blijkt dat wetenschappers daarmee vooral bedoelen dat ze het aan elkaar kunnen uitleggen. ‘Niet aan de burger. Dat is geen goede zaak want voor burgers is een algoritme vaak een black box, terwijl de uitkomsten wel grote gevolgen hebben, bijvoorbeeld als algoritmen gebruikt worden om fraude op te sporen.’ Om meer inzicht te krijgen in de eerlijkheid en uitlegbaarheid van algoritmen legde Cramwinckel als test de uitkomsten van drie verschillende algoritmen op drie verschillende datasets voor aan domeinspecialisten, mensen die inhoudelijk veel van een onderwerp weten. Cramwinckel: ‘Het is eigenlijk vreemd dat programmeurs zouden moeten bepalen wat een eerlijk en uitlegbaar algoritme is. Zij weten weinig van de praktijk. Ik heb de feedback van de domeinspecialisten daarom gebruikt om de algoritmen eerlijker te maken.’ Cramwinckel is enthousiast over haar aanpak. ‘Ik vond het interessant om de domeinspecialisten mee te nemen in de vraag wat een eerlijk en uitlegbaar algoritme is. Door de test zijn de specialisten zich daar ook bewuster van geworden. En ik concludeer dat het werkt: de feedback van domeinspecialisten maakt het algoritme eerlijker.’

‘Ik pleit er voor de uitkomsten van een algoritme altijd te blijven volgen en evalueren’

Uitkomsten volgen en evalueren

‘Van mijn onderzoek heb ik vooral geleerd dat mensen van nature vooroordelen hebben’, zegt Goedhart. ‘Iedereen heeft vooroordelen of doet onbewuste aannames. Ik zeg altijd: de reden dat algoritmen oneerlijk zijn, komt omdat de wereld oneerlijk is. Als je werkt met persoonsgegevens dan is het belangrijk dat je je daarvan bewust bent en dat je daar rekening mee houdt. Ik pleit er daarom voor de uitkomsten van een algoritme altijd te blijven volgen en evalueren. Kijk naar de resultaten die het oplevert en beoordeel die. En let op: een goed algoritme is slechts één onderdeel van eerlijke kunstmatige intelligentie. Je bereikt meer door te zorgen dat je over de goede datasets beschikt.’ Cramwinckel raadt aan spaarzaam te zijn met de inzet van kunstmatige intelligentie. ‘Gebruik het alleen als het echt nodig is. De datasets van het CBS zijn bijvoorbeeld behoorlijk complex. Het is misschien beter om dan klassieke lineaire modellen gebruiken die je aan iedereen kunt uitleggen.’

Bijsluiter bij datasets

Barteld Braaksma, innovatiemanager bij het CBS, was betrokken bij het onderzoek van Cramwinckel, dat valt binnen het CBS-project Armoede en AI. ‘Beide studentes zeggen terecht dat alles begint met goede data. Als je brondata niet representatief zijn, dan zijn je uitkomsten dat ook niet, welk algoritme je ook gebruikt. Hier ligt een belangrijke taak voor het CBS. Wij moeten zorgen voor goede datasets waarbij we bovendien een bijsluiter meegeven: wat zit erin, zijn eventuele vertekeningen in de uitkomsten gecorrigeerd en zo ja, hoe is dat gedaan?’ Binnen de Nederlandse AI-Coalitie, een samenwerkingsverband waarbij overheid, bedrijfsleven, onderwijs, onderzoeksinstellingen en maatschappelijke organisaties zich inzetten om AI-initiatieven met elkaar te verbinden, is het juist en verantwoord gebruik van data bij AI-toepassingen een belangrijk thema dat het CBS op de kaart wil zetten.’

Kennispartners

Het CBS onderzoekt de mogelijkheden van zelflerende algoritmen voor het maken van statistieken. Braaksma: ‘We bekijken goed wat voor soort algoritmen we inzetten en of ze echt voordelen hebben ten opzichte van een meer klassieke aanpak. De eerlijkheid en uitlegbaarheid staan altijd voorop.’ Andere overheidspartijen kloppen regelmatig bij het CBS aan om van de kennis en ervaring van de statistici te leren. Daarnaast werkt het CBS op dit gebied ook veel samen met andere kennispartners zoals TNO en verschillende universiteiten.

Kunstmatige intelligentie verder ontwikkelen
De nationale overheid heeft onlangs een eerste tranche van 276 miljoen euro beschikbaar gesteld om kunstmatige intelligentie in Nederland verder te ontwikkelen. In de zogenoemde ELSA-labs krijgen de ethische, juridische en maatschappelijke kanten van kunstmatige intelligentie als eerste aandacht. Onderwerpen als eerlijkheid en uitlegbaarheid van algoritmen vallen daar ook onder. Ook hier is het CBS nauw bij betrokken.