COA vraagt CBS om hulp bij onderzoek mogelijke inzet AI
Wat is het?
Het Centraal Orgaan opvang Asielzoekers (COA) heeft het CBS gevraagd te helpen met het identificeren van mogelijke risico’s bij toepassing van artificiële intelligentie in het plaatsingsproces van statushouders.
Als asielzoekers een verblijfsvergunning krijgen, koppelt COA hen aan een gemeente voor huisvesting. Relevante afwegingen bij koppeling zijn bijvoorbeeld een arbeidscontract, opleidingsinschrijving of familie in de bepaalde gemeente. Als een statushouder geen directe connecties heeft met een gemeente in Nederland wordt gekeken naar o.a. studieachtergrond van de statushouder, de werkervaring, het netwerk en de ambities om een goede match te vinden. Het is voor COA-medewerkers soms lastig in te schatten in welke gemeente de statushouder de beste kans heeft op een baan, aangezien daarbij veel verschillende factoren van invloed zijn. Om COA-medewerkers te ondersteunen bij het bepalen van de optimale gemeente onderzoekt het COA of artificiële intelligente hen additionele informatie kan geven om de beslissing op te baseren.
GeoMatch is een aanbevelingsinstrument voor de optimale verdeling van statushouders over arbeidsmarktregio’s, waarbij baankansen worden geschat met behulp van een algoritme. Het is een bestaand algoritme, waarvan nu wordt onderzocht of deze voor Nederland bruikbaar is. Daarvoor wordt het model getraind op Nederlandse data van COA en CBS. Omdat het algoritme gebruikt wordt om beslissingen over individuen te ondersteunen, is het extra belangrijk om de data waarop het algoritme gebouwd is te begrijpen. Daarom is aan het CBS gevraagd om mee te kijken met de samenstelling van de gebruikte dataset en deze te onderzoeken op potentiele bias.
Bias in een model kan ontstaan door meetfouten, of door beperkte representativiteit van de data. Risico’s voor meting ontstaan als gegevens niet volledig of onjuist zijn. Dan zal het model dat op basis daarvan gebouwd wordt de werkelijkheid ook niet volledig weerspiegelen. Risico’s voor de representativiteit ontstaan bijvoorbeeld als bepaalde groepen ondervertegenwoordigd zijn in de data, of helemaal missen. Dan maakt het model geen betrouwbare voorspellingen voor deze groep.
Het CBS bepaalt niet of de data van voldoende kwaliteit is, maar wijst wel potentiele risico’s voor de kwaliteit van de aanbevelingen aan voor zover die voort kunnen komen uit de gebruikte dataset.
Waarom doen we dit?
Het CBS werkt voor de samenleving en komt graag tegemoet aan verzoeken van gebruikers om te ondersteunen bij verantwoordelijk gebruik van data. Daarbij is het GeoMatch model dat COA gebruikt ontwikkeld op de RA-omgeving van het CBS. Het is ontwikkeld door het Immigration Policy Lab (IPL) bij Universiteit Stanford en ETH Zurich. Het model combineert data van COA met data van het CBS om te leren van statushouders die in het verleden zijn toegewezen aan gemeenten en hoe het hen daar is vergaan. Aangezien de gebruikte dataset al bij het CBS bekend is, heeft COA aan het CBS gevraagd om de review uit te voeren. Zo wordt voorkomen dat additionele partijen toegang verkrijgen tot privacygevoelige data van het CBS en COA.
Het CBS onderzoekt hoe artificiële intelligentie ingezet kan worden om onze statistieken te verrijken. Zien hoe onze samenwerkingspartners artificiële intelligente gebruiken, en tegen welke aandachtpunten zij aanlopen, helpt ons om onze kennis op dit gebied verder uit te breiden. Daarnaast helpt inzicht in hoe onze data gebruikt wordt om beleidsmakers beter te kunnen ondersteunen.
Wat is de maatschappelijke relevantie?
Artificiële intelligentie kan patronen in data naar boven brengen die voor mensen lastig te vinden zijn. Hierdoor kan dit een waardevolle aanvulling zijn op bestaande processen, zowel in besluitvorming als in de statistiek. Daarbij vormt de inzet van artificiële intelligentie een risico als het niet volledig duidelijk is wat het algoritme kan, wat het niet kan, en met welke aandachtspunten je rekening moet houden bij gebruik van de resultaten.
Zo is bijvoorbeeld geen enkel algoritme perfect en zal elk algoritme een bepaalde foutmarge hebben, hoe zorgvuldig deze ook is opgebouwd. Daarnaast bestaat het risico dat ongewenste patronen in de data leiden tot ongewenste uitkomsten. Denk bijvoorbeeld aan een algoritme dat sollicitaties scant en aan managers aanbeveelt wie uit te nodigen voor een sollicitatiegesprek. Als het algoritme leert van historische data waarin bepaalde groepen benadeeld werden, dan zal het algoritme dat mogelijk ook doen als daar niet op de juiste wijze rekening mee gehouden wordt tijdens de ontwikkelfase. Het is daarom van groot belang om bewust te zijn van de patronen in de dataset waar het algoritme van gaat leren, zodat eventueel gecorrigeerd kan worden voor onwenselijke patronen of zodat dat het duidelijk is welke uitkomsten betrouwbaar zijn en welke niet.
Samenwerking
Het CBS heeft nauw samengewerkt met COA en IPL om te begrijpen hoe zij de data gebruiken in het model, en hoe het model ingezet gaat worden zodra daarover een besluit genomen is. Deloitte heeft daarnaast de andere aspecten van het algoritme geanalyseerd, zoals de technische en ethische aspecten van het model.