Identificeren van AI-aanbieders

Robotheftruck die kaas verplaatst in kaasmakerij
© Hollandse Hoogte / Marcel van den Bergh
Hoeveel bedrijven in Nederland werken aan artificial intelligence (AI) – toepassingen? In samenwerking met Innovatiespotter en RVO heeft het CBS begin 2021 op verzoek van het ministerie van Economische Zaken en Klimaat (EZK) een pilotonderzoek uitgevoerd naar het identificeren van de populatie bedrijven die AI-producten en -diensten aanbieden.

Er kan onderscheid worden gemaakt tussen het ontwikkelen en produceren van AI-producten en -diensten (aanbod) en het toepassen van AI (gebruik). Om zicht te krijgen op hoeveel bedrijven AI-aanbod ontwikkelen, zijn medio juni 2020 verkennende gesprekken gestart tussen het ministerie van EZK, de Rijksdienst voor Ondernemend Nederland (RVO), het CBS en Innovatiespotter. Op basis van deze gesprekken is een aanpak vormgegeven die voortborduurt op de eerder opgedane ervaringen voor het identificeren van kleine innovatieve bedrijven.

Inschatten van AI met machine learning

Voor het classificeren van AI-bedrijven, is als startpunt onderzocht of het mogelijk is een model te trainen via supervised machine learning. Het doel van het model is om vast te stellen of een bedrijf ontwikkelaar is van AI-producten en -diensten. Het model maakt hierbij gebruik van (openbare) websiteteksten.

Als eerste stap is vastgesteld welke definitie er moest worden gehanteerd voor het begrip AI. In ons onderzoek hebben we de definitie uit het strategisch actieplan voor artificiële intelligentie overgenomen. In dit rapport wordt AI gedefinieerd als: systemen die intelligent gedrag vertonen door hun omgeving te analyseren en - met een zekere mate van zelfstandigheid - actie ondernemen om specifieke doelen te bereiken.

Daarna zijn op basis van deze definitie handmatig bedrijven geselecteerd die we wél tot AI-ontwikkelaars rekenen en bedrijven die we hier niet toe rekenen. Deze lijst is mede samengesteld op basis van deelname aan de verschillende AI-netwerken in Nederland. Met deze lijst van bedrijven is geprobeerd om een logistische regressie model te trainen. Dit model kan op basis van de inhoud van de website onderscheid maken tussen AI ontwikkelaars en niet-AI ontwikkelaars. Het uiteindelijke model kon organisaties uit de trainingset met een nauwkeurigheid van meer dan 90% correct indelen.

In de volgende stap werd het ontwikkelde model gebruikt om alle andere bedrijven in Nederland te classificeren. Hiervoor zijn de (beschikbare en bruikbare) websites van alle bedrijven uit het Algemene Bedrijven Register (ABR) geanalyseerd. Het model is vervolgens toegepast om voor al deze bedrijven (meer dan 600.000) een classificatie te maken tot wel of niet ontwikkelaar van AI.
Hoewel de resultaten in de eerste fase veelbelovend waren, viel dit bij de toepassing op alle andere bedrijven tegen.

Om de prestaties van het model vast te stellen zijn de uitkomsten (met een steekproef) handmatig gevalideerd. Tijdens deze validatie werd het merendeel van de positief geclassificeerde bedrijven alsnog afgekeurd. Uit deze steekproeven bleek ook dat het lastig of soms onmogelijk is om op basis van de inhoud van de website vast te stellen of sprake is van AI-ontwikkelaars. Het onderscheid tussen AI en andere vormen van innovaties is in dat geval niet duidelijk. Ook is onderscheid tussen AI-ontwikkelaar of AI-toepasser vaak niet vast te stellen. Ook na verschillende iteraties – waarbij het model opnieuw is getraind – waren de resultaten nog steeds onvoldoende nauwkeurig.

Op basis van deze resultaten was onze conclusie dat het niet mogelijk is om op deze manier een betrouwbare schatting af te geven van het aantal bedrijven dat AI-producten en -diensten ontwikkelt.

Inschatting op basis van aanvullend onderzoek

Omdat de beoogde doelstelling niet haalbaar bleek is gezocht naar alternatieve methoden en andere onderzoeken om een beter beeld te krijgen van de populatie AI-bedrijven.
De initiële trainingset van bedrijven was samengesteld op basis van deelname aan de verschillende AI-netwerken in Nederland, aangevuld met 169 bedrijven die door Innovatiespotter middels trefwoorden zijn gevonden.

Gedurende het verloop van het project zijn nog aanvullende lijsten met bedrijven ontvangen van AI-hubs en een aanvullende ledenlijst van de NL AI Coalitie. Dit heeft geresulteerd in een verzameling van 1.258 bedrijven. Met een extra trefwoord-exercitie zijn nog eens 332 bedrijven gevonden met indicatoren voor AI-ontwikkelactiviteiten. Daarmee kwam het totaal aantal gevonden bedrijven op 1.590, overeenkomend met 2.387 verschillende KvK-nummers.

RVO heeft in een parallel pilot-traject in kaart gebracht wat de omvang van de AI is binnen de WBSO. Via de WBSO stimuleert het ministerie van EZK ondernemers om meer te investeren in speur- en ontwikkelingswerk (S&O), ook wel bekend als Research & Development (R&D). Op basis van alle projecten in 2019 en een gewogen trefwoordenmodel, is een totaal aantal van 1.515 bedrijven gevonden met één of meerdere AI-projecten. Het eindrapport van dit onderzoek zal worden gepubliceerd op de website www.bedrijvenbeleidinbeeld.nl, namens het ministerie van EZK.
Er is gekeken in hoeverre de populatie gevonden bedrijven in beide onderzoeken overeenkomt.

Deze overlap blijkt beperkt: 359 KvK-nummers komen overeen. Daar zijn wel goede verklaringen voor die zowel in de methode zitten (verschillende bronnen en concepten die gemeten worden) als in de periode waarover het onderzoek is uitgevoerd. Zo maken de twee onderzoeken gebruik van zeer verschillende bronnen: de websiteteksten in dit onderzoek versus projectomschrijvingen voor een WBSO-subsidie in het RVO-onderzoek. Ook worden er verschillende concepten gemeten: AI-bedrijven (dit onderzoek) versus bedrijven die deelnemen aan een AI-project (RVO-onderzoek). Verder betreft de RVO-analyse projecten uit 2019, terwijl een deel van de gevonden AI-bedrijven in dit onderzoek zijn opgericht in 2020 en 2021.

Internationale context

Dit door CBS, RVO en Innovatiespotter uitgevoerde onderzoek staat niet op zichzelf. Er zijn diverse internationale onderzoeken uitgevoerd om met machine learning AI in kaart te brengen. Hoe deze populaties zijn vastgesteld en of ze volledig zijn, wordt daarbij echter niet beschreven. Uit deze onderzoeken wordt duidelijk dat de verschillende geïdentificeerde clusters inhoudelijk sterk uiteenlopen, wat nog maar eens aangeeft dat AI als hoofdonderwerp lastig (geautomatiseerd) te meten is. Dit zit vermoedelijk deels in de beschikbare informatie die als indicator kan worden gebruikt, deels in verschillen tussen de trainingsdataset en de test-dataset, en deels in het feit dat AI een lastig eenduidig te definiëren begrip is. We hebben dit in dit onderzoek niet verder uitgezocht.

Conclusie

Door de OECD[1] wordt in een rapport vastgesteld dat het meten van AI lastig is, doorddat de scheiding tussen AI en andere innovaties onscherp is en voortdurend wijzigt. Het AI Index Report van de Stanford University stelt dat AI zich lijkt te ontwikkelen tot een general purpose technology (GPT).[2]. Het resultaat van ons onderzoek lijkt deze constateringen te onderschrijven.

De doelstelling van dit project was het identificeren van de populatie bedrijven (in omvang, uitgesplitst naar sector, grootteklasse en eventueel leeftijd en regio) die AI-producten en -diensten aanbieden. Dat doel hebben we niet bereikt op de manier zoals we die voor ogen hadden, namelijk met een getraind model dat in staat is om met voldoende nauwkeurigheid op basis van de websitetekst vast te stellen of een bedrijf ontwikkelaar is van AI-producten en -diensten.

Via alternatieve methoden zijn we alsnog tot een lijst van 1.590 bedrijven gekomen. Deze lijst, opgesteld midden 2021, kan als basis dienen voor een eerste inventarisatie van de AI-populatie in Nederland. Kanttekeningen hierbij zijn dat deze populatie van 1.590 bedrijven niet enkel bestaat uit ontwikkelaars van AI (aanbod) maar ook uit bedrijven die op andere manieren betrokken zijn bij AI en dat bedrijven die AI ontwikkelen, maar hiermee niet via hun website in de openbaarheid treden, met deze methode buiten beeld blijven.

Bij nieuw op te starten onderzoek waarbij machine learning wordt ingezet, is het daarom aan te raden om het te classificeren concept zo te definiëren dat er een homogene set van bedrijven kan worden samengesteld voor trainingsdoeleinden. Een alternatief is om het betreffende concept op te knippen, waarbij voor iedere subgroep afzonderlijk een homogene set van bedrijven kan worden samengesteld.
________________________________________
[1] Paragraaf: How can AI-related developments in science and technology be tracked? OECD (2019), Measuring the Digital Transformation: A Roadmap for the Future, OECD Publishing, Paris, https://doi.org/10.1787/9789264311992-en

[2] Stanford University (2019), “The AI Index 2019 Annual Report”, p.91 https://hai.stanford.edu/research/ai-index-2019

Privacy

Om de methode te ontwikkelen zijn teksten op websites gebruikt en zijn controles uitgevoerd op basis van de KVK-nummers die op de website stonden vermeld. Voor het valideren van de uitkomsten zijn geen vertrouwelijke CBS-gegevens gebruikt.