Innovatieve hotspots
Het CBS publiceert tweejaarlijks een statistiek over het aantal Nederlandse bedrijven dat technologische innovatieprojecten uitvoert. Deze bedrijven zijn de zogenoemde technologische innovatoren. Deze statistiek is gebaseerd op een enquête onder bedrijven met minimaal 10 werkzame personen. Het CBS heeft onderzocht of het ook mogelijk is zicht te krijgen op innovatie bij bedrijven met minder dan 10 werkzame personen. Hiermee wordt het mogelijk om regionale clusters van innovatieve bedrijven in Nederland, zogenoemde innovatieve hotpots, met een grotere mate van detail in kaart te brengen.
Statistiek op basis van een enquête voor bedrijven met minimaal 10 werkzame personen
De innovatiestatistiek van het CBS geeft een overzicht van het aantal Nederlandse bedrijven dat technologische innovatieprojecten uitvoert, of deze - al dan niet succesvol - heeft uitgevoerd. Deze bedrijven worden technologische innovatoren genoemd. Voor de bedrijven die al innovaties hebben afgerond, wordt onderscheid gemaakt tussen bedrijven met productinnovaties en bedrijven met procesinnovaties. Daarnaast wordt ook informatie gegeven over het aantal bedrijven dat bij het doorvoeren van technologische innovaties samenwerkt met één of meer partners. Niet-technologische innovaties (organisatorische innovatie en marketinginnovatie) blijven buiten beschouwing. Deze statistiek is gebaseerd op een enquête onder bedrijven met minimaal 10 werkzame personen.
Statistiek op basis van een machine learning model voor bedrijven met minder dan 10 werkzame personen
Bedrijven met minder dan 10 werkzame personen worden niet geënquêteerd. Het CBS heeft in opdracht van het ministerie van Economische Zaken en Klimaat (EZK) onderzocht of er met een andere aanpak toch een betrouwbaar beeld van de innovatie door deze kleine bedrijven verkregen kan worden. Dit onderzoek is in samenwerking met Innovatiespotter uitgevoerd. De gehanteerde aanpak is gebaseerd op het gebruik van machine learning en website data en bestaat uit de volgende stappen:
- Selectie van bedrijven om te onderzoeken
Om de bedrijfseenheden te selecteren die onderzocht moeten worden, wordt gebruik gemaakt van het Algemene Bedrijven Register (ABR) van het CBS. Dit register bevat gegevens van alle bedrijven, groot en klein, in Nederland. De basis voor het ABR is de juridische eenheid uit het handelsregister. In dit onderzoek is een selectie gemaakt van ondernemingen jonger dan 5 jaar, in de gemeente Eindhoven. Het CBS vertaalt deze eenheden vervolgens naar specifieke CBS-eenheden, waardoor het mogelijk wordt om deze te koppelen met andere gegevens binnen het CBS. Daarbij wordt ook gekeken of een ingeschreven bedrijf volledig nieuw is, dan wel of er sprake is van een doorstart. - Bepalen van de juiste website
Van de geselecteerde bedrijfseenheden worden de bijbehorende URL’s gezocht. Dit kan op basis van de gegevens die reeds in het ABR beschikbaar zijn, zoals de website en het mailadres. Ook wordt gebruik gemaakt van de google zoekmachine en van een commerciële domeinnaam zoekservice. Het CBS combineert deze aanpakken om vervolgens met een model af te leiden óf een bedrijf een URL heeft, en zo ja, welke van de gevonden URL’s het meest waarschijnlijk bij het betreffende bedrijf hoort. Als er gegevens van het bedrijf op de website vermeld staan, wordt gecontroleerd of de KVK- en/of adresgegevens op die website overeenkomen met de gegevens die worden vermeld in het ABR. Aan de hand van een handmatige controle bij 1.000 bedrijven blijkt deze methode in 86% van de gevallen de juiste URL op te leveren. - Scrapen van de website
Om te bepalen of een bedrijf innovatief is of niet wordt de tekst op de homepagina van de website van het gevonden bedrijf gebruikt. Daarvoor wordt de inhoud van de website met behulp van webscraping gedownload. Vervolgens worden leestekens en veel voorkomende, algemene, woorden verwijderd uit de tekst op de homepagina van elke website. Daarnaast worden de woorden teruggebracht naar de stam van het woord, zodat verschillende vervoegingen van het woord als één woord worden gezien. Dit proces wordt stemming genoemd en dit zorgt er ook meteen voor dat er minder unieke woorden voorkomen. Tweeletterige woorden (vaak afkomstig uit URL’s en mailadressen) worden weggelaten uit de tekst. - Trainen en toepassen van een machine learning model
De overblijvende woorden vormen het beginpunt voor de ontwikkeling van een algoritme, dat de innovatieve bedrijven van de niet-innovatieve bedrijven probeert te onderscheiden. Omdat we van de bedrijven in de CBS innovatie-enquête weten welke innovatief zijn en welke niet, zijn de websites van die grote(re) bedrijven gebruikt om het algoritme te trainen. Er zijn 3.341 innovatieve en 3.002 niet-innovatieve bedrijven uit de Community Innovation Survey van 2016 gebruikt. Deze dataset van in totaal 6.343 bedrijven wordt gesplitst in trainings- en test-sets. Met de trainingsset wordt het model getraind en met de testset wordt de werking van het model beoordeeld en indien gewenst, verbeterd.
Veel voorkomende woorden op een website krijgen een relatief laag gewicht. Woorden die niet vaak voorkomen en daarmee onderscheidend zijn, krijgen een hoger gewicht. Deze techniek levert uiteindelijk een verzameling van woorden op, die belangrijk is voor het classificeren van innovatie. Denk hierbij bijvoorbeeld aan woorden als ‘technologie’, ‘nieuw product’, ‘innovatie’ en ‘software’. Daarnaast zijn er ook woorden die juist indicatief zijn voor niet-innovatieve bedrijven zoals: ‘winkel’, ‘transport’, ‘restaurant’, en ‘dienstverlening’. Dit hoeft overigens niet te betekenen dat een winkel per definitie niet innovatief kan zijn, dit heeft ook te maken met de combinatie van de andere woorden die op de website voorkomen. Samen met nog een paar extra middelen (inzet van word embeddings en rekening houden met de taal) levert dit een algoritme op dat in 93% van de gevallen correct de websites van grote bedrijven identificeert als innovatief of niet-innovatief.
Van grote naar kleine bedrijven
Het model dat met de websites van grote bedrijven is getraind, wordt vervolgens toegepast op de websites van een set van kleine bedrijven met minder dan 10 werkzame personen. De aanname daarbij is dat de innovatiekenmerken die voor de websites van grote bedrijven gelden, ook toepasbaar zijn op de websites van kleine bedrijven. Dit is niet voor de hand liggend, dus er is een extra controle uitgevoerd voor deze aanname met een externe validatie op een lijst met startups, die zijn aangesloten bij een startup netwerk. De verwachting is namelijk dat het in overgrote meerderheid innovatieve bedrijven zijn die zich bij een dergelijk netwerk aansluiten. Die verwachting wordt door het model (bijna 95% innovatief) bevestigd. Het is daarnaast belangrijk om op te merken dat de methode er van uitgaat dat innovatieve bedrijven (vrijwel) altijd een website hebben. Het is bekend dat dit niet het geval is. Op basis van de ervaringen in dit onderzoek wordt ingeschat dat maximaal 1 op de 1000 innovatieve bedrijven wordt gemist op het moment dat gebruik wordt gemaakt van websites. Dit wordt als een acceptabele afwijking gezien, ook rekening houdend met de nauwkeurigheid van het ontwikkelde model: 88% ± 0,5%.
Nieuwe toepassing: innovatieve hotspots
Het hierboven beschreven model is getraind op websites van grote bedrijven en vervolgens toegepast op websites van een selectie van kleine bedrijven, rondom Eindhoven. Dit leek goed te werken. In een vervolgstap is het model toegepast op de websites van alle bedrijven in het ABR (peildatum juli 2019). Van de grotere (minimaal 10 werkzame personen) bedrijven worden er dan 19.295 als innovatief geclassificeerd, dat is 47% van het totaal aantal bedrijven. Dit getal ligt zeer dicht bij het laatst gepubliceerde officiële getal (19.916) voor de periode 2014-2016. Deze getallen zijn echter niet zonder meer met elkaar te vergelijken. De innovatie enquête vraagt namelijk specifiek naar innovatie activiteiten in een bepaalde periode (bv. 2014 – 2016). Met het model wordt een momentopname gemaakt op basis van de kenmerken van de website op dat moment.
Wordt het model vervolgens toegepast op alle bedrijven met minder dan 10 werkzame personen, dan levert dat 243.823 (46% innovatief) additionele bedrijven op. Echter, daarvan bestaat het overgrote deel uit zelfstandigen. Het reduceren van de populatie tot bedrijven met minimaal 2 werkzame personen levert 29.190 (36% innovatief) additionele innovatieve bedrijven op met in totaal 104.488 werkzame personen.
In onderstaande interactieve kaart worden de concentraties van innovatieve bedrijven in Nederland in een zogenoemde ‘heatmap’ getoond. Er kan gekozen worden tussen een verdeling op basis van aantal bedrijven of op basis van het aantal werkzame personen. In het laatste geval springen de gebieden met relatief grote bedrijven er uit. Voor de heatmap worden alle innovatieve bedrijven gegroepeerd in gebieden van 1 bij 1 km, met een minimum van 5 bedrijven per gebied. Met deze werkwijze wordt herleidbaarheid naar individuele bedrijven voorkomen. Het betekent wel dat gebieden met weinig innovatieve bedrijven op dit kaartje wegvallen. Stedelijke gebieden komen extra goed naar voren. De mate waarin dit effect optreedt is echter wel redelijk gelijkmatig voor heel Nederland.
Vervolgstappen: verdere validatie en meer detail
Het CBS denkt met deze methode een manier te hebben gevonden om gedetailleerdere statistieken over innovatie in Nederland te kunnen leveren. Het doel is de methode verder uit te bouwen om voor specifieke regio’s, gemeenten of provincies in kaart te brengen waar de innovatieve hotspots zich bevinden en hoeveel innovatieve bedrijven aanwezig zijn. Deze informatie kan worden verrijkt met andere informatie die binnen het CBS beschikbaar is, zoals het aantal werkzame personen. Daarnaast lijkt het hiermee ook mogelijk om specifiek naar een afbakening (populatie en locatie) van start-ups te kijken. De komende periode zullen we de methode door andere experts laten beoordelen. Daarnaast gaan we werken aan een betrouwbare lijst met kleine innovatieve bedrijven die we kunnen gebruiken om de resultaten van de methode verder te valideren.
Privacy
Bij de ontwikkeling van deze methode zijn uitsluitend verwijzingen gebruikt naar de websites van bedrijven. Daarnaast is uitsluitend gekeken naar de teksten op de homepagina van die websites. Het CBS schoont de teksten op de websites van deze bedrijven vervolgens op en groepeert ze. Hierdoor kunnen er geen individuele bedrijven worden afgeleid uit de afzonderlijke woorden. Op de interactieve kaart worden ze eveneens gegroepeerd weergegeven in gebieden van 1 bij 1 kilometer, waarbij ieder gebied minimaal 5 bedrijven moet bevatten.
Feedback
Het CBS wil graag uw mening over dit onderzoek en de ontwikkelde methode weten. Heeft u bijvoorbeeld ideeën over mogelijke toepassingen of suggesties om deze methode te kunnen verfijnen? Wij nodigen u van harte uit om via onderstaand formulier uw feedback te geven.