Innovatie bij kleine bedrijven
Hoe kun je een goed beeld krijgen van alle innovatieve bedrijven in Nederland? Deze vraag heeft het CBS in het Center for Big Data Statistics onderzocht. Momenteel ondervraagt het CBS alleen bedrijven met meer dan 10 werkzame personen voor de innovatie enquête. Dit betekent dat een groot deel van de Nederlandse bedrijven, die met minder dan 10 werkzame personen, niet worden meegenomen. Om dit toch mogelijk te maken is een big data methode ontwikkeld die gebruik maakt van de teksten op de website van een bedrijf. Deze webscraping methode is vooral interessant om kleine innovatieve bedrijven, zoals startups, in kaart te brengen.
Werkwijze
De tekst op de homepagina van de website wordt gebruikt om te bepalen of een bedrijf innovatief is of niet. Uit de tekst op elke website worden leestekens en veel voorkomende, algemene, woorden verwijderd. De overblijvende woorden vormen het beginpunt van het ontwikkelen van een algoritme dat de innovatieve van de niet-innovatieve bedrijven kan onderscheiden. Omdat we van de bedrijven in de CBS innovatie enquête weten welke innovatief zijn en welke niet, zijn de websites van die grote bedrijven gebruikt om het algoritme te trainen. Dit leverde uiteindelijk een verzameling van woorden op die belangrijk is voor het classificeren van innovatie. Denk aan woorden als ‘technologie’, ‘nieuw product’, ‘innovatie’ en ‘software’. Ook de taal van de website is een belangrijke indicatie. Een bedrijf met een Engelstalige website is vaker innovatief dan een bedrijf met een Nederlandstalige website. Daarnaast zijn er ook woorden die juist indicatief zijn voor niet-innovatieve bedrijven zoals: ‘winkel’, ‘transport’, ‘restaurant’, en ‘dienstverlening’. Dit hoeft niet te betekenen dat een winkel per definitie niet innovatief kan zijn, dit heeft ook te maken met de combinatie van de andere woorden die op de website voorkomen. Het uiteindelijke algoritme blijkt in 93% van de gevallen de websites van grote bedrijven goed te identificeren.
Resultaten
Vervolgens zijn een half miljoen bedrijven met minder dan 10 werkzame personen uit het bedrijvenregister van het CBS geselecteerd. Hiervan zijn de teksten van de websites verzameld en met het algoritme geclassificeerd. Van deze bedrijven was niet van te voren bekend of ze innovatief zijn of niet, maar op basis van het algoritme wordt een voorspelling gedaan. Handmatige controle van een groot deel van de resultaten bevestigden dat het algoritme ook goed werkt bij websites van kleine bedrijven. Ook is de werking gecontroleerd aan de hand van de Innovatie top 100 van het MKB en met websites van startups. In beide gevallen bleek het algoritme een zeer groot aantal bedrijven correct als innovatief te classificeren. De ontwikkelde aanpak werkte vooral goed bij technologisch innovatieve bedrijven. Onze eerste resultaten geven aan dat ruim een derde van de 500.000 websites als innovatief wordt geclassificeerd.
Op de kaarten zijn de gegevens van ruim een half miljoen kleine bedrijven weergegeven, op provincie en op gemeente niveau. Hiervoor is de postcode van de bedrijven gebruikt. De provincies die relatief de meeste kleine innovatieve bedrijven bevatten zijn Noord-Holland, Zuid-Holland en Noord-Brabant.
Figuur 1: Aantal kleine innovatieve bedrijven per provincie.
Dit is bij de grote innovatieve bedrijven ook zo. Echter in de overige provincies worden, zeker ten opzichte van de grote bedrijven, wat meer kleine innovatieve bedrijven gevonden. Deze groep was voorheen niet goed in beeld. De nieuw ontwikkelde methode maakt het mogelijk meer gedetailleerde kaarten, zoals op gemeente niveau, te maken. Hierdoor is te zien in welke gebieden in Nederland relatief veel kleine innovatieve bedrijven te vinden zijn.
Figuur 2: Aantal kleine innovatieve bedrijven per gemeente
Dat zijn vooral de grote steden, met name, Amsterdam en Rotterdam en gemeenten met (technische) universiteiten en hogescholen. Let op dat op de kaarten het absolute aantal bedrijven wordt getoond en dus niet naar de aantallen werkzame personen wordt gekeken. Met andere woorden een kleine innovatieve startup met één werkzame persoon telt even zwaar als een bedrijf met 9 werkzame personen. Ook wordt niet gekeken naar de grootte van de investering die gedaan wordt in innovatie.
Uitdagingen
De koppeling tussen bedrijven en websites is een uitdaging. Voor een goede analyse is het belangrijk dat het juiste bedrijf aan de juiste website is gekoppeld. Zeker bij kleine bedrijven is dat niet altijd eenvoudig. De koppelingen zijn daarom ook gecontroleerd met een methode die in een groot Europees Big Data project door een aantal statistische bureaus gezamenlijk is ontwikkeld. Daarnaast bleek dat niet elke website nog actief was. Dit alles maakt het op dit moment lastig om het absoluut aantal kleine innovatieve bedrijven in Nederland en de grootte van de investering daarin voldoende nauwkeurig te schatten. Dit wordt in een vervolgtraject nader uitgezocht.
Privacy
Om de methode te ontwikkelen zijn CBS innovatie enquêtegegevens gebruikt, teksten op websites en de bijbehorende postcode gegevens. De gebruikte gegevens zijn vervolgens geaggregeerd op gemeente en provincie niveau. Hierdoor zijn er geen individuele bedrijven te identificeren.
Toepassingen
Het classificeren van bedrijven op basis van de teksten op de websites blijkt voor innovatie goed te werken. Hierdoor is het mogelijk zeer gedetailleerde kaarten te maken van gebieden waar kleine innovatieve bedrijven te vinden zijn. Dit is met name interessant voor gemeenten en provincies. Het is voor grote steden zelfs mogelijk kaarten op postcode 4 gebied te maken. Met de ontwikkelde aanpak is het nu mogelijk kleine innovatieve bedrijven, zoals startups, te vinden en over de tijd te volgen. Hierdoor kan het effect van stimuleringsbeleid op dit terrein worden bepaald. Waarschijnlijk kan de ontwikkelde methode ook voor andere onderwerpen gebruikt worden, zoals het identificeren van duurzame bedrijven en familie bedrijven.
Feedback
We zouden graag uw mening willen horen over deze innovatie, over mogelijke toepassingen daarvan en we staan open voor ideeën hoe we deze methode van webscraping kunnen verfijnen. Wij nodigen u uit om via onderstaand formulier uw feedback te geven.