Het bepalen van het aantal innovatieve bedrijven in een land is een uitdagende taak. Traditioneel gebeurt dit door een vragenlijst te sturen naar een steekproef van bedrijven. Nadeel van deze aanpak is dat de vragenlijst vaak alleen maar naar de grote bedrijven en niet naar de kleine bedrijven wordt gestuurd. Hierdoor is meestal niets bekend over innovatie bij kleine bedrijven, zoals startups. We hebben daarom een alternatieve aanpak onderzocht: bepalen of een bedrijf innovatief aan de hand van de tekst op de website van dat bedrijf. Om dat mogelijk te maken is een model ontwikkeld gebaseerd op de woorden op de websites van bedrijven die de Innovatie Enquête (de ‘Community Innovation Survey’; CIS) hebben ontvangen. Deze enquête wordt eens in de tweejaar uitgevoerd en richt zich op het opsporen van innovatieve bedrijven met 10 of meer werkende personen. Het ontwikkelde -op tekst gebaseerde- model kan niet alleen het resultaat van de CIS-enquête reproduceren, het is tevens in staat innovatieve bedrijven met minder dan 10 werknemers te identificeren; dus ook innovatieve startups. Om goede resultaten te verkrijgen bleek het belangrijk om de stabiliteit van het model, vertekening door het model, het minimale aantal benodigde woorden voor een goede classificatie en het aandeel bedrijven zonder website goed in de gaten te houden. In dit document worden de gebruikte oplossingen besproken en zijn tevens de gevonden aantallen grote en kleine innovatieve bedrijven vermeld.