In dit rapport wordt een methode behandeld om op internet automatisch de websites te vinden die behoren bij bedrijven. Bij elk bedrijf selecteren we de website die het meest waarschijnlijk behoort tot dat bedrijf, op basis van een getraind machine learning model. De methode wordt toegepast op een willekeurige selectie van bedrijven met 10 of meer werknemers.
Bedrijfswebsites zijn een veelbelovende bron van informatie voor officiële bedrijfsstatistieken. Daarom wordt in dit rapport een methode behandeld om adressen van bedrijfswebsites te koppelen aan bedrijven. In het bijzonder willen we domeinnamen koppelen aan juridische bedrijfseenheden die zich bij de kamer van koophandel hebben ingeschreven. Als startpunt hebben we domeinnamen van de kamer van koophandel en domeinnamen van een externe partij gekoppeld aan juridische eenheden. Vervolgens hebben we een methode ontwikkeld om automatisch op internet te zoeken naar domeinnamen van juridische bedrijfseenheden waarvan we de domeinnaam nog niet kennen. Hierbij maken we gebruik van identificerende bedrijfsgegevens zoals naam en adres. Het zoeken resulteert in een verzameling kandidaat domeinnamen. Vervolgens selecteren we per bedrijf de domeinnaam met de hoogste kans om tot dat bedrijf te behoren. Deze kans schatten we via een machine learning model.