Haalbaarheidsonderzoek nieuwe cijfers online platformen en hostingdiensten

5. Hostingbedrijven in Nederland

Dit hoofdstuk geeft antwoord op de vraag of het CBS cijfers kan maken over het aantal hostingbedrijven in Nederland, op een manier die voldoende betrouwbaar is. Uit onderzoek blijkt dat dit op dit moment niet goed mogelijk is met de huidige beschikbare informatie bij het CBS. De voornaamste reden hiervoor is dat de populatie hostingbedrijven lastig af te bakenen is. In dit hoofdstuk zal worden toegelicht welke mogelijkheden om de populatie af te bakenen zijn nagegaan en waarom deze afbakening niet haalbaar is. Daarna wordt een aantal potentiële vervolgstappen besproken waarmee in de toekomst toch mogelijk een (gedeeltelijk) beeld van de populatie hostingbedrijven kan worden vastgelegd.

5.1 SBI-groepering

Voor het afbakenen van bedrijvenpopulaties wordt binnen het CBS eerst gekeken naar de standaard bedrijfsindeling (SBI) die bedrijven categoriseert op basis van de hoofdactiviteit van het bedrijf. Hostingbedrijven vallen niet één op één samen met een specifieke SBI-groep of -klasse. Wel bestaat de SBI-klasse 6311, waaronder een aantal typen hostingbedrijven valt. De klasse 6311 bevat bedrijven met de volgende hoofdactiviteiten:

  • gegevensverwerking, data-entry, datacentra, rekencentra;
  • hosting: opslaan van websites, data, informatie, afbeeldingen, video’s, e.d., cloud services;
  • webhosting, streaming services, application hosting;
  • hosten van bijvoorbeeld condoleancesites;
  • beheer van domeinnamen.

Hoewel SBI-klasse 6311 een aantal belangrijke hostingdiensten bevat, zijn er twee tekortkomingen aan het gebruik van afbakening puur op basis van deze SBI-klasse. Deze worden verder toegelicht in de volgende twee paragrafen.

5.1.1 SBI-klasse 6311 bevat ook niet-hostingbedrijven

Het eerste probleem met SBI-klasse 6311 is dat deze ook een aantal typen bedrijven bevat die niet gezien worden als hostingbedrijven, bijvoorbeeld datacentra en streaming services. Datacentra zijn fysieke locaties waar apparatuur staat die nodig is om digitale informatie op te slaan. Hoewel hostingdiensten deze infrastructuur nodig hebben om te functioneren, valt het aanbieden van deze apparatuur niet onder de DSA-definitie van een hostingdienst. Streamingdiensten zijn geen hostingdiensten omdat er door deze diensten geen informatie wordt opgeslagen die verstrekt is door de afnemer van deze diensten. Ze bieden namelijk ingekochte informatie aan van een derde partij. Als SBI-klasse 6311 wordt gebruikt als afbakening van hostingbedrijven, dan worden ook niet-hostingbedrijven geïncludeerd. 

In 2023 waren er ongeveer 4850 bedrijven die tot SBI-klasse 6311 behoorden. Om een beeld te krijgen van de verhouding hostingbedrijven en niet-hostingbedrijven in SBI-klasse 6311 is uit deze bedrijven een steekproef van 100 bedrijven getrokken. Aan deze bedrijven is een website gekoppeld, die gebruikt werd om in te schatten of het betreffende bedrijf hostingdiensten aanbiedt. Het bleek dat 44 procent van de bedrijven in deze steekproef een hostingbedrijf (volgens de DSA-definitie) is. Van deze 44 procent bestond 84 procent uit bedrijven die webhosting diensten aanbieden. De groep niet-hostingbedrijven bestond uit diverse typen bedrijven. De meest voorkomende typen waren website designers, ICT hulp en marketingbedrijven. De websites van de twintig bedrijven in SBI-klasse 6311 met de hoogste omzet (in 2023) zijn apart onderzocht. Van deze bedrijven voldeed 55 procent aan de DSA-definitie van een hostingbedrijf. De meeste van deze hostingbedrijven bieden clouddiensten aan. Van de niet-hostingbedrijven bestond het grootste deel uit datacenters.

Uit deze inventarisatie blijkt dat SBI-klasse 6311 een te diverse groep bedrijven omvat om te kunnen gebruiken als afbakening van hostingbedrijven volgens de DSA-definitie. Een filtering van de bedrijven in SBI-klasse 6311 zou kunnen leiden tot een scherpere afbakening. Het is alleen nog onduidelijk of basis van welke beschikbare gegevens een bruikbare scheiding gemaakt kan worden. Een dergelijk filter zou echter niet het probleem dat in de volgende paragraaf (5.1.2) wordt besproken oplossen. 

5.1.2 Een groot deel van de hostingbedrijven valt niet in SBI-klasse 6311

Naast dat SBI-klasse 6311 ook niet-hostingbedrijven bevat, zijn er ook veel hostingbedrijven die niet in SBI-klasse 6311 vallen. De voornaamste reden hiervoor is dat de SBI indeelt op basis van de hoofdactiviteit van het bedrijf. De DSA-wetgeving is daarentegen al van toepassing wanneer een onderdeel van de activiteiten van het bedrijf bestaat uit hostingdiensten aanbieden. Dit betekent dat bedrijven die op basis van hun hoofdactiviteit zijn ingedeeld in een andere SBI-klasse, maar wel hostingdiensten aanbieden, gemist zullen worden in een afbakening op alleen SBI-klassen. Aangezien in de digitale markt veel bedrijven meerdere typen diensten leveren, is dit een situatie die regelmatig voorkomt. 

Figuur 2.5.2 geeft een illustratie van dit probleem. In deze figuur is te zien dat voor alle grootteklassen minder dan 50 procent van de online platformen in SBI-hoofdklasse J informatie en communicatie zit. Omdat SBI-klasse 6311 een subcategorie is van hoofdklasse J, en de DSA aangeeft dat online platformen een subcategorie van hostingbedrijven zijn, betekent dit dat SBI-klasse 6311 al meer dan 50 procent van dit type hostingbedrijven niet bevat. Naar verwachting zal er van ander typen hostingbedrijven een groot deel worden gemist wanneer SBI-klasse 6311 als afbakening wordt gebruikt.

5.1.3 SBI2025

Zoals genoemd werd in hoofdstuk 2 zal vanaf 2025 een herziene SBI in gebruik worden genomen. Vanaf 2026 zal deze nieuwe indeling volledig worden doorgevoerd in de statistieken van het CBS. In de nieuwe indeling zal SBI-klasse 6311 worden opgesplitst in drie afzonderlijke klassen: 6310 Inrichten van computerinfrastructuur, gegevensverwerking, hosting en aanverwante activiteiten, 6020 Samenstellen en uitzenden van televisieprogramma’s en distributie van video’s, 6039 Overige activiteiten op het gebied van de verspreiding van inhoud. In deze nieuwe versie van de SBI is de groep waar hostingactiviteiten onderdeel van zijn iets smaller dan in de oude SBI2008 indeling waardoor het probleem omschreven in 5.1.1 mogelijk iets verkleind wordt. Het probleem omschreven in 5.1.2 wordt niet opgelost door de nieuwe SBI in 2025. 

Er kan geconcludeerd worden dat de SBI alleen niet voldoende geschikt is om de populatie hostingbedrijven die onder de DSA vallen af te bakenen. De invoering van de nieuwe SBI2025 indeling zal hier geen verandering in brengen.

5.2 Classificatie op basis van webscraping

Wanneer de SBI niet gebruikt kan worden voor de afbakening van een specifieke bedrijvenpopulatie, biedt webscraping en modellering in sommige gevallen een alternatief (zie o.a. Monitor online platformen). Deze techniek zou, in theorie, ook ingezet kunnen worden voor de afbakening van de populatie hostingbedrijven. Na een conceptuele verkenning, beschreven in de tekst die nu volgt, is echter geconcludeerd dat deze techniek niet geschikt is voor dit doel. 

Voor het classificeren van bedrijven op basis van websiteteksten is het van groot belang dat de websites voldoende informatie bevatten om een juiste classificatie te maken. Hierbij is de classificatie beter uit te voeren wanneer de classificatie-categorieën duidelijk te onderscheiden zijn en iedere categorie enkel soortgelijke observaties bevatten. Voor de hostingbedrijven moet op basis van de websitetekst duidelijk worden of het bedrijf op verzoek van de afnemer diens informatie opslaat. Om verschillende redenen lijkt dit lastig te worden in praktijk.

Ten eerste is op basis van de tekst op de website van een bedrijf niet altijd duidelijk of het bedrijf hostingdiensten aanbiedt. E-mail diensten, zoals Gmail, zijn hostingbedrijven, aangezien informatie in de vorm van e-mails en bijgevoegde bestanden worden opgeslagen in in- en outboxen op aanvraag van de gebruiker. Toch is het zonder contextuele informatie lastig te bepalen of Gmail een hostingdienst is puur op basis van de websitetekst. Een andere reden waarom websiteteksten niet voldoende aanknopingspunten bieden voor het identificeren van hostingbedrijven is dat veel grotere bedrijven meerdere verschillende diensten aanbieden waar hostingdiensten maar een klein gedeelte van kunnen zijn. In deze gevallen heeft soms maar een klein deel van de websitetekst betrekking op hosting. Het classificeren op basis van websiteteksten kan ook worden bemoeilijkt als de informatie die kenmerkend is voor de hostingactiviteiten verwerkt is in de web interface en niet in de tekst. Denk hierbij aan video’s, plaatjes en interactieve delen van de website. 

Een tweede probleem is dat de categorie hostingbedrijven erg breed is en geen duidelijk eenduidige kenmerken heeft. Hierdoor is het lastig een algoritme te ontwikkelen dat alle typen hostingbedrijven herkent. Er zullen bijvoorbeeld weinig overeenkomsten zijn tussen de websites van aanbieders van clouddiensten en online marktplaatsen, wat toch beide hostingbedrijven zijn. Wij verwachten dat het aantal bedrijven dat informatie opslaat van gebruikers op hun verzoek groot is, zeker onder bedrijven met digitale of online diensten. Bij dit type diensten is het namelijk redelijk gebruikelijk om informatie van de afnemers van de dienst op te slaan. Denk bijvoorbeeld aan reactiepagina’s of fora op websites. Het laatste probleem is dat wanneer is vastgesteld dat een bedrijf gegevens opslaat, het erg lastig kan zijn om vast te stellen op wiens verzoek dit gebeurt, van wie de originele gegevens zijn en om hoeveel gegevens het gaat. Deze informatie is vaak niet openbaar beschikbaar. Aangezien deze zaken essentieel zijn voor het categoriseren van hostingbedrijven, maakt dit deze taak moeilijk. Zo kan het bij vergelijkingssites onduidelijk zijn of gegevens worden opgeslagen (en gedeeld) op het verzoek van de aanbieders op de website. 

Er kan geconcludeerd worden dat het gebruik van webscraping en classificatietechnieken geen aanknopingspunten bieden voor het afbakenen van hostingbedrijven volgens de DSA-definitie.

5.3 Haalbaarheid identificatie hostingbedrijven

Zoals beschreven in de vorige twee paragrafen zijn de SBI en webscraping niet voldoende bruikbaar voor de afbakening van de populatie hostingbedrijven volgens de definitie van de DSA. Er zijn op dit moment ook nog geen andere databronnen of registers beschikbaar waar de populatie hostingbedrijven mee kan worden afgebakend. Er zijn wel twee branche organisaties, Dutch Cloud Community en CISPE, met ledenlijsten. Deze lijsten bevatten zeker niet alle bedrijven die hostingdiensten aanbieden. Het is momenteel niet haalbaar cijfers over het aantal hostingbedrijven te produceren en zonder nieuwe databronnen of methoden zal dit in de toekomst lastig blijven.

De grootste moeilijkheid bij het afbakenen van de populatie hostingbedrijven is dat de DSA-definitie van een hostingdienst ontzettend breed is en niet alleen betrekking heeft op de hoofdactiviteit van bedrijven. Veel verschillende typen bedrijven bieden hostingdiensten aan, waarbij dit ook vaak een nevenactiviteit is. Een andere moeilijkheid is dat het in veel gevallen lastig te achterhalen is van wie, en op wiens verzoek gegevens worden opgeslagen. Op basis van reeds beschikbare informatie is dus niet in afdoende mate te achterhalen welke bedrijven hostingdiensten aanbieden. Voor buitenlandse hostingbedrijven die actief zijn in Nederland zijn er nog grotere obstakels om tot een identificatie te komen, aangezien het CBS nauwelijks of geen informatie heeft over niet-Nederlandse bedrijven.

5.4 Mogelijke vervolgstappen

Hoewel het volledig in kaart brengen van Nederlandse hostingbedrijven niet haalbaar is met de huidige beschikbare data en methoden, zijn er wel vervolgstappen mogelijk. Een aantal subcategorieën van hostingbedrijven kan bijvoorbeeld mogelijk wel in beeld gebracht  worden. Daarnaast zijn er, in potentie, mogelijkheden om in de toekomst informatie te verzamelen over hostingbedrijven binnen de CBS enquête ICT-gebruik bedrijven. Het meest ideaal voor het maken van een afbakening van hostingdiensten zou een registratieplicht voor dergelijke bedrijven zijn, maar hier zijn tot dusver geen plannen voor.

In dit rapport en in de monitor online platformen geeft het CBS al een beeld van de populatie online platformen, een subgroep van hostingbedrijven. Daarnaast heeft het CBS in 2021 een pilotonderzoek voor EZ uitgevoerd waarin een populatie Nederlandse clouddiensten aanbieders wordt afgebakend en beschreven.5 Ook clouddiensten zijn volgens de DSA hostingdiensten. Eenzelfde soort onderzoek kan mogelijk herhaald worden om de huidige populatie clouddiensten aanbieders in kaart te brengen, waarbij het gebruik van een verbeterde classificatietechniek bekeken kan worden. Momenteel (eerste helft 2025) loopt er bij het CBS ook een verkennend onderzoek voor EZ naar de mogelijkheden om uitgebreidere cijfers te produceren over aanbieders van clouddiensten. De uitkomsten van dit onderzoek kunnen mogelijk gebruikt worden om verder inzicht te krijgen in de beschikbare informatie over clouddiensten.

Een laatste subcategorie waar eventueel een populatie afbakening voor gemaakt zou kunnen worden zijn de webhosting bedrijven. Uit de steekproef van SBI-klasse 6311 blijkt dat bedrijven die deze dienst leveren dit vaak duidelijk op hun website hebben vermeld. Dit betekent dat webscraping en classificatietechnieken mogelijk aanknopingspunten bieden om deze specifieke diensten af te bakenen. Om dit verder uit te zoeken zou nieuw onderzoek nodig zijn. De drie genoemde typen hostingbedrijven (online platformen, clouddiensten en webhostingdiensten) zouden bij elkaar een beeld kunnen geven van eenduidig afgebakende subgroepen binnen de volledige populatie hostingbedrijven.

Een andere mogelijkheid om een beeld te krijgen van bedrijven die hostingdiensten aanbieden is het starten van een nieuwe dataverzameling, bijvoorbeeld binnen de CBS enquête ICT-gebruik bedrijven. Deze enquête wordt ieder jaar uitgestuurd naar een steekproef Nederlandse bedrijven. De resultaten worden zodanig gewogen dat er een representatief beeld ontstaat van het ICT-gebruik van alle Nederlandse bedrijven. Een mogelijke vraag die zou kunnen worden toegevoegd is: ‘Slaat uw bedrijf op verzoek van de gebruiker informatie op verstrekt door de gebruiker?’ Ter verduidelijking zouden hier voorbeelden van hostingdiensten bij kunnen worden weergeven. Het is belangrijk te noemen dat de druk op deze enquête hoog is. De vrije ruimte, naast het door Eurostat voorgeschreven deel, is beperkt en de wensen zijn groter dan de beschikbare ruimte. Daarnaast kost het ontwikkelen van goede nieuwe vragen tijd. Een voorwaarde voor het uitvragen van het aanbod van hostingdiensten is dat bedrijven zelf goed inzicht hebben in of ze hostingdiensten aanbieden of niet. De mate waarin dit het geval is, is onbekend. Een voordeel van deze aanpak zou zijn dat er geen gebruik gemaakt hoeft te worden van websiteteksten en dat er niet alleen wordt afgegaan op de hoofdactiviteit van het bedrijf, zoals bij de SBI aanpak het geval is. Een nadeel kan zijn dat de vragenlijst niet integraal wordt uitgestuurd en er dus geen register van alle hostingbedrijven wordt opgebouwd.

Referenties

Europees Parlement (2022), Artikel 3, sub g, onder iii, on a Single Market For Digital Services and amending Directive 2000/31/EC (Digital Services Act).

Autoriteit Consument & Markt (ACM) (2024), punt 34, DSA Leidraad Zorgvuldigheidsverplichtingen tussenhandeldiensten.

Autoriteit Consument & Markt (ACM) (2024), punt 26, DSA Leidraad Zorgvuldigheidsverplichtingen tussenhandeldiensten.

Autoriteit Consument & Markt (ACM) (2024), punt 106, DSA Leidraad Zorgvuldigheidsverplichtingen tussenhandeldiensten.

CBS (2021), Aanbieders clouddiensten, Pilotonderzoek naar aanbieders van clouddiensten in Nederland.