Methode
De eerste stap in de methode bestaat uit het vaststellen van de buitenlandse bedrijven in de btw-aangiften. Buitenlandse bedrijven zijn herkenbaar doordat deze gebruik maken van een fiscaal vertegenwoordiger en/of verwerkt worden door een specifiek belastingkantoor.
Vervolgens wordt de potentiële internetomzet uit de verkoop aan Nederlandse consumenten berekend door de omzetten uit de btw-aangiften van de geselecteerde bedrijven op te tellen. Btw-aangiften die zijn verlegd naar de Nederlandse afnemer blijven hierbij buiten beschouwing. In deze gevallen is de afnemer namelijk een bedrijf en is er per definitie geen sprake van consumentenomzet.
In de volgende stap worden de webwinkels binnen de geselecteerde bedrijven vastgesteld. Voor de bedrijven met de grootste btw-aangiften gebeurt dit handmatig en op basis van de beschikbare informatie op het internet.
De geselecteerde bedrijven met lagere gerapporteerde omzetten worden automatisch geclassificeerd. Hierbij wordt eerst met behulp van een juridische bedrijfsnaam en een web crawler de website van een bedrijf opgezocht. Op de gevonden webpagina wordt vervolgens geteld hoe vaak kenmerkende woorden, zoals bijvoorbeeld ‘winkelwagen’, voorkomen. Aan de hand van een Machine Learning (ML) algoritme wordt tot slot bepaald of het een webwinkel betreft.
In de laatste stap van de methode worden de publicatiecijfers berekend door de uitkomsten van de handmatige en automatische webwinkelclassificatie bij elkaar op te tellen. Omdat de automatische classificatie niet foutloos is, wordt er ook gecorrigeerd voor het effect van deze fout op de publicatietotalen (bias) en een foutmarge afgeleid.