Auteur: Hugo de Bondt, Andries Kuipers, Nino Mushkudiani, Cyrille Pluijmen

De waarde van data 2001-2017

Over deze publicatie

Deze pilot studie beschrijft de methode om de waarde van data te berekenen en maakt een eerste inschatting van de waarde van data gemaakt voor 2001-2017.

Samenvatting

De Nederlandse Digitaliseringstrategie beschrijft dat data steeds belangrijker wordt in de economie en samenleving. Dit is onder meer te merken aan de invloed van digitale platformen en toenemend gebruik van digitale producten en diensten. Op dit moment is de waarde van data niet terug te vinden in de statistieken. Dit onderzoek poogt deze lacune op te vullen door met behulp van inzichten uit de recente literatuur, van bedrijven zelf en kwalitatieve statistieken een inschatting te geven van de waarde van data. De recente literatuur geeft een aantal mogelijkheden aan om de waarde van data te berekenen. In dit onderzoek is ervoor gekozen om de waarde van data te benaderen vanuit het perspectief van de nationale rekeningen. Dat stelt ons in staat data te beschouwen als investeringen. Vervolgens kan op basis van het raamwerk dat ontwikkeld is door het statistiekbureau van Canada de investeringen in data worden berekend. Dit model splitst data op in data, databases en datascience. Daarbij wordt dus niet alleen gekeken naar de data zelf, maar ook hoe deze benut kan worden. Opdrachtgever: ministerie van Economische Zaken en Klimaat.

1. Inleiding

In 2017 signaleerde het blad The Economist dat ’s werelds meest waardevolle grondstof niet langer olie is, maar data. (Economist 2017). Deze vaststelling kwam niet uit de lucht vallen, maar vloeit voort uit de sterke groei van tech-bedrijven die steeds meer met data(-analytics) grote winsten weten te behalen. Door de toenemende digitalisering van allerlei processen in de samenleving ontstaan er bewust en onbewust enorme hoeveelheden gedigitaliseerde gegevens (‘big data’). Bedrijven zijn in toenemende mate bezig te bezien in hoeverre uit deze data, patronen en inzichten kunnen worden gedistilleerd die kunnen bijdragen aan efficiëntere bedrijfsprocessen dan wel het ontwikkelen van nieuwe businessmodellen en daarmee een vergroting van de omzet. Met andere woorden: deze data zijn in toenemende mate geld waard voor deze bedrijven.

Deze inzichten en de aanhoudende groei van deze data-intensieve bedrijven hebben geresulteerd in een toenemende interesse van zowel beleidsmatige kant als statistiekinhoudelijk kant. Aan de beleidsmatige kant heeft dit bijvoorbeeld al geresulteerd in de Nederlandse digitaliseringstrategie en de Europese datastrategie. Statistici en andere onderzoekers buigen zich inmiddels in ruime mate ook over de aard en de waarde van data. En daarmee ook welke rol data in de economie speelt en hoe je de ontwikkelingen daarin het beste zichtbaar maakt.

Dit paper heeft als doel om een eerste schatting van de waarde van data voor Nederland te bepalen en te berekenen, op basis van bestaande inzichten en ervaringen/voorbeelden uit andere landen en wordt uitgevoerd in opdracht van het ministerie van Economische Zaken en Klimaat. Het paper is als volgt opgebouwd. In het eerste hoofdstuk wordt de onderzoeksvraag en –opzet besproken. In het tweede hoofdstuk volgt een overzicht van de literatuur. Hoofdstuk 3 gaat in op de bedrijfsinterviews en de kwalitatieve studie naar de rol van data bij bedrijven. Hoofdstuk 4 beschrijft de opzet en resultaten van de waarde van data. De conclusie sluit dit paper en doet een aantal aanbevelingen voor verder onderzoek.

1.1 Onderzoeksvraag en opzet

Dit pilot-onderzoek geeft een eerste inschatting van de waarde van data in Nederland. Daarvoor wordt ingegaan op de huidige manier waarop bedrijven en de nationale rekeningen de waarde van data wel of juist niet registreren, en wat dan de mogelijke manieren zijn om de waarde van data (aanvullend) te meten. Het onderzoek past daarmee ook in de lopende internationale discussie rondom het waarderen van data. Deze discussie speelt bij internationale organisaties zoals de OESO, statistische bureaus, en bij economisch onderzoek van universiteiten. Onderzocht wordt welke rol data speelt in de economie, en hoe die rol explicieter terug kan komen in de cijfers. Op de achtergrond hangen deze vragen samen met de opkomst van grote digitale platformen en de opkomst van data-analytics als (vrij) nieuwe bedrijfsactiviteit dan wel -onderdeel.

Om tot een antwoord te komen op deze vragen is een onderzoeksopzet gemaakt. Het onderzoek zelf is opgesplitst in 4 delen, waarbij per onderdeel zoveel mogelijk samenhang met de andere delen is gezocht. Het eerste deel is het literatuuronderzoek dat de huidige stand van kennis in kaart brengt op dit vlak. Voornamelijk wordt gebruik gemaakt van macro-economische literatuur, maar ook andere invalshoeken worden gebruikt. Het tweede deel omvat een kwalitatief onderzoek naar data vanuit de ICT-enquête geeft een overzicht van het gebruik van data door bedrijven. Als derde onderdeel zijn bedrijfsinterviews gehouden om inzicht te krijgen hoe data wordt ingezet in bedrijven en hoe de waarde van die data in het bedrijf zelf wordt geregistreerd, bijvoorbeeld op de winst- en verliesrekening. Het vierde en laatste deel van het onderzoek wordt op basis van de bovengenoemde bouwstenen een eerste schatting van de waarde van data voor Nederlandse bedrijven gemaakt.

2. Literatuur en afbakening onderzoek

2.1 Wat zijn data?

Voordat kan worden vastgesteld wat de waarde van data is, is het nodig om vast te stellen wat data nu precies zijn. Over het algemeen wordt met data alle informatie bedoeld die in gedigitaliseerde vorm opgeslagen, verwerkt en verspreid kan worden (Shapiro en Varian 2000). Hoewel deze definitie de niet-digitale data uitsluit, dus data op papier, geluidsbanden, videobanden etc., staat deze definitie toe dat deze wel goed te implementeren en toe te passen is. Daarbij is in de praktijk de hoeveelheid digitale data veel groter dan de niet-digitale data, en wordt niet-digitale data in steeds beperktere mate gemaakt.

2.2 Verschillende invalshoeken

De waarde van data kan vanuit verschillende invalshoeken bekeken worden. Hoofdzakelijk zijn dat de bedrijfseconomische invalshoek en de macro-economische (nationale rekeningen). De waarde voor individuen wordt in deze studie niet behandeld. De waarde voor hen hangt sterker samen met nut en (de kosten van) privacybescherming en diefstal van data, dan met economische waarde waarmee inkomsten gegenereerd worden. 

2.2.1 Bedrijfseconomische invalshoek

Indien de vraag “wat is de waarde van data?“ vanuit een bedrijfseconomisch perspectief wordt bekeken, kan eventuele waarde mogelijk terug te vinden zijn in de jaarcijfers van een onderneming. De categorie immateriële vaste activa lijken een logische plek om deze niet-tastbare zaken terug te vinden.
De jaarrekening van een Nederlandse onderneming wordt opgesteld op basis van de in Nederland geldende wet- en regelgeving. In titel 9 van Boek 2 van het Burgerlijk Wetboek (BW) geeft de wet regels voor het opstellen van de jaarrekening. De Raad voor de Jaarverslaggeving (RJ) publiceert bijbehorende richtlijnen. In aanvulling op voorgaande zijn beursgenoteerde bedrijven verplicht om de International Financial Reporting Standards (IFRS) toe te passen. Niet-beursgenoteerde ondernemingen mogen ervoor kiezen om IFRS toepassen.
 
In de richtlijnen is een immateriële vast actief als volgt gedefinieerd: een identificeerbaar, niet-monetair actief, zonder fysieke gedaante dat bruikbaar is voor productie, aflevering van goederen, voor verhuur aan derden of voor administratieve doeleinden. IFRS hanteert met een identificeerbaar niet-monetair actief zonder fysieke gedaante een vergelijkbare definitie. 

Merknamen, computersoftware, licenties, octrooien en copyrights zijn voorbeelden van immateriële middelen die onder de categorie immateriële activa kunnen vallen.
De regelgeving zegt dat de opname van een immaterieel vast actief in de balans verplicht is als aan onderstaande voorwaarden is voldaan. Indien niet aan deze voorwaarden kan worden voldaan, dienen de uitgaven aan het immaterieel actief als kosten te worden behandeld:

  • Het is waarschijnlijk dat de toekomstige economische voordelen die een actief in zich bergt, zullen toekomen aan de rechtspersoon; en
  • De kosten van het actief kunnen betrouwbaar worden vastgesteld.

De eerste voorwaarde zorgt ervoor dat de rechtspersoon de waarschijnlijkheid van toekomstige economische voordelen moet kunnen onderbouwen. De twee voorwaarde hangt samen met het feit dat de waardering tegen verkrijgingsprijs of vervaardigingsprijs moet plaats vinden. Er dient onderscheid te worden gemaakt tussen zelf verworven immateriële vaste activa en immateriële vaste activa verworven via een overname. Met name voor de laatste categorie kan de waardering een lastig karwei zijn.
Bovenstaande activeringsvoowaarden gelden eveneens voor intern vervaardigde immateriële vaste activa. Voor deze groep zijn in de regelgeving aanvullende criteria opgesteld waarbij er onderscheid wordt gemaakt tussen een onderzoeksfase en een ontwikkelingsfase. De uitgaven in de onderzoeksfase mogen niet geactiveerd worden, maar dienen in de winst- en verliesrekening te worden opgenomen. De uitgaven in de ontwikkelingsfase kunnen, als men aan een vastgestelde reeks voorwaarden voldoet, wel geactiveerd worden. Er is echter ook een categorie intern ontwikkelde immateriële vaste activa uitgesloten van activering. Dit betreft intern ontwikkelde merken, uitgavenrechten, logo’s en klantenbestanden. De veronderstelling is dat deze soort uitgaven niet vallen te onderscheiden van kosten van de onderneming in totaliteit.

2.2.1.1 Businessmodellen en waarde op bedrijfsniveau
Doordat vanuit de bedrijfsboekhouding het vastleggen van de waarde van data aan voorwaarden is gebonden, zal de waarde in veel gevallen niet op de balans verschijnen. Daardoor bekijken onderzoekers de waarde van data vaak vanuit het verdienmodel. Daarbij wordt bijvoorbeeld de rol van digitale platformen bestudeerd. Verdienmodellen rondom data beperken zich echter niet uitsluitend tot digitale platformen, ook ’traditionele’ bedrijven zetten data in voor meer efficiëntie, denk bijvoorbeeld aan meer efficiëntie en lagere kosten van logistieke en bestelsystemen of het genereren van meer omzet door nieuwe producten of diensten meer op maat aan te bieden. Voor digitale platformen geldt dat hun verdienmodel door data en dataverzameling wordt mogelijk gemaakt (data-enabled), terwijl het verdienmodel van meer traditionele bedrijven door data wordt versterkt (data-enhanced) (Nguyen en Paczos 2019).

Li et al. (2019) bestuderen de waarde van data van verschillende bedrijven binnen de platform-economie. Dit zijn bedrijven die contacten en transacties tussen aanbieders en afnemers van diensten en producten faciliteren. Deze bedrijven zijn sterk data gedreven, en halen hun omzet grotendeels uit de data-gebaseerde dienstverlening.

Doordat het goed “data” niet op een markt verhandeld wordt, kan er geen echte prijs vastgesteld worden. De waarde van data komt volgens de auteurs tot uitdrukking in de data-waardeketen en binnen deze waardeketen weten de platformbedrijven het grootste stuk binnen te halen. Zij doen dat bijvoorbeeld op basis van door hen zelf verzamelde datadiensten zoals advies en consulting, naast het feit dat ze door de netwerk-effecten grote groepen aanbieders en afnemers aan zich weten te binden. 

Voor een aantal bedrijven, waaronder Amazon en Booking.com, hebben zij een eigen methode ontwikkeld om tot een inschatting van de waarde van data van deze bedrijven te komen. Deze methode leunt op een inschatting van het organisatie-kapitaal, waarvan de auteurs aannemen dat dit de waarde van data voor deze bedrijven vertegenwoordigt. Het nadeel van deze methode is dat het alleen werkt voor bedrijven die volledig of vrijwel volledig data-gedreven zijn. Voor bedrijven waar het belang van data kleiner is, kan deze methode niet of slechts gedeeltelijk toegepast worden. Daarnaast geven de auteurs geen inschatting voor de waarde van data voor een land of bedrijfstak als geheel.

2.2.2 Invalshoek vanuit de nationale rekeningen
De nationale rekeningen behandelt data op dit moment als een niet-geproduceerd activum en schaart deze onder de goodwill en marketingactiva. In het systeem van nationale rekeningen is dit het saldo van aan- en verkopen van goodwill en marketing activa. Deze categorie omvat niet uitsluitend data, maar zoals de naam al zegt ook goodwill, merknamen, domeinnamen en logo’s (ESR 2010 Bijlage 7.1). Hierdoor wordt data als een activum gezien dat kan ontstaan zonder dat daar een productieproces aan ten grondslag ligt.

In het systeem van nationale rekeningen (SNA 2008) is er wel een kleine uitzondering. Databases bestaan volgens het SNA uit bestanden van data die zo georganiseerd zijn dat ze op een effectieve manier benaderd en gebruikt kunnen worden. In eerste instantie stelt het SNA dat databases los gezien moeten worden van de data die erin staat. De waardering van een database mag wel de kosten bevatten die nodig zijn om de data in het juiste formaat te zetten, maar niet het verzamelen of produceren ervan. Wel stelt het SNA dat bij een verkoop van een database de waarde van zowel de database als de data in de transactie opgenomen moet worden. Hierdoor staat de deur open om data wel te classificeren als een geproduceerd activum, in dit geval samen met databases.

2.2.2.1 Inkomsten uit data gerelateerde activiteiten
De inkomsten die met behulp van data gegenereerd worden, zijn onderdeel van het BBP en andere relevante variabelen. Dat zorgt ervoor dat er dit gedeelte van de data-economie wel gekwantificeerd kan worden, waarbij dus niet gekeken wordt naar de waarde van data op de balans. De OESO heeft bijvoorbeeld een studie gedaan naar enerzijds aanbod en gebruik van datadragers, hier hardware, software en diensten, en anderzijds expliciete waardecreatie door data, hier het verzamelen, samenstellen en verkopen van data in een database. De opzet van deze studie is om een verdere detaillering aan te brengen in bestaande tabellen (meestal van de nationale rekeningen) zodat duidelijk wordt hoe groot de rol is die data speelt in de economie (Ker et al. 2019). Hiermee kan dus een inschatting gegeven worden hoe groot de impact van data is op de economie. Data op dit gedetailleerde niveau blijkt alleen beschikbaar voor de VS en in mindere mate Canada. Voor de andere OESO-lidstaten bleek er niet voldoende detail aanwezig in de statistieken om tot deze cijfers te komen. Deze manier van schatten is nog niet volledig ontwikkeld, en daarom heeft de OESO voor sommige diensten alleen naar de uitgaven gekeken, terwijl voor andere juist alleen gegevens over de inkomsten beschikbaar waren. Doordat er een gedetailleerde uitsplitsing nodig is van kosten en inkomsten van bedrijven, gedetailleerder dan nu beschikbaar in de Nederlandse nationale rekeningen, is deze aanpak niet te herhalen voor Nederland.

2.2.2.2 Data als geproduceerd activum
In internationale fora is de consensus meer en meer dat (bewerkte) data wel geproduceerd worden en daarom bij de geproduceerde activa horen, net als bijvoorbeeld software en R&D (ISGWGNA 2020). Daarmee vormt data net als software, databases en R&D een apart activum in de activum-classificatie van de nationale rekeningen. De kenmerken van een (geproduceerd) activum is dat het gedurende meer dan een jaar (herhaaldelijk) in gebruik is en dat er een economische eigenaar van het activum vastgesteld kan worden. Bijvoorbeeld zullen bedrijven databases met klantgegevens niet snel binnen een jaar wissen, maar meerdere jaren in gebruik houden. Daarbij zijn de uitgaven aan databescherming door bedrijven een sterke indicatie dat hier sprake is van eigendomsrechten, net als bijvoorbeeld bij andere vormen van intellectueel eigendom.

2.2.2.3 Data in de waardeketen
Het statistiekbureau van Canada heeft een raamwerk voor waarde van data bedacht die sterk gericht is op en gelinkt met de nationale rekeningen (Statistics Canada 2019). Hun aanpak begint bij het opdelen van de waardeketen van data. Het eerste gedeelte bestaat uit zgn. observaties. Dit zijn datapunten die niet gedigitaliseerd zijn en bijvoorbeeld bestaan uit natuurlijke fenomenen, zoals de buitentemperatuur in de middag. 

Data, als stap 2, worden vervolgens gezien als gedigitaliseerde en gestructureerde observaties. Daarmee slaan ze een brug naar een nieuwe definitie, namelijk dat data wel geproduceerde activa zijn. Door het onderscheid tussen observaties (niet geproduceerd) en data (wel geproduceerd) is deze nieuwe eigenschap mogelijk. De verwachting is dat de hoeveelheid data, als gevolg van onder meer cloud computing, IoT (internet of things), AI (artificial intelligence) en machine learning zeer sterk gaat toenemen, omdat kosten zullen afnemen en het gemak waarmee data gemaakt en gebruikt kunnen worden zal toenemen (Nguyen en Paczos 2019).

De derde stap bestaat uit databases, wat inhoudt de manier waarop data zijn opgeslagen, in welk format ze zijn opgeslagen, en de database bepaalt ook op welke manier de data opvraagbaar zijn. Het raamwerk stelt dat er wel degelijk een verschil is tussen data en databases, maar dat het verschil soms lastig te maken is. Dat heeft er voornamelijk mee te maken dat data vrijwel altijd zich in een database bevinden. Ook overlap met software is snel gemaakt. Data wordt vaak automatisch door software in een database gezet, zonder menselijke tussenkomst (zie ook Nijmeijer 2018). De praktische invulling van het begrip data wordt daarmee bemoeilijkt, maar voor het raamwerk zelf is de scheiding nodig.

Het vierde en laatste stuk van het raamwerk bestaat uit data-analyse en datascience. Algemeen is de verwachting dat dit onderdeel de meeste waarde voor bedrijven oplevert, zoals ook in Li et al. (2019) wordt aangegeven. Dit gaat vooral over het in samenhang bekijken van de data en nieuwe inzichten verkrijgen die weer in het productieproces toegepast kunnen worden. Nguyen en Paczos (2019) geven aan dat met ontwikkelingen in AI nieuwe bedrijfsmodellen opkomen en bedrijven in zijn geheel getransformeerd worden. Voorbeelden zijn een autofabrikant die met data een leverancier van mobiliteitsdiensten wordt of een hijskranenfabrikant die alle hijskranen continu kan monitoren om benodigd onderhoud te voorspellen.

Volgens de inzichten van het statistiekbureau van Canada vormt datascience een onderdeel van R&D. Zij verwijzen naar de definitie in het systeem van nationale rekeningen (System of national accounts). Daarin staat dat R&D wordt ondernomen op systematische basis om de kennisvoorraad te doen toenemen, inclusief kennis over de mens, cultuur en de maatschappij, en dat deze kennis ingezet kan worden om nieuwe toepassingen te ontwikkelen. In het raamwerk van het statistiekbureau van Canada zorgt deze stap vervolgens voor het opslaan en verwerken van nieuwe observaties, omdat er uit de analyses nieuwe inzichten voortkomen waarvoor nieuwe data benodigd zijn. Daarmee is een datakringloop tot stand gekomen. De omvang van de overlap tussen datascience en R&D is nog een discussiepunt, hier is nog geen uitsluitsel over.

Het BEA in de VS heeft een soortgelijke studie uitgevoerd (Rassier et al. 2019). Zij onderschrijven dat data waarde heeft en daarmee ook als geproduceerd activum gezien kan worden. Hun paper heeft een brede focus en behandelt onderwerpen als bezit van data, de productiegrens van de nationale rekeningen, de indeling van data in categorieën, de waardering van data en de overeenkomsten met andere immateriële activa. In hun paper pogen zij een waarde te geven aan zowel de aangekochte data, als de in eigen beheer ontwikkelde data. Zij constateren daarbij terecht dat data als concept binnen de nationale rekeningen nog niet is uitgekristalliseerd. Het gaat dan bijvoorbeeld om eigendom en de manier van waarderen. 

2.2.2.4 Toepassing op Nederland
De hierboven geschetste situatie, waarbij data wordt gezien als een geproduceerd activum die past in een waardeketen met databases en datascience, wordt in deze studie ook toegepast op Nederland. Deze methode is in praktische zin het best uitvoerbaar. Wat hier vooral aan bijdraagt is dat, om een totaaloverzicht van de waarde van data te geven, het niet mogelijk is om naar bedrijfsinformatie zelf te kijken. De waarde van data wordt ofwel niet opgenomen in de verslaglegging, of wordt onder de noemer immateriële activa gerubriceerd. In beide gevallen geeft dit weinig informatie. Voor een andere aanpak is ofwel te weinig informatie beschikbaar (aanbod en gebruik van datadragers en diensten), of is niet uitputtend, en geeft alleen voor een beperkt aantal bedrijven een inschatting.

2.2.2.5 Afbakening
Een eerste afbakening die we gebruiken is het begrip van een activum of investeringsgoed. Binnen de nationale rekeningen spreken we van activum als iets herhaaldelijk en langer dan een jaar ingezet kan worden in een productieproces. Hierdoor vallen niet alle data onder de investeringsgoederen, en wordt dus alleen de data beoogd die bedrijven herhaaldelijk in zullen zetten. Dat betekent niet dat alle data die we hier bestuderen continu wordt ingezet, maar er moet de mogelijkheid zijn om deze data langer dan een jaar in te zetten. Bij het in de praktijk brengen van de methode zal hier niet bij worden stilgestaan, omdat de scheiding van inzet korter en langer dan een jaar gebaseerd is op aannames.

Hierop aansluitend is ten tweede gekozen om alleen de investeringen in eigen beheer te berekenen. Binnen de nationale rekeningen wordt onderscheid gemaakt tussen activa die nieuw van derden worden aangekocht of in eigen beheer ontwikkeld/gebouwd. In dit geval levert deze definitie een praktisch voordeel op dat handel in deze activa buiten beschouwing gelaten wordt. Bronmateriaal rondom dit soort transacties is veelal afwezig of moeilijk te interpreteren, bijvoorbeeld als het gaat over goodwill of databases. Het andere voordeel is dat de waarde benaderd kan worden door de gemaakte kosten, aangezien er geen markttransactie aan ten grondslag ligt.[1] 

Ten derde gaan we ervan uit dat het bedrijf dat de kosten maakt ook de eigendomsrechten heeft. Dit hoeft voor grotere bedrijven (ondernemingen) niet altijd het geval te zijn. Een onderdeel kan het activum ontwikkelen, terwijl een ander onderdeel binnen het bedrijf de economische eigenaar wordt. Als beide binnen verschillende bedrijfstakken werkzaam zijn, heeft dat ook gevolgen voor de nationale rekeningen. Voor het totaalcijfer, de optelsom over de hele economie, maakt dit niet veel uit. In paragraaf 2.4 wordt verder ingegaan op eigendom van data.

Ten vierde is ervoor gekozen (internationale) handel buiten beschouwing te laten. Dit is een praktische keuze. Niet alleen handel in nieuwe data-activa, maar ook tweedehands activa laten we buiten beschouwing. Anekdotisch bewijs wijst erop dat er wel degelijk gehandeld kan worden in data-activa, bijvoorbeeld bij in opdracht gemaakte databases. Deze inperking heeft betrekking op de handel in activa zelf, en niet op de diensten de gegenereerd kunnen worden door gebruik te maken van data. De waarde van data schuilt onder meer in kennis over internetgebruikers. Stukjes van data worden wel beschikbaar gesteld aan bedrijven die bijvoorbeeld een marketingcampagne op willen zetten, maar de originele verzamelaar doet vrijwel nooit afstand van de gehele data(base). In de statistieken van de nationale rekeningen wordt dit voorbeeld als reclame- en advertentiediensten bestempeld, en niet als data. De aan- en verkoop van advertentiediensten vindt zowel puur binnenlands plaats, als grensoverschrijdend.

De waarde van de diensten die voortvloeien uit de data, databases en kennis van de data is niet hetzelfde als de balanswaarde van de data zelf. Wel bestaat er een verband tussen de twee variabelen. Volgens de economische theorie is de balanswaarde van een activum gelijk aan de verdisconteerde stroom van toekomstige inkomsten. Met andere woorden, als alle inkomsten die een bedrijf kan verdienen aan een activum bij elkaar opgeteld en verdisconteerd worden, zou deze gelijk moeten zijn aan de waarde op de balans.

Data en databases worden wel overgedragen bij overnames en fusies. Er zijn aanwijzingen dat de waarde van data juist een reden is dat bedrijven overnames doen (Li et al. 2019). In de statistische praktijk is handel in deze activa moeilijk waar te nemen, en is bij overnames niet geheel duidelijk welk gedeelte van de overnamesom toe te schrijven is aan data en wat aan andere (immateriële activa) (bijvoorbeeld als onderdeel van goodwill; merknamen). Doordat we deze transacties buiten beschouwing laten, is er geen inschatting nodig van de omvang van deze transacties.

Ten vijfde beperken de berekeningen zich tot de waarde die bedrijven weten te creëren. Dit betekent dat de waarde van de overheid buiten beschouwing wordt gelaten. De data die de overheid bezit is in principe toegankelijk voor derden en is geen exclusief eigendom waarmee de overheid geld kan (of zou moeten willen) verdienen. Daarbij is de overheid geen marktpartij, en verzamelt de overheid geen data uit het oogpunt winst te behalen. In de praktijk betekent dit dat de bedrijfstakken overheid en onderwijs worden uitgesloten in de berekeningen.

2.3 Indeling van soorten data

De classificatie van verschillende soorten data kan op meerdere manieren gedaan worden. De OESO heeft verschillende manieren vastgesteld waarop data geclassificeerd kan worden. Data kan ingedeeld worden naar eigendom, databron, financiering en onderhoud, toegang en manier van verzamelen (Nguyen en Paczos 2019). Dit leidt tot het volgende overzicht.

2.3.1 Categorieën van data volgens Nguyen en Paczos (2019)
Indelingscriterium data / Soort dataToelichting
Financiering / publieke sectorData die door de overheid is betaald en onderhouden
Financiering / marktsector / private sectorData die door bedrijven is betaald en onderhouden
Eigendom / exclusief eigendomEigendomsrechten over de dataset kunnen uitgeoefend worden
Eigendom / open dataData die vrijelijk beschikbaar is
Onderwerp / persoonlijke dataData over individuele personen
Onderwerp / organisatie-dataData die in bezit is van organisatie en mogelijk concurrentie-gevoelig
Databron/ gemaakt door gebruikersData die door een gebruiker wordt aangemaakt, al dan niet met behulp van een apparaat
Databron / gemaakt door machinesData die een machine aanmaakt, bijvoorbeeld communicatie tussen machines (M2M)
Databron / bedrijfsinternData die binnen een bedrijf wordt
Databron / extern verkregenData verkregen of aangekocht van een derde partij
Dataverzameling / actiefData die met instemming van personen of organisaties is verkregen
Dataverzameling / actiefData die verzameld kan worden zonder tussenkomst van personen of organisaties

De categorieën sluiten elkaar niet uit, vaak zal data bij meerdere categorieën ingedeeld kunnen worden.

Bedrijven zullen naar data kijken in de context van doel en onderwerp. Hun focus zal dus vooral liggen op het vlak van eigendom, onderwerp en databron. Bij eigendom is van belang of er specifieke wetgeving over bestaat, en of data gemakkelijk te combineren is en te koppelen met andere data. Het onderwerp is van belang als het erom gaat met welk doel data wordt ingezet. Dat hoeft niet één enkel doel te zijn, bijvoorbeeld verkoopgegevens kunnen gebruikt worden om actief te worden in nieuwe markten, maar kan ook ingezet worden om intern kosten te verlagen door een efficiënter inkoopproces. Van belang voor de nationale rekeningen zijn de kenmerken of de data met publiek geld of juist met privaat geld zijn gefinancierd, en of de data vrijelijk beschikbaar is, of er eigendomsrechten op uitgeoefend worden. Dan kan de toedeling van het eigendom aan institutionele sectoren worden gemaakt. Deze opdeling bestaat meestal uit vijf hoofdsectoren, dit zijn niet-financiële en financiële vennootschappen, overheid, huishoudens en instellingen zonder winstoogmerk ten behoeve van huishoudens. Ook geeft het eigendom aan of er sprake is van een investering, of alleen van lopende kosten indien er geen eigendom wordt toegekend.


Het classificeren van data staat nog in de kinderschoenen en een leidende classificatie is nog niet in zicht. In dit onderzoek kijken we alleen naar data van bedrijven, vanuit die optiek is de classificatie waarin onderscheid wordt aangebracht tussen bedrijfsleven en overheid van belang.

2.4 Van wie is het eigendom van data?

Eigendom van data is niet op voorhand duidelijk. Bijvoorbeeld in het geval van persoonsdata kunnen dit zijn de verstrekker (persoon), de ontvanger (data-bedrijf) en de overheid (voor bijvoorbeeld statistische doeleinden). In de Nederlandse context hebben individuele personen recht op privacy en persoonsdata kan niet voor alle doeleinden ingezet worden. Het eigendom van persoonsdata van een bedrijf is dus beperkt. Ook in het geval van niet-persoonsdata kan het eigendom moeilijk vast te stellen zijn. Dit is bijvoorbeeld het geval wanneer een koper een apparaat koopt van een fabrikant, waarbij het apparaat zelf data genereert. Het apparaat is eigendom van de koper, en draait op de productiefaciliteit van de koper, maar stuurt vervolgens data door naar de fabrikant. Dan moet per geval beslist worden aan wie de data toebehoort (Witteman et al. 2019). 

Het systeem van nationale rekeningen maakt een onderscheid naar juridische eigenaar en de economische eigenaar. De juridische eigenaar is de eigenaar volgens de wet. In veel gevallen zal die samenvallen met de economische eigenaar, maar dat hoeft niet. De economische eigenaar draagt het risico voor het bezit en is verantwoordelijk voor het onderhoud van het activum. Voor economische statistieken gaan we uit van een economisch eigendom. In het geval van dit paper zal dat de eenheid zijn die de data inzet voor het productieproces. Dat betekent dat we het eigendom toekennen aan een bedrijf, ook al hebben individuele personen een wettelijk recht op data over henzelf. 
Een ander aspect waar rekening mee gehouden moet worden is de eenvoudige reproduceerbaarheid van data. Data kan tegen zeer geringe marginale kosten gereproduceerd en verplaatst worden. Data dat in jaar 1 in land A opgeslagen is, kan in jaar 2 in land B staan. Bij multinationale ondernemingen is iets dergelijks vrij gemakkelijk te doen. Deze verplaatsing heeft meestal geen invloed op het productieproces. Voor bepaalde activiteiten, bijvoorbeeld data-analyse, kan iets soortgelijks gelden. De locatie van data-analyse kan verplaatst worden, zonder dat het activum data is verplaatst. Dit bemoeilijkt meting van data in de nationale economische statistiek. Voor dit onderzoek wordt de verplaatsing van het activum zelf buiten beschouwing gelaten, in een opvolgende studie zou hier wel aandacht aan gegeven kunnen worden.

Licenties om data te mogen gebruiken kan op zichzelf ook als een activum gezien worden. Dit geldt als deze licentie langer dan een jaar geldig is. Met de licentie kunnen dan verdere bedrijfsactiviteiten ontwikkeld worden. De licentiebetalingen worden in dit geval gezien als een investering, bij licenties korter dan een jaar worden de betalingen gezien als lopende kosten.

Bij een verkoop van data wordt het hele activum overgedragen, meestal inclusief de database waar deze data in staat. Over het algemeen zijn deze transacties moeilijk waar te nemen en komen ze niet veel voor. Er kan dan zowel sprake zijn van een nieuwe database als een reeds in gebruik zijnde database. Een meer voorkomende eigendomsoverdracht van data is een bedrijfsovername. Bij een bedrijfsovername zal de waarde van data onder goodwill gerubriceerd en gewaardeerd worden. Deze komt dan op de balans van de kopende partij. De waarde die hiermee aan de data gegeven wordt is afhankelijk van vraag en aanbod, waarbij de waarde beïnvloed wordt door de data die de kopende partij al heeft. Dat wil zeggen dat productiviteit van het combineren van data niet in alle gevallen even groot is. Bij een productievere combinatie zal, ceteris paribus, de overnamesom naar verwachting hoger liggen.

 

[1] De waarde van in eigen beheer ontwikkelde data zou in theorie wel in de financiële verslaglegging op de balans kunnen verschijnen.

3. De kwalitatieve studie en bedrijfsinterviews

3.1 De kwalitatieve studie

3.1.1 Gebruik van big data door bedrijven

Het CBS heeft in de enquête ICT-gebruik bedrijven in de jaren 2016 tot en met 2018 vragen opgenomen over het gebruik van big data door bedrijven.[2] Met big data wordt bedoeld informatie die wordt gegenereerd uit elektronische activiteiten van gebruikers, en uit onderlinge communicatie tussen apparaten (machine-to-machine). Het gaat bijvoorbeeld om gegevens die voortkomen uit het gebruik van media, en uit productieprocessen in een bedrijf. Het heeft meestal kenmerken als grote hoeveelheden met veel diversiteit en data die snel gegenereerd kan worden, makkelijk aangevuld en beschikbaar gesteld kan worden.

Deze term is vanaf de enquête van 2016 gebruikt, en is in opvolgende jaren steeds gehanteerd, zodat de uitkomsten vergelijkbaar zijn. Voor de consistentie met de rest van dit paper zal alleen de term data gehanteerd worden, ook al is in de enquête alleen gevraagd naar big data. In de enquête uit 2019 waren geen vragen opgenomen over het gebruik van data. In de enquête van 2020 zijn wel weer vragen opgenomen over het gebruik van data. Hierin wordt ook aan bedrijven gevraagd of ze data hebben gekocht van derden of verkocht aan derden, welke analysetechnieken ze gebruiken, en wat de eventuele beweegredenen waren om af te zien van het gebruik van data.[3] Voor de precieze vraagstelling in de genoemde jaren zie de bijlage.

3.1.1.1 Ruim een op de vijf bedrijven maakt gebruik van data
In 2017 maakte 22 procent van de bedrijven met 10 werkzame personen en meer gebruik van data (19 procent in 2015). Voor bedrijven met 2 tot 10 werkzame personen was dit in 2017 zo’n 14 procent. Voor beide groepen bedrijven waren sociale media de meest genoemde bron van data. Dit was voor de kleinere bedrijven wat overtuigender dan voor de bedrijven met 10 werkzame personen en meer.[4] Voor deze laatste groep zijn data van het bedrijf zelf ook een vaak genoemde bron van data. De groep ‘Andere bronnen’ is in de recente jaren substantieel. Kennelijk zijn er naast de gespecificeerde bronnen van data in toenemende mate ook nog andere bronnen van data.

3.1.2 Gebruik van data door bedrijven

3.1.2.1 Gebruik van data door bedrijven (10 werkzame personen en meer)
jaarcat2015 (% van bedrijven)2016 (% van bedrijven)2017 (% van bedrijven)
Maakt gebruik van data192322
Bronnen van dataData van het bedrijf zelf91110
Bronnen van dataData over geografische locaties786
Bronnen van dataData van sociale media101112
Bronnen van dataAndere bronnen498
Analyses uitgevoerd doorEigen bedrijf172018
Analyses uitgevoerd doorAnder bedrijf1078

3.1.2.2 Gebruik van data door bedrijven (2 tot 10 werkzame personen)
jaarcat2016 (% van bedrijven)2017 (% van bedrijven)
Maakt gebruik van data1414
Bronnen van dataData van het bedrijf zelf55
Bronnen van dataData over geografische locaties65
Bronnen van dataData van sociale media99
Bronnen van dataAndere bronnen34
Analyses uitgevoerd doorEigen bedrijf1111
Analyses uitgevoerd doorAnder bedrijf55

Het merendeel van de bedrijven analyseert de data zelf d.w.z. door de medewerkers van het eigen bedrijf. Bedrijven geven hiermee impliciet aan dat ze denken de kennis in huis te hebben om dit werk te kunnen doen. Het uitbesteden van data-analyse komt daarnaast echter ook regelmatig voor. In 2015 liet de helft van de bedrijven met 10 werkzame personen en meer data-analyses (ook) door andere bedrijven uitvoeren. In 2017 was dit zowel voor de grotere als de kleine bedrijven nog ongeveer een op de drie. Lang niet voor al het gebruik van data geldt dat een bedrijf bereid is dit als vanzelfsprekend te delen met een ander bedrijf.

3.1.2.1 Internationaal
De enquête ICT-gebruik bedrijven is onderdeel van een geharmoniseerde enquête binnen de EU. Dit wil zeggen dat bedrijven in alle landen van de EU jaarlijks een vergelijkbare enquête voorgelegd krijgen. Dit maakt het mogelijk het ICT-gebruik van de bedrijven in Nederland te vergelijken met dat in andere landen van de EU. Op het punt van het gebruik van data ‘scoren’ de bedrijven in Nederland hoog. Na Malta is het percentage bedrijven dat gebruik maakt van data in Nederland het hoogste. Voor de gehele EU-28 geldt dat 13 procent van de bedrijven zegt gebruik te maken van data. Voor Nederland is dit aandeel 22 procent.

3.1.2.1.1 Gebruik van data door bedrijven (10 werkzame personen en meer) binnen de EU, 2017
  (% van bedrijven)
Malta24
Nederland22
België20
Ierland20
Finland19
Frankrijk16
Luxemburg16
Duitsland15
Verenigd Koninkrijk15
Denemarken14
Litouwen14
EU-1513
Eurolanden13
Griekenland13
Portugal13
EU-2812
Estland11
Spanje11
Roemenië11
Kroatië10
Slovenië10
Zweden10
Slowakije9
Tsjechië8
Letland8
Polen8
Bulgarije7
Italië7
Hongarije6
Oostenrijk6
Cyprus5
N.B. 1: Cijfer Verenigd Koninkrijk: 2015. N.B. 2: Het cijfer voor Nederland kan afwijken van het nationale totaal omdat binnen de EU de financiële sector en de gezondheids- en welzijnszorg niet worden meegenomen.

3.1.3 Gebruik van data naar databron

In de onderstaande figuren is voor de verschillende bedrijfsgroepen de belangrijkste bron van data aangegeven. De categorie ‘Andere bronnen’ is weggelaten omdat hier van alles achter schuil kan gaan en deze daardoor wat minder goed te duiden is.
Onder de bedrijfsgroepen die relatief veel gebruik maken van data van het bedrijf zelf tref je veel industriële bedrijfsgroepen aan. Dit lijkt plausibel want het gaat hier om bedrijven die vaak wat groter zijn, complexere logistieke processen kennen en niet direct op de consumentenmarkt zijn gericht.
Onder de bedrijfsgroepen die relatief vaak gebruik maken van data van sociale media tref je bedrijfsgroepen die veelal direct aan de consument verkopen of ‘smaakgevoelige’ producten maken. Deze bedrijven kunnen op sociale media o.a. het ‘sentiment’ rondom hun goederen en diensten volgen en (potentiële) gebruikersprofielen opstellen.
Onder de bedrijfsgroepen die relatief vaak van data over geografische locaties gebruik maken tref je een aantal bedrijfsgroepen die je daar ook verwacht. Het gaat o.a. om bedrijfsgroepen die via ICT de locatie en mobiliteit van hun productiemiddelen of geleverde goederen monitoren.
Los van het niveau van het gebruik van data door bedrijven lijken de accenten die gelegd worden plausibel. Nederlandse bedrijven lijken tot op zekere hoogte doelgericht bezig met het gebruik van data ter verbetering van hun bedrijfsprocessen en verhoging van hun omzet.

3.1.3.1 Gebruik van data naar bron en bedrijfsgroep (10 werkzame personen en meer), 2017 (sortering: Data van het bedrijf zelf)
CategoryData van het bedrijf zelf (% van bedrijven die data gebruiken)Data van sociale media (% van bedrijven die data gebruiken)Data over geografische locaties (% van bedrijven die data gebruiken)
215714
228717
25338
288311
288322
307630
337850
357618
353114
365014
376837
373253
383156
38316
395644
407057
414514
415918
417624
426733
436020
455527
474732
546235
594527
613339
613948
635925
643618
652560
675733
693535
743216
75338
756622
763453
772727
90237
Top 10: 19-21 Raffinaderijen en chemie; 26-27 Elektrische en elektron. industrie; D-E Energie, water, afvalbeheer; 6612-6619 Financiële advisering; 24-25 Basismetaal, metaalprod.- industrie; 22-23 Kunststof- en bouwmateriaalindustrie; 71 Architecten-, ingenieursbureaus e.d.; 10-12 Voedings-, genotmiddelenindustrie; H Vervoer en opslag; 72 Research

3.1.3.2 Gebruik van data naar bron en bedrijfsgroep (10 werkzame personen en meer), 2017 (sortering: Data van sociale media)
CategoryData van het bedrijf zelf (% van bedrijven die data gebruiken)Data van sociale media (% van bedrijven die data gebruiken)Data over geografische locaties (% van bedrijven die data gebruiken)
90237
652560
772727
383156
38316
353114
373253
743216
25338
613339
75338
763453
693535
643618
613948
414514
594527
474732
365014
455527
395644
215714
675733
415918
635925
436020
546235
756622
426733
376837
407057
307630
417624
357618
337850
288311
288322
228717
Top 10: 58-60 Uitgeverijen, film,radio en t.v.; 56 Eet- en drinkgelegenheden; 78 Uitzendbureaus en arbeidsbemiddeling; 45 Autohandel en -reparatie; 55 Logiesverstrekking; 47 Detailhandel (niet in auto's); 73 Reclamewezen en marktonderzoek; 77 Verhuur van roerende goederen; 29-30 Transportmiddelenindustrie; 79 Reisbureaus, reisorganisatie en -info

3.1.3.3 Gebruik van data naar bron en bedrijfsgroep (10 werkzame personen en meer), 2017 (sortering: Data over geografische locaties)
CategoryData van het bedrijf zelf (% van bedrijven die data gebruiken)Data van sociale media (% van bedrijven die data gebruiken)Data over geografische locaties (% van bedrijven die data gebruiken)
38316
90237
25338
75338
288311
414514
353114
365014
215714
743216
228717
415918
357618
643618
436020
756622
288322
417624
635925
772727
594527
455527
307630
474732
675733
426733
693535
546235
376837
613339
395644
613948
337850
373253
763453
37,531,2556,25
407056,66666667
652560
Top 10: H Vervoer en opslag; 77 Verhuur van roerende goederen; 43 Gespecialiseerde bouw; D-E Energie, water, afvalbeheer; 41-42 B&U en wegenbouw; 45 Autohandel en -reparatie; 61 Telecommunicatie; 80-82 Overige zakelijke dienstverlening; 28 Machine-industrie; 29-30 Transportmiddelenindustrie

3.1.3.1 Bedrijfstak en bedrijfsgrootte
Per bedrijfsgrootte varieert het aantal bedrijven dat gebruik maakt van data van 12 procent van de bedrijven met 2 werkzame personen tot 53 procent van de bedrijven met 500 en meer werkzame personen (zie Bijlage tabel 3). Kleinere bedrijven maken dus minder vaak gebruik van data dan grotere bedrijven.

In de figuur hieronder is de mate waarin bedrijven data analyses binnen het eigen bedrijf uitvoeren of er ook derden bij betrekken, weergegeven. Al eerder is opgemerkt dat er geen duidelijk patroon zit in het al dan niet uitbesteden van data-analyses. Het is dus bijvoorbeeld niet zo dat kleinere bedrijven data-analyses stelselmatig vaker uitbesteden omdat ze er zelf niet de kennis voor zouden hebben. Wat wel opvalt is dat kleinere bedrijven vaker dan grotere bedrijven data-analyses volledig uitbesteden; met andere woorden ze doen er zelf niks aan. Meer dan 90 procent van de grotere bedrijven voert in ieder geval ook data-analyses uit binnen het eigen bedrijf, naast het uitbesteden ervan. Van de kleinere bedrijven zegt meer dan 20 procent van de bedrijven die gebruik maakt van data, dit uitsluitend door derden te laten doen.

3.1.3.1.1 Gebruik van data door bedrijven naar uitvoerder en bedrijfsgrootte (2 werkzame personen en meer), 2017
CategoryEigen bedrijf (% van bedrijven die data gebruiken)Ander bedrijf (% van bedrijven die data gebruiken)
Totaal, C-N en Q8040
2 werkzame personen8333
3 tot 5 werkzame personen7936
5 tot 10 werkzame personen7635
10 tot 20 werkzame personen7531
20 tot 50 werkzame personen8241
50 tot 100 werkzame personen8929
100 tot 250 werkzame personen9232
250 tot 500 werkzame personen9536
500 of meer werkzame personen9447

Kleinere bedrijven maken dus minder vaak gebruik van data dan grotere bedrijven. Dit geldt voor alle grootteklassen over de verschillende bedrijfstakken heen. Het geldt echter ook binnen een bedrijfstak. Kleinere bedrijven binnen eenzelfde bedrijfstak maken minder vaak gebruik van data dan grotere bedrijven binnen diezelfde bedrijfstak. Hierbij is het verschil tussen bedrijven van 2 tot 10 werkzame personen en 10 tot 50 werkzame personen vaak niet zo groot. Het gebruik van data begint pas toe te nemen onder bedrijven van 50 tot 250 werkzame personen en meer nog vanaf 250 werkzame personen (zie tabel in de bijlage).

3.1.3.2 Sociale media belangrijkste databron kleinere bedrijven
In figuur 3.1.3.2.1 is het relatieve belang van de bronnen voor data per grootteklasse weergegeven. Voor de kleinere bedrijven zijn sociale media de meest genoemde bron voor data. Dit komt onder andere doordat bedrijfsgroepen waarvoor sociale media een belangrijke bron voor data is, ook bedrijfsgroepen zijn die worden gedomineerd door kleinere bedrijven (Eet- en drinkgelegenheden, Logiesverstrekking). Voor de grotere bedrijven is het eigen bedrijf de belangrijkste bron voor data. Dit wordt deels verklaard door de bedrijfsgrootte (complexere logistieke processen) maar ook uit de achterliggende bedrijfsgroepen. Onder de grotere bedrijven vallen zoals eerder al opgemerkt, wat meer industriële bedrijven.

3.1.3.2.1 Bronnen van data naar bedrijfsgrootte (2 werkzame personen en meer), 2017
 Data van bedrijf zelf (% van bedrijven die data gebruiken)Data over geografische locaties (% van bedrijven die data gebruiken)Data van sociale media (% van bedrijven die data gebruiken)Andere bronnen (% van bedrijven die data gebruiken)
Totaal, C-N en Q23193819
2 werkzame personen19243819
3 tot 5 werkzame personen21214217
5 tot 10 werkzame personen26223715
10 tot 20 werkzame personen23193819
20 tot 50 werkzame personen28173322
50 tot 100 werkzame personen28193023
100 tot 250 werkzame personen37182222
250 tot 500 werkzame personen34162426
500 of meer werkzame personen29162332
N.B. Weergave is genormaliseerd naar 100 procent. Bedrijven kunnen meerdere bronnen van data hebben.

3.2 Bedrijfsinterviews

Naar aanleiding van het bovenstaande kwalitatieve onderzoek zijn in het onderzoek aanvullend een aantal bedrijven extra benaderd om meer extra inzicht in de waarde van data die zij rapporteren in de ICT-enquête te krijgen. Ook zijn meer in-depth interviews gehouden met drie bedrijven. De vragen waren gericht om een beter beeld te krijgen van de functie en waarde van data voor die bedrijven. De respondenten kwamen uit de retail, financiële dienstverlening en communicatie. Uit de antwoorden werd duidelijk dat veel bedrijven een gerichte aanpak hebben om met data te werken, dat wil zeggen dat de data direct voor de business inzetbaar zijn en ook structureel ingezet worden. Het doel, dus voor welke processen of producten de data werd ingezet, is veelzijdig. Het kan gaan om efficiëntere processen, nieuwe processen of diensten, beter bereik van klanten of hogere klantwaardering. Data is in de bedrijven van de respondenten een multi-inzetbare tool. Vrijwel alle respondenten gaven aan dat data geen nieuw fenomeen is. Data wordt al langer gebruikt voor het aansturen van bedrijfsprocessen, de zogenoemde business intelligence. Daarbovenop zijn nieuwe toepassingen en doelen gekomen, die naast de oude inzet van data bestaan. 

Doordat de respondenten vaak zelf werkzaam zijn op data-afdelingen was er een goed begrip van de rol van data in het bedrijf zelf, maar weinig tot geen van de totale waarde van data. Die kennis zal eerder liggen bij de accountants of controllers binnen het bedrijf. Wel gaf een respondent aan dat de waarde van data op de balans onder immateriële activa opgenomen is, maar onbekend is welk deel van het totaal dat dan vertegenwoordigde. De opleidingsachtergrond van de mensen die op de data gerichte afdelingen werken ligt in de lijn der verwachting. Het gaat om opleidingen als technische en natuurwetenschappelijke opleidingen, econometrie en operations research. Niet alleen op data-gerichte afdelingen wordt er met data gewerkt, in meerdere onderdelen van het bedrijf wordt met data gewerkt.

 

[2] De uitkomsten hebben betrekking op het gebruik van data in het jaar t-1, dus hier op 2015, 2016 en 2017.

[3] De uitkomsten van de enquête ICT-gebruik bedrijven 2020 zijn niet uitgebreid opgenomen in dit rapport omdat ze pas aan het einde van 2020 beschikbaar kwamen.

[4] De verschillen tussen beide groepen bedrijven worden niet alleen veroorzaakt door de bedrijfsgrootte maar ook door een verschil in de onderliggende populatie. Zo is in de populatie van de kleinere bedrijven de Horeca wat beter vertegenwoordigd en in de populatie van de grotere bedrijven bijvoorbeeld de Industrie. Elders in dit rapport wordt ingegaan op verschillen tussen bedrijfstakken.

4. Kwantitatieve studie naar de waarde van data

4.1 Methode waarde

De methode die wordt gebruikt is erop gericht de kosten te schatten die nodig is om een data als investeringsgoed in eigen beheer te ontwikkelen. Binnen de nationale rekeningen is dit niet ongebruikelijk, voor R&D en software in eigen beheer wordt ook een inschatting in termen van kosten gemaakt. Deze methode wordt in het algemeen in het SNA 2008 voorgeschreven indien er geen waarneming is van markttransacties, dan is dit een geaccepteerde benadering.

Deze kosten vallen uiteen in drie stukken: arbeidskosten, overige kosten en een opslag voor kapitaal. De aanpak die in deze paper wordt toegepast is gelijk aan die van het Canadese statistische bureau. Dit betekent dat data wordt uitgesplitst in drie stukken: data, databases en datascience. Voor elk van deze drie stukken moeten de kosten worden berekend.

Voor de arbeidskosten zijn specifieke beroepen geselecteerd, waarvan hun inzet gezien kan worden als een bijdrage aan de ontwikkeling van het activum. De tabel in de bijlage vermeldt de beroepen, met daarbij de procentuele bijdrage waarvan aangenomen wordt dat dit zij voor genoemd percentage bijdragen. Hier zit een bandbreedte in, met een hoog percentage en een laag percentage. Dit is gedaan om aan te geven dat de percentages berusten op aannames, en er dus daarbij verschillende scenario’s uitgerekend kunnen worden. Voor dit paper wordt alleen het hoge en het lage scenario uitgerekend, en geen combinaties of gemiddeldes. De scenario’s geven aan wat als ondergrens en bovengrens beschouwd kan worden, er is namelijk geen tot weinig empirisch materiaal over de tijdsbesteding van werknemers voor deze specifieke activiteit. Door een bandbreedte op te nemen wordt onderstreept dat de berekening afhankelijk is van keuzes in het model zelf.

De overige kosten worden geschat op 60 procent. Dit percentage is afkomstig uit de R&D-enquête, waar ook gevraagd wordt naar arbeidskosten en overige kosten. Dit wijkt af van het percentage in de Canadese studie (50 procent), maar dat verschil is beperkt en kan toegeschreven worden aan andere economische omstandigheden in beide economieën.

Tot slot wordt er gerekend met een opslag voor kapitaal (winsten) van 3 procent. Deze winsten zijn gebruikelijk om toe te rekenen voor marktpartijen, omdat zij een meeropbrengst verwachten op hun investering. Dit hoeft in de praktijk niet in alle gevallen voor te komen, maar aangenomen wordt dat de gemiddelde investering rendeert.

4.2 Methode volumeverandering 

Niet alleen de jaarlijkse waarde, maar ook de volumeveranderingen willen we schatten. Dat wil zeggen groei geschoond van prijseffecten. Hiervoor is de jaarlijkse prijsindex nodig. Deze index wordt bepaald aan de hand van de prijsveranderingen van de verschillende onderdelen (lonen, overige kosten en kapitaal). Daarbovenop is de aanname dat bij de productie van data jaarlijks 1 procent productiviteitsgroei geboekt wordt, die hier vervolgens is verwerkt in de prijsindex. Doordat er sprake is van een input-prijsindex, is correctie voor productiviteitswinsten te verdedigen. Vervolgens is het volume te bepalen door de waarde-index te delen door de prijsindex. 

4.3 Bronnen

De data die gebruikt wordt voor de arbeidskosten zijn de enquête beroepsbevolking (EBB) en de gegevens uit de polisadministratie (Polis). De variabelen die we nodig hebben zijn: het beroep, het werknemersloon en de bedrijfstak voor de beroepsbevolking van Nederland. EBB is een door het CBS uitgevoerd roterend panelonderzoek bestaande uit vijf golven, waarbij informatie wordt verzameld over arbeid van huishoudens en individuen. Voor ons onderzoek kijken we alleen naar individuen en niet naar huishoudens. In deze enquête vullen respondenten onder meer hun beroep in. In Polis zijn de andere variabelen opgenomen waarin we geïnteresseerd zijn: werknemersloon en de SBI. Polis is de administratieve dataset van de overheid waarin informatie uit verschillende administratieve bronnen wordt gecombineerd, voornamelijk van de Belastingdienst, maar ook van het Centrum voor Werk en Inkomen (CWI) en het Uitkeringsinstituut Werknemers Verzekeringen (UWV). Polis bevat administratieve informatie over personen, huishoudens, banen, uitkeringen en pensioenen. Het geeft inkomensinformatie over de gehele Nederlandse bevolking, inclusief personen die in het buitenland wonen maar in Nederland werken of een uitkering of pensioen ontvangen van een Nederlandse instelling.
Deze bestanden zijn met elkaar gecombineerd, zodat per beroep berekend kan worden wat de lonen zijn die hierbij horen.

Doordat de EBB een steekproef gebaseerde statistiek is, moeten de persoonsgegevens opgehoogd worden om de totale kosten per beroep te kunnen berekenen. De gewichten die gebruikt worden om de gegevens op te hogen zijn herberekend. Deze stap was nodig omdat voor een voldoende aantal waarnemingen op het niveau van beroepen, er opeenvolgende jaren gepoold zijn. In de praktijk betekent dit dat drie opeenvolgende EBB’s zijn gekoppeld aan 1 polisjaar. Zo zijn bijvoorbeeld de polisgegevens van 2017 gekoppeld aan de EBB van 2016, 2017 en 2018. Deze methode leidt er daardoor toe dat voor deze studie de nieuwste jaren met enige vertraging berekend kunnen worden, daarom is 2017 het meest recente jaar.

Door de steekproefgewichten te herberekenen wordt voorkomen dat de totale ophoging te hoog uitkomt. De totale ophoging varieert van 226 duizend personen tot aan 320 duizend personen. In de bijlagen staan een beschrijving van de methode en een tabel met per jaar de onopgehoogde (aantal observaties per jaar) en opgehoogde aantallen die gebruikt zijn in dit onderzoek.

Voor elk verslagjaar vanaf 2006 kan met behulp van de polisadministratie de lonen berekend worden. Voor de eerdere jaren zijn de kwantitatieve jaargegevens van de banen van werknemers gebruikt. Deze bron wijkt af van de eerder gebruikte bron. Hierdoor is een trendbreuk ontstaan in 2006, hoewel op het eerste gezicht de resultaten vergelijkbaar lijken. Er is voor dit onderzoek geen poging gedaan om de tijdreeks volledig vergelijkbaar te maken. Daardoor moeten de resultaten vóór 2006 met enige voorzichtigheid behandeld worden.

Alle prijsinformatie is afgeleid uit de aanbod- en gebruiktabellen. Hierin kunnen per onderdeel prijzen worden afgeleid. Dat is als volgt gedaan: voor data en databases zijn dit de prijsontwikkelingen van de beloning in de bedrijfstakken IT-dienstverlening en dienstverlening op het gebied van informatie (SBI-codes 62 en 63); voor datascience de prijsontwikkeling van de beloning in de research (SBI-code 72). De overige kosten krijgen de prijs van het totale verbruik aan goederen en diensten mee, de kapitaalkosten krijgen de prijsontwikkeling van de totale investeringen mee. In de bijlage is een tabel opgenomen met de prijsontwikkelingen per verslagjaar.

4.4 Resultaten

Doordat in de periode 2001-2005 gebruik is gemaakt van een andere bron dan in 2006-2017 zijn de perioden niet volledig vergelijkbaar. Wel is duidelijk dat de gevonden resultaten op het hier getoonde totaalniveau op het oog geen breuk laten zien. Er is een vrij constante stijging. In de overzichten hieronder wordt er wel rekening mee gehouden door de volumes per periode apart weer te geven.

In miljoenen euro’s gemeten stijgen in het lage scenario de jaarlijkse uitgaven van alle drie de activa samen tussen 2001 en 2005 van 8,4 naar 10 miljard euro. In de periode erna, van 2006 -2017 stijgt de jaarlijkse waarde van 10,3 naar 15,6 miljard euro. Voor het hoge scenario stegen de jaarlijkse uitgaven van 10,5 miljard euro naar 12,3 miljard euro in de periode 2001-2005. Voor de periode 2006-2017 nemen de uitgaven toe van 13 naar 20 miljard euro.

4.4.1 Waarde van data totaal, lopende prijzen
JaarTotaal data laag scenario (mln euro)Totaal data hoog scenario (mln euro)
2001 8 417 10 522
2002 8 552 10 704
2003 8 696 10 792
2004 9 692 12 009
2005 9 951 12 305
2006 10 325 12 970
2007 11 592 14 675
2008 11 864 15 362
2009 11 785 15 279
2010 12 194 15 762
2011 12 385 15 958
2012 13 359 17 098
2013 13 727 17 570
2014 14 350 18 374
2015 14 680 18 856
2016 15 026 19 285
2017 15 599 20 026


Onderliggend, verdeeld naar de verschillende activumsoorten, zijn er verschillen. Data groeide sterk, in het hoge scenario tussen 2006 en 2017 van ruim 7 miljard naar 10,4 miljard. Aan databases werd er juist minder gespendeerd, dit ging van bijna 4,9 miljard naar 4,4 miljard euro. Voor datascience was de stijging zeer sterk, van minder dan 1 miljard naar 5,2 miljard euro per jaar. In het lage scenario is er sprake van een iets kleinere groei. Data stijgt dan van 5,1 miljard naar 7,3 miljard. Bij databases is de daling van 4,4 naar 3,9 miljard euro. Datascience neemt toe van ruim 800 miljoen in 2006 naar 4,4 miljard in 2017.

4.4.2 Uitgaven aan data, databases en datascience
jaarData hoog scenario (miljoen euro)Databases hoog scenario (miljoen euro)Datascience hoog scenario (miljoen euro)
200671284862980
2007863548091231
2008885350301480
2009862353061351
2010885255601351
2011877357041481
2012929654712331
2013956947243276
2014986943004205
2015995843284570
20161009142914903
20171043844045184
 

Tabel 4.4.3 geeft een overzicht van de volumegroei van de data-activa voor zowel het hoge als lage scenario. De groei van data (2001-2005) kwam in de eerste periode vooral van databases en data. In de periode erna was er een groei van alle drie de soorten data-activa. De laatste periode (2011-2017) wordt gekenmerkt door afnames in databases, met een zeer sterke groei van datascience. Gemeten in volumegroei zijn de verschillen tussen het lage en hoge scenario beperkt. Op totaalniveau was het verschil in de periode 2006-2011 het grootst, namelijk 0,5 procentpunt (2,8 -/- 2,3). 

4.4.3 Jaarlijkse volumegroei data, databases, datascience en het totaal van data-activa
PeriodeData laag scenario (%)Data hoog scenario (%)Databases laag scenario (%)Databases hoog scenario (%)Datascience laag scenario (%)Datascience hoog scenario (%)Totaal data laag scenario (%)Totaal data hoog scenario (%)
2001/200510,96,16,1-4,2-4,22,82,5
2006/20111,92,81,81,97,17,12,32,8
2011/20173,63,2-4,1-3,923,2234,14,1
2006/20172,83,1-1,4-1,315,615,53,33,5

4.5 Bespreking van resultaten

Om de resultaten van de waarde van data te kunnen beoordelen kunnen naar een paar aspecten gekeken worden. Ten eerste kan er gekeken worden naar het algemene economische beeld, en ten tweede kunnen de gevonden resultaten vergeleken worden met andere landen en andere cijfers binnen de nationale rekeningen.

Ten eerste, de sterke groei van datascience is niet verwonderlijk. Hoewel als begrip niet zeer recent is het gebruik van datascience in recentere jaren sterk toegenomen.  Opmerkelijker is de afname van databases in recente jaren. Een voorname oorzaak lijkt de uitbesteding van ICT gerelateerde diensten aan het buitenland, waaronder dus ook werkzaamheden aan databases vallen. Er werd zowel uitbesteed naar Europa als erbuiten, met India als belangrijke bestemming voor de uitbesteding van ondersteunende diensten (CBS 2018). In Nederland steeg het percentage bedrijven met offshoring dat ondersteunende activiteiten uitbesteedde van 67 procent in 2001-2006 naar 70 procent in 2009-2011. Dit ging voornamelijk om ICT en administratie. In de periode 2014-2016 ging het om soortgelijke percentages als in 2009-2011. De groei van datascience spoort met de in de literatuur gevonden verwachting dat deze activiteit het meeste zal opleveren. Ook uit de interviews en kwalitatieve onderzoek valt af te leiden dat data-analyse hier een groei doormaakt, hoewel de vertaling naar de kwantitatieve gegevens hiermee moeilijk te maken is.

Ten tweede kan er gekeken worden naar resultaten in andere landen. Doordat de aanpak van dit onderzoek geënt is op het onderzoek in Canada, zijn deze resultaten het gemakkelijkst met elkaar te vergelijken. Hieruit blijkt dat de resultaten, gemeten in jaarlijkse gemiddelde waardegroei voor 3 perioden, redelijk vergelijkbaar zijn op totaalniveau. Daarbij moet wel rekening gehouden worden met het feit dat in Canada de overheid wel in de cijfers is opgenomen. In de eerste periode (2005/6 tot en met 2010) was de jaarlijkse groei in Nederland hoger voor het totaal, voor de periode erna (2010 tot en met 2015) in Canada. In de meeste recente jaren lag de groei dicht bij elkaar in beide landen. Sterke verschillen zitten in databases, die in Canada over de gehele periode vanaf 2005 een groei doormaken, terwijl dat in Nederland niet het geval is. Blijkbaar heeft offshoring en outsourcing een kleiner effect op Canada gehad dan op Nederland. Datascience daarentegen groeit in Nederland veel sterker dan in Canada. Wel is in beide landen een afvlakking van de groei in de laatste paar jaren van beide studies duidelijk.

In de studie van BEA is de groei van data-gerelateerde uitgaven voor marktgerichte bedrijfstakken zonder de bedrijfstak dataverwerking en opslag tussen 2012 en 2017 jaarlijks ruim 7 procent. Deze groeipercentages zijn in waardes en niet volumes. Dat is een stuk hoger dan de groei in Nederland, en ligt dichter op de groei in Canada. Het verschil met de Nederlandse resultaten is niet gemakkelijk te plaatsen, doordat de selectie van beroepen verschilt, en er een andere manier van bepalen van overige kosten is toegepast (Rassier et al 2019).

In zowel Canada en de studie van BEA wordt er voorzichtig omgegaan met het vergelijken en relateren van de gevonden resultaten aan de nationale rekeningen. Een oorzaak hiervan ligt in de keuze welke beroepen bijdragen aan data-activa, en welk gedeelte van hun tijd daaraan moet worden toegeschreven.
Ook is de precieze overlap tussen R&D en datascience moeilijk in te schatten. In de visie van Canada valt datascience volledig onder R&D. Dit wordt ook bevestigd in de toelichting in de R&D-enquête. Als uitleg onder het kopje “toegepast onderzoek” staat hier: “Oorspronkelijk onderzoek met als doel het verwerven van nieuwe kennis, primair gericht op praktische toepassingen.” En onder “experimentele ontwikkeling” staat: “Systematisch werk, gebaseerd op kennis die verkregen is uit onderzoek en praktijkervaring, gericht op: - het produceren van nieuwe materialen, producten en apparaten; - het in gebruik nemen van nieuwe processen, systemen en diensten of - het sterk verbeteren van producten en processen die al in gebruik zijn.”  (R&D-enquête 2018).
Daarmee kan datascience als een R&D-activiteit beschouwd worden. Uit de interviews die gehouden zijn werd dit gedeeltelijk bevestigd, maar niet alle geïnterviewden herkenden zich in deze typering van de werkzaamheden in hun bedrijfsonderdeel. Daardoor is de overlap niet gemakkelijk vast te stellen.

Naast datascience is er een overlap tussen de huidige statistieken voor databases en de hier gepresenteerde resultaten. Op het eerste gezicht lijkt deze overlap volledig, maar uit onderzoek van het statistiekbureau van Canada bleek dat hun nieuwe resultaten hoger uitkwamen dan degene die nu in hun nationale rekeningen worden gebruikt.

Op het moment dat er nieuwe activa-classificaties aan de investeringen worden toegevoegd, moeten er enkele wijzigingen worden gedaan aan de nationale rekeningen. Eén daarvan betreft de productie en toegevoegde waarde van de overheid. Deze worden berekend aan de hand van de kosten, en worden dus (mede) bepaald door de afschrijvingen. Het berekenen van afschrijvingen op data betekent echter dat er informatie over prijzen van data en afschrijvingspercentages bekend moet zijn. Deze zijn op dit moment nog niet goed vast te stellen.

Om hierboven genoemde redenen is het aandeel van data (data, databases en datascience) in het bruto binnenlands product (BBP) en investeringen niet eenduidig vast te stellen. Wel kunnen we een paar aannames doen om toch tot een inschatting te komen. 1.) We nemen de mogelijke investeringen van de overheid niet mee en zetten deze op 0; 2.) de overlap tussen de huidige raming van databases en de nieuwe is volledig (100%); 3.) de overlap tussen de huidige raming van R&D en databases is nihil en tot slot 4.) er is geen internationale handel in data-activa.

Op basis van deze aannames kan vastgesteld worden dat het aandeel van data in de investeringen varieert. Hierbij worden data, databases en software bij elkaar opgeteld. In 2006 is het aandeel in de investeringen, in niveaus gemeten, 8 procent voor het lage scenario en bijna 10 procent in het hoge scenario. Dat is in 2017 opgelopen tot 9,7 en ruim 12 procent voor het lage en hoge scenario respectievelijk. Daarbij moet aangetekend worden dat het hoogste aandeel bereikt wordt in 2014. Toen waren de aandelen 11,2 en bijna 14 procent. Gemeten als percentage van het BBP neemt deze toe van 1,7 in 2006 naar 2,1 in 2017 voor het lage scenario. In het hoge scenario verschuift het aandeel van 2,2 procent naar 2,7 procent voor dezelfde tijdsperiode.

5. Conclusie en toekomstig onderzoek

Dit onderzoek geeft de context en een eerste inschatting van de waarde van data voor Nederland. Uit het literatuuronderzoek komt naar voren dat de manier om data te typeren en inschatting van de waarde nog met enige onzekerheid zijn omgeven. Wel wordt duidelijk dat de rol van data voor bedrijven steeds groter wordt en niet meer is weg te denken in onze economie. Dat geldt in het bijzonder voor platform- en internet gebaseerde bedrijven, maar ook voor andere bedrijven waarin data steeds belangrijker wordt in de (interne) bedrijfsvoering. Hetzelfde kan ook als centrale boodschap uit de interviews en kwalitatieve studie gehaald worden. Veel bedrijven verzamelen zelf data en doen aan data-analyse. In Europees opzicht behoort Nederland hierin tot de koplopers. Ook zullen zij waar nodig data van anderen bij hun analyses betrekken om hun werk te kunnen doen.

Tot slot geeft het kwantitatieve onderzoek een eerste inschatting van de waarde van data in de Nederlandse economie. Dit laatste stuk leunt sterk op onderzoek en definities die in de nationale rekeningen gemaakt worden. Door gebruik te maken van dit raamwerk kunnen we data typeren als een investeringsgoed. Dit betekent dat niet alle data een waarde krijgt toegekend, alleen de data die bedrijven herhaaldelijk in hun bedrijfsprocessen ondersteunt, hebben we een waarde meegeven. Duidelijk resultaat van de kwantitatieve studie is een groei van de waarde van data, die is opgesplitst in data, databases en datascience. Er kan worden vastgesteld dat data-investeringen van Nederlandse bedrijven in de afgelopen 15 jaar stevig zijn gegroeid, wat leidt tot een waarde variërend van 15,6 tot 20 miljard euro in 2017.  

De investeringen in data kunnen beschouwd worden als een uitbreiding van ICT-kapitaal en immateriële activa of kenniskapitaal. Aan beide categorieën wordt een positief effect op de productiviteitsgroei toegeschreven, maar vooral in de jaren vóór de crisis van 2009. In de jaren erna is er sprake van vertraging van de productiviteit in eigenlijk de gehele Westerse wereld. Deze vertraging wordt ook wel aangeduid als de productiviteitspuzzel, omdat de huidige jaren zich kenmerken door nieuwe ontwikkelingen op het gebied van bijvoorbeeld AI en biotechnologie. De verwachting is dat deze ontwikkelingen zich behoren uit te drukken in productiviteitsgroei (arbeidsproductiviteit of multifactorproductiviteit). Verschillende economen hebben zich al over dit onderwerp gebogen, en verschillende verklaringen zijn al gegeven en onderzocht (Grabska et al. 2017). Het kwantificeren van waarde van data, zoals in dit onderzoek is gedaan, geeft geen directe oplossing van de productiviteitspuzzel. Wel kan het een rol spelen in verklaringen voor de waargenomen lage productiviteitsgroei. Verklaringen waarbij waarde van data relevant kan zijn, zijn o.a. de beperktere mogelijkheden tot schaalvoordelen van de Europese dienstensector in vergelijking met de Amerikaanse, de toenemende spreiding tussen voorlopers en achterblijvers in termen van productiviteit, de beperktere invloed van huidige innovaties ten opzichte van innovaties in het begin van de 20e eeuw (zie hiervoor Gordon 2016) en tot slot de noodzaak om bij toepassing van innovaties ook de organisatie hierop in te richten door middel van organisatorisch kapitaal.

Deze studie is een pilotstudie en geeft daarmee geen definitief antwoord op de vraag hoeveel data waard is in Nederland. Een aantal lacunes en aannames moeten nader onderzocht worden om tot een preciezere inschatting te komen. Een belangrijk aspect is het vaststellen van waarde van data voor de overheid en uitsplitsing naar bedrijfstakken en sectoren. Aansluitend hierop kan onderzoek gedaan worden naar de (internationale) handel in data, en bepaald worden of er ook bedrijven zijn die databases maken en verkopen aan derden. Specifiek en interessant is de vraag welke bedrijven met elkaar in data handelen, of diensten afnemen gebaseerd op data, ook in internationale context. Ook de vraag hoe groot de overlap met de bestaande cijfers van databases en R&D is, moet beantwoord worden. Verder zijn afschrijvingen op data op dit moment nog een blinde vlek en tot slot is een empirische vaststelling van tijdsfactoren nuttig om deze te confronteren met de inschattingen in deze studie. Desalniettemin laat onze studie zien dat data er wel degelijk en in toenemende mate toe doet in de Nederlandse economie. En dat het verder (kwantitatief) in kaart brengen van de rol van data in onze economie mogelijk is. Maar dat daarvoor wel aanvullend nader onderzoek en afstemming (ook in internationale context) nodig is.

Referenties

CBS (2018), ‘R&D Enquête’.

CBS (2018), Uitbesteden van werk aan het buitenland door bedrijven in Nederland, Internationaliseringsmonitor 2018-2.

Economist (2017), The world’s most valuable resource is no longer oil, but data’.

Elp, M. van en N. Mushkudiani (2019), ‘Free services’, CBS paper.

Europese Commissie, European data strategy.

Europese Commissie (2013), ‘Europees Systeem van Rekeningen 2010’.

Gordon R.J. (2016), ‘The rise and fall of American growth: the U.S standard of living since the Civil War’,  Princeton University Press.

Grabska, K., Bettendorf L., Luginbuhl R., Meijerink G. en A. Elbourne (2017), Productivity Slowdown - Evidence for the Netherlands. CPB Communication (maart 2017).

ISWGNA sub-group on digitalization (2020), ‘Recording and Valuation of Data in National Accounts’. 

Ker, D., V. Spiezia and A. Weber (2019), ‘Perspectives on the value of data and data flows’. Working Party on Measurement and Analysis of the Digital Economy.

Li, W.C.Y., M. Nirei and K. Yamana (2019), ‘Value of Data: There’s No Such Thing as a Free Lunch in the Digital Economy’. 

Nguyen, D. en M. Paczos (2019), ‘Measuring the Economic Value of Data and Data Flows’. OECD Working Paper.

Nijmeijer, H. (2018), ‘Issue paper on Databases’, Joint Eurostat-OECD Task Force on Land and Other Non-Financial Assets.

Rassier, D.G., R. J. Kornfeld and E.H. Strassner (2019), ‘Treatment of Data in National Accounts’. Paper prepared for the BEA advisory committee.

Shapiro, C. en H. Varian, (2000), ‘De nieuwe economie’. Nieuwezijds, Amsterdam.

Statistics Canada (2019) , ‘Measuring investment in data, databases and data science: Conceptual framework’. 

Statistics Canada (2019), ‘The value of data in Canada: Experimental estimates’.

Verenigde Naties (2009), ‘System of National Accounts 2008’.

Witteman, J., M. Eechoud, C. Behrens en E. Brouwer (2019), ‘Toegang tot data uit apparaten’, SEO-rapport nr. 2019-29 (nog te verschijnen).

Bijlagen

Bijlage 1. Gebruik van data door bedrijven naar bedrijfsgroep, 2017
% van bedrijven maakt gebruik van big data% van bedrijven maakt gebruik van data van bedrijf zelf% van bedrijven maakt gebruik van data over geografische locaties% van bedrijven maakt gebruik van data van sociale media% van bedrijven maakt gebruik van andere bronnen% van bedrijven mnalyse uitgevoerd door eigen bedrijf% van bedrijven analyse uitgevoerd door ander bedrijf
Bedrijfstakken C-N en QTotaal22106128188
Bedrijfstakken C-N en Q10-12 Voedings-, genotmiddelenindustrie211471210195
Bedrijfstakken C-N en Q13-15 Textiel-, kleding-, lederindustrie145273105
Bedrijfstakken C-N en Q16-18 Hout-, papier-, grafische industrie1773103155
Bedrijfstakken C-N en Q19-21 Raffinaderijen en chemie302727102613
Bedrijfstakken C-N en Q22-23 Kunststof- en bouwmateriaalindustrie1914362184
Bedrijfstakken C-N en Q24-25 Basismetaal, metaalproduktenindustrie129143112
Bedrijfstakken C-N en Q26-27 Elektrische en elektronische industrie2217665226
Bedrijfstakken C-N en Q28 Machine-industrie181176101310
Bedrijfstakken C-N en Q29-30 Transportmiddelenindustrie1977134159
Bedrijfstakken C-N en Q31-33 Overige industrie en reparatie199696176
Bedrijfstakken C-N en QD-E Energie, water, afvalbeheer38292013143415
Bedrijfstakken C-N en Q41-42 B&U en wegenbouw1971063159
Bedrijfstakken C-N en Q43 Gespecialiseerde bouw166953134
Bedrijfstakken C-N en Q45 Autohandel en -reparatie18691461311
Bedrijfstakken C-N en Q46 Groothandel en handelsbemiddeling22136108207
Bedrijfstakken C-N en Q47 Detailhandel (niet in auto's)2912722132215
Bedrijfstakken C-N en Q55 Logiesverstrekking1763135147
Bedrijfstakken C-N en Q56 Eet- en drinkgelegenheden1852153127
Bedrijfstakken C-N en Q58-60 Uitgeverijen, film,radio en t.v.4610840213921
Bedrijfstakken C-N en Q61 Telecommunicatie44272117183713
Bedrijfstakken C-N en Q62-63 IT- en informatiedienstverlening3720132323367
Bedrijfstakken C-N en Q6419-6492 Banken322081914324
Bedrijfstakken C-N en Q651-652 Verzekeringen5118716444630
Bedrijfstakken C-N en Q6612-6619 Financiële advisering3224721222812
Bedrijfstakken C-N en Q68 Verhuur en handel van onroerend goed12314985
Bedrijfstakken C-N en Q69-70 Juridisch en managementadvies22931011208
Bedrijfstakken C-N en Q71 Architecten-, ingenieursbureaus e.d.26189913249
Bedrijfstakken C-N en Q72 Research3321612213013
Bedrijfstakken C-N en Q73 Reclamewezen en marktonderzoek33101025202611
Bedrijfstakken C-N en Q74-75 Overige professionele diensten3515721143312
Bedrijfstakken C-N en Q77 Verhuur van roerende goederen30121721112612
Bedrijfstakken C-N en Q78 Uitzendbureaus en arbeidsbemiddeling1854155176
Bedrijfstakken C-N en Q79 Reisbureaus, reisorganisatie en -info33141122203220
Bedrijfstakken C-N en Q80-82 Overige zakelijke dienstverlening1878103156
Bedrijfstakken C-N en Q86 Gezondheidszorg1661510118
Bedrijfstakken C-N en Q87-88 Verzorging en welzijn143285106
Bron: CBS

Bijlage 2. Gebruik van data door bedrijven naar bedrijfstak en -grootte, 2017
BedrijfstakWerkzame personen% van bedrijven maakt gebruik van big data% van bedrijven maakt gebruik van data van bedrijf zelf% van bedrijven maakt gebruik van data over geografische locaties% van bedrijven maakt gebruik van data van sociale media% van bedrijven maakt gebruik van andere bronnen% van bedrijven analyse uitgevoerd door eigen bedrijf% van bedrijven analyse uitgevoerd door ander bedrijf
Totaal C-N en QTotaal1565105126
Totaal C-N en Q2 tot 10 werkzame personen145594115
Totaal C-N en Q10 tot 50 werkzame personen1875116157
Totaal C-N en Q50 tot 250 werkzame personen31181014132910
Totaal C-N en Q250 en meer werkzame personen49301523284620
C IndustrieTotaal148584125
C Industrie2 tot 10 werkzame personen126593104
C Industrie10 tot 50 werkzame personen126473104
C Industrie50 tot 250 werkzame personen29216810288
C Industrie250 en meer werkzame personen50381320244816
D-E Energie, water, afvalbeheerTotaal251810882011
D-E Energie, water, afvalbeheer2 tot 10 werkzame personen1811453118
D-E Energie, water, afvalbeheer10 tot 50 werkzame personen25179672010
D-E Energie, water, afvalbeheer50 tot 250 werkzame personen47342916234711
D-E Energie, water, afvalbeheer250 en meer werkzame personen84796341337945
F BouwnijverheidTotaal135973105
F Bouwnijverheid2 tot 10 werkzame personen134973105
F Bouwnijverheid10 tot 50 werkzame personen133752114
F Bouwnijverheid50 tot 250 werkzame personen3318181162918
F Bouwnijverheid250 en meer werkzame personen5645309225224
G HandelTotaal1675114126
G Handel2 tot 10 werkzame personen1564113116
G Handel10 tot 50 werkzame personen211061381710
G Handel50 tot 250 werkzame personen3318101912308
G Handel250 en meer werkzame personen52311635314827
H Vervoer en opslagTotaal1881384165
H Vervoer en opslag2 tot 10 werkzame personen1761393165
H Vervoer en opslag10 tot 50 werkzame personen138842105
H Vervoer en opslag50 tot 250 werkzame personen33212148317
H Vervoer en opslag250 en meer werkzame personen73593815417023
I HorecaTotaal1334122104
I Horeca2 tot 10 werkzame personen123411294
I Horeca10 tot 50 werkzame personen1642143117
I Horeca50 tot 250 werkzame personen331262862317
I Horeca250 en meer werkzame personen4819629174821
J Informatie en communicatieTotaal251071514244
J Informatie en communicatie2 tot 10 werkzame personen21761211203
J Informatie en communicatie10 tot 50 werkzame personen3517112320338
J Informatie en communicatie50 tot 250 werkzame personen50241732264711
J Informatie en communicatie250 en meer werkzame personen70361854466829
K Financiële dienstverleningTotaal17105910157
K Financiële dienstverlening2 tot 10 werkzame personen126466105
K Financiële dienstverlening10 tot 50 werkzame personen271641514256
K Financiële dienstverlening50 tot 250 werkzame personen50291519334418
K Financiële dienstverlening250 en meer werkzame personen67361138636340
L Verhuur en handel van onroerend goedTotaal13448777
L Verhuur en handel van onroerend goed2 tot 10 werkzame personen13448678
L Verhuur en handel van onroerend goed10 tot 50 werkzame personen7002552
L Verhuur en handel van onroerend goed50 tot 250 werkzame personen241368211313
L Verhuur en handel van onroerend goed250 en meer werkzame personen5126026425117
M Specialistische zakelijke dienstenTotaal166497145
M Specialistische zakelijke diensten2 tot 10 werkzame personen145485124
M Specialistische zakelijke diensten10 tot 50 werkzame personen22951210208
M Specialistische zakelijke diensten50 tot 250 werkzame personen44271020284115
M Specialistische zakelijke diensten250 en meer werkzame personen59432127405921
N Verhuur en overige zakelijke dienstenTotaal1667104136
N Verhuur en overige zakelijke diensten2 tot 10 werkzame personen145794116
N Verhuur en overige zakelijke diensten10 tot 50 werkzame personen1756133156
N Verhuur en overige zakelijke diensten50 tot 250 werkzame personen2289148197
N Verhuur en overige zakelijke diensten250 en meer werkzame personen36131324163412
Q Gezondheids- en welzijnszorgTotaal11415576
Q Gezondheids- en welzijnszorg2 tot 10 werkzame personen10315476
Q Gezondheids- en welzijnszorg10 tot 50 werkzame personen11216466
Q Gezondheids- en welzijnszorg50 tot 250 werkzame personen1552512135
Q Gezondheids- en welzijnszorg250 en meer werkzame personen3517612233118
Bron: CBS

Bijlage 3. Gebruik van data door bedrijven naar bedrijfsgrootte, 20177
% van bedrijven maakt gebruik van big data% van bedrijven maakt gebruik van data van bedrijf zelf% van bedrijven maakt gebruik van data over geografische locaties% van bedrijven maakt gebruik van data van sociale media% van bedrijven maakt gebruik van andere bronnen% van bedrijven analyse uitgevoerd door eigen bedrijf% van bedrijven analyse uitgevoerd door ander bedrijf
Bedrijfstakken C-N en QTotaal1565105126
Bedrijfstakken C-N en Q2 werkzame personen124584104
Bedrijfstakken C-N en Q3 tot 5 werkzame personen1455104115
Bedrijfstakken C-N en Q5 tot 10 werkzame personen1776104136
Bedrijfstakken C-N en Q10 tot 20 werkzame personen1665105125
Bedrijfstakken C-N en Q20 tot 50 werkzame personen22106128189
Bedrijfstakken C-N en Q50 tot 100 werkzame personen281391411258
Bedrijfstakken C-N en Q100 tot 250 werkzame personen37251215153412
Bedrijfstakken C-N en Q250 tot 500 werkzame personen44281320214216
Bedrijfstakken C-N en Q500 of meer werkzame personen53321826355025
Bron: CBS

Bijlage 1 Vraagstelling enquête ICT-gebruik bedrijven

De module over het gebruik van big data uit de enquêtes ICT-gebruik bedrijven 2016, 2017 en 2018

Big data analyse
Met 'big data'1 bedoelen we hier informatie die wordt gegenereerd uit elektronische activiteiten van gebruikers, en uit onderlinge communicatie tussen apparaten (machine-to-machine). Het gaat bijvoorbeeld om gegevens die voortkomen uit het gebruik van sociale media, en uit productieprocessen in een bedrijf. Big data analyse is het gebruik van technieken, technologieën en software-tools voor analyse van big data uit het eigen bedrijf, of uit andere gegevensbronnen.

1. Heeft uw bedrijf in 2015 big data geanalyseerd uit de volgende bronnen:
Analyses die andere bedrijven hebben uitgevoerd voor uw bedrijf tellen ook mee

  • data van het bedrijf zelf, uit apparaten of sensoren? Ja/Nee
    (bijv. uit onderlinge communicatie tussen apparaten (machine-to-machine), digitale sensoren,

Radio Frequency Identification tags (RFID)

  • data over geografische locaties uit het gebruik van draagbare apparaten? Ja/Nee
    (bijv. apparaten die mobiele-telefoonnetwerken, draadloze verbindingen of GPS gebruiken)
  • data afkomstig van sociale media? Ja/Nee
    (bijv. sociale netwerken zoals Facebook, blogs en microblogs zoals Twitter, en websites die multimedia delen zoals YouTube)
  • andere bronnen van big data? Ja/Nee

2. Wie heeft in 2015 voor uw bedrijf big data geanalyseerd?

  • Medewerkers van uw eigen bedrijf Ja/Nee

Inclusief medewerkers van moeder-, dochter- of zustermaatschappijen

  • Een ander bedrijf Ja/Nee

Toelichting

1Big data
Big data hebben meestal kenmerken zoals:

  • grote hoeveelheden gegevens die in de loop van de tijd zijn gegenereerd;
  • grote diversiteit van de gegevens doordat er verschillende indelingen van complexe data bestaan, gestructureerd of ongestructureerd. Het gaat bijvoorbeeld om gegevens in de vorm van tekst, video, afbeeldingen, spraak, documenten, sensorgegevens, activiteitenlogboeken, 'click streams', en coördinaten;
  • hoge omloopsnelheid: de data worden in hoge snelheid gegenereerd, beschikbaar gesteld en gewijzigd.

2 RFID
Radio Frequency Identification (RFID) is een manier om voorwerpen automatisch te herkennen via radiogolven. RFID-chips kunnen aan een voorwerp worden bevestigd en via radiogolven gegevens overbrengen. Deze techniek wordt bijvoorbeeld gebruikt in plaats van een streepjescode.

De module over het gebruik van big data uit de enquête ICT-gebruik bedrijven 2020

Big data analyse

1Big data analyse:
Met Big data bedoelen we hier informatie die wordt gegenereerd uit elektronische activiteiten van gebruikers, en uit onderlinge communicatie tussen apparaten (machine-to-machine). Het gaat bijvoorbeeld om gegevens die voortkomen uit het gebruik van media, en uit productieprocessen in een bedrijf.
Big data hebben meestal kenmerken zoals:

  • Grote hoeveelheden gegevens die in de loop van de tijd zijn gegenereerd;
  • Grote diversiteit van de gegevens doordat er verschillende indelingen van complexe data bestaan, gestructureerd of ongestructureerd. Het gaat bijvoorbeeld om gegevens in de vorm van tekst, video, a􀄩eeldingen, spraak, documenten, sensorgegevens, activiteitenlogboeken, click streams en coördinaten;
  • Hoge omloopsnelheid: de data worden in hoge snelheid gegenereerd, beschikbaar gesteld en gewijzigd.

Big data analyse is het gebruik van technieken, technologieën en software tools voor analyse van big data uit het eigen bedrijf, of uit andere gegevensbronnen.

2 RFID
Radio Frequency Identification (RFID) is een manier om voorwerpen automatisch te herkennen via radiogolven. RFID-chips kunnen aan een voorwerp worden bevestigd en via radiogolven gegevens overbrengen. Deze techniek wordt bijvoorbeeld gebruikt in plaats van een streepjescode

1. Heeft uw bedrijf in 2019 big data1 geanalyseerd uit de volgende bronnen:
Analyses die andere bedrijven hebben uitgevoerd voor uw bedrijf tellen hier NIET mee
a) Gegevens van ’slimme’ apparaten of sensoren? Ja/Nee
Bijv. uit onderlinge communicatie tussen apparaten(machine-to-machine), digitale sensoren, RFID2
b) Data over geografische locaties uit het gebruik van draagbare apparaten? Ja/Nee
Bijv. apparaten die mobiele-telefoonnetwerken, draadloze verbindingen of GPS gebruiken
c) Data afkomstig van sociale media? Ja/Nee
Bijv. sociale netwerken zoals Facebook, blogs en microblogs zoals Twitter,
en websites die multimedia delen zoals YouTube
d) Andere bronnen van big data? Ja/Nee
F.2. Welke van de onderstaande technieken heeft uw bedrijf gebruikt bij de big data analyses?
a) Machine learning Ja/Nee
Machine learning bijvoorbeeld ’deep learning’, betreft het ’trainen’ van een computermodel
om beter automatisch een taak uit te voeren, zoals het herkennen van patronen
b) Spraakverwerking Ja/Nee
Dit betreft de mogelijkheid om met een computerprogramma gesproken
taal te begrijpen, in leesbare vorm digitaal op te slaan en te genereren
c) Andere methoden van big data analyse Ja/Nee

3. Heeft uw bedrijf in 2019 big data analyses uit laten voeren door een ander bedrijf? Ja/Nee

4. Heeft uw bedrijf het gebruik van big data ooit overwogen? Ja/Nee
Zowel door het eigen personeel als door een ander bedrijf of instelling

5. Zijn een of meerdere van de onderstaande factoren een reden voor uw bedrijf af te zien van big data analyses?
a) De kosten lijken hoger dan de baten Ja/Nee
b) Onvoldoende kennis en vaardigheden Ja/Nee
c) Onvoldoende big data bronnen, zowel binnen als buiten het bedrijf Ja/Nee
d) Te gebrekkige ICT-infrastructuur om big data analyses mee uit te voeren Ja/Nee
e) Problemen om te voldoen aan de privacywetgeving Ja/Nee
f) Big data analyse heeft geen prioriteit binnen het bedrijf Ja/Nee
g) Onvoldoende kwaliteit van de big data bronnen Ja/Nee
h) Big data analyses lijken niet zinvol voor het bedrijf Ja/Nee
i) Andere redenen Ja/Nee

6. Heeft uw bedrijf in 2019 (toegang tot) zelf verzamelde big data verkocht
aan derden? Ja/Nee
Bijvoorbeeld gegevens van ’slimme’ apparaten en sensoren van uw bedrijf
of gegevens van klanten van uw bedrijf

7. Heeft uw bedrijf in 2019 (toegang tot) door derden verzamelde big data gekocht? Ja/Nee
Bijvoorbeeld gegevens van ’slimme’ apparaten en sensoren van een ander bedrijf
of gegevens van klanten van een ander bedrijf

Bijlage 4. Aantal observaties gecombineerde dataset polis en EBB
JaarAantal observatiesTotaal gecorrigeerde gewichten
20014 530236 163
20024 558232 717
20034 770225 517
20045 035236 939
20055 097229 956
20065 701232 609
20076 219246 903
20085 537257 142
20095 992253 536
20105 876257 829
20117 470252 670
20127 518266 996
20138 007280 988
20147 451291 433
20157 563295 291
20167 886302 000
20178 918320 160
Bron: CBS

Bijlage 5. Beroepen Statistics Canada en CBS voor waarde van data
Statistics Canada beroepenaanduidingNaam beroep (beroep code CBS (ISCO 08))
Customer and information services supervisorsManagers verkoop en marketing (1221)
Data entry clerksMedewerkers data-invoer (4132)
Other customer and information services representativesSpecialisten marketing, sales en public relations z.n.d. (2430)
Other customer and information services representativesSpecialisten reclame en marketing (2431)
Survey interviewers and statistical clerksAdministratief medewerkers statistiek, financiën en verzekeringen (4312)
Mathematicians, statisticians and actuariesWiskundigen, actuarissen en statistici (2120)
Economists and economic policy researchers and analystsFinancieel specialisten en economen (2412+2413 + 2631)
Financial and investment analystsFinancieel specialisten en economen (2412+2413 + 2631)
Social policy researchers, consultants and program officersSociologen, antropologen (2632)
Information systems testing techniciansNetwerk- en systeemtechnici (3513)
Database analysts and data administratorsDatabank- en netwerkspecialisten z.n.d. (2520 + 2521 + 2522+ 2523 + 2529)
Computer and information systems managersDatabank- en netwerkspecialisten z.n.d. (2520 + 2521 + 2522+ 2523 + 2529)
Statistical officers and related research support occupationsActuarieel, wiskundig en statistisch analisten (3314)
Bron: CBS

Bijlage 6. Percentages voor de verschillende beroepen
Beroep code CBS (ISCO 08) / Naam beroepPercentage dataproductie: data laag scenarioPercentage dataproductie: data hoog scenarioPercentage dataproductie: databases laag scenarioPercentage dataproductie: databases hoog scenarioPercentage dataproductie: datascience laag scenarioPercentage dataproductie: datascience hoog scenario
1221Managers verkoop en marketing3050
4132Medewerkers data-invoer100100
2430Specialisten marketing, sales en public relations z.n.d.3050
2431Specialisten reclame en marketing3050
4312Administratief medewerkers statistiek, financiën en verzekeringen90100
2120Wiskundigen, actuarissen en statistici20305060
2412+2413 + 2631Financieel specialisten en economen20305060
2412+2413 + 2631Financieel specialisten en economen
2632Sociologen, antropologen20305060
3513Netwerk- en systeemtechnici3050
2520 + 2521 + 2522+ 2523 + 2529Databank- en netwerkspecialisten z.n.d.90100
2520 + 2521 + 2522+ 2523 + 2529Databank- en netwerkspecialisten z.n.d.
3314Actuarieel, wiskundig en statistisch analisten90100
Bron: CBS

Bijlage berekenen van gewichten

Hier beschrijven we hoe we de gewichten en de schattingen voor gewerkte uren en ontvangen loon voor 2014 berekenen. De aantallen wijken af van bijlage tabel 4, want daarin is een andere selectie van beroepen gekozen. Voor de eindresultaten van deze exercitie, het gewicht per persoon, maakt dit niet uit.
In jaar 2014 hebben we N2014 = 8222 respondenten van de geselecteerde beroepen. Met behulp van de EBB-jaargewichten kunnen we de schatting van het totale aantal personen in Nederland met deze beroepen in 2014 berekenen, dat is 963426,5. Het jaargewicht geeft aan het aantal personen dat de betreffende respondent in de gehele Nederlandse populatie vertegenwoordigt. Voor deze personen willen we het totaal aantal gewerkte uren en het loon dat ze verdienen per bedrijfstak vinden. Dit kunnen we doen door deze 8222 personen aan de Polis-gegevens te koppelen. De EBB is echter een op adressen gebaseerd steekproef en hoewel het een vrij grote enquête is, weten we dat de schattingen van de gewerkte uren en de lonen waarschijnlijk vertekend zijn. Om de populatie van de geselecteerde beroepen van 2014 te vergroten, hebben we de EBB-respondenten uit de jaren 2013 en 2015 van dezelfde beroepen aan onze data toegevoegd. We gaan ervan uit dat mensen over het algemeen binnen een jaar niet van beroep veranderen. Daarom veronderstellen we dat personen in EBB 2013 en 2015 met de beroepen uit onze lijst in 2014 hetzelfde beroep hadden.
Op deze manier verdrievoudigen we onze steekproefomvang. In 2013 zijn er N2014= 8536 EBB respondenten met de geselecteerde beroepen en in 2015 N2015= 8607. Deze respondenten leiden tot 947604,5 en 975427,1 geschatte totalen voor het aantal personen in Nederland, respectievelijk in de jaren 2013 en 2015. Met N2014 noteren we de schatting van het totale aantal van de geselecteerde beroepen in heel Nederland in 2014:

$$N_{2014} =\sum_{beroepen} w_{i,2014}^{EBB}$$

Hier staat wEBB voor het jaargewicht van de EBB respondent i. Definieer op dezelfde manier door N2013 en N2015 de schattingen van de totalen in 2013 en 2015. Wanneer we de respondenten uit 2013 en 2015 in onze steekproef opnemen, moeten we hun gewichten aanpassen:

$$w_{i,2013}^1\frac{w_{i,2013}^{EBB}}{N_{2013} +N_{2014} +N_{2015} }N_{2014},\ \ i=1,...,n_{2013}$$

$$w_{i,2013}^1\frac{w_{i,2013}^{EBB}}{N_{2013} +N_{2014} +N_{2015} }N_{2014},\ \ i=1,...,n_{2013}$$

$$w_{i,2015}^1\frac{w_{i,2015}^{EBB}}{N_{2013} +N_{2014} +N_{2015} }N_{2014},\ \ i=1,...,n_{2015}$$

Als we al deze gewichten optellen, hebben we in 2014 N2014 personen met de geselecteerde beroepen, precies het totaal wat we willen hebben, 963426,5. Vervolgens hebben we al deze respondenten aan Polis-data van 2014 gekoppeld. Er waren enkele respondenten die we niet konden linken. Na het verwijderen van enkele dubbele records en het linken met de Polis data van 2014, hebben we 21790 personen met de alle variabelen van belang. We moeten de gewichten ook corrigeren voor deze verloren respondenten:

$$w_{i,2013}^2\frac{w_{i,2013}^1}{N_{2013}^{Polis} }N_{2013}$$

$$w_{i,2014}^2\frac{w_{i,2014}^1}{N_{2014}^{Polis} }N_{2014}$$

$$w_{i,2015}^2\frac{w_{i,2015}^1}{N_{2015}^{Polis} }N_{2015}$$

Hier staat NPolis  voor de EBB-respondenten die aan de Polis-gegevens hebben kunnen koppelen. Uit de gekoppelde gegevens verkrijgen we de schattingen van lonen en gewerkte uren voor de geselecteerde beroepen voor elke bedrijfstak. Hiervoor moeten we de gewerkte uren of lonen vermenigvuldigen met de gecorrigeerde gewichten. Echter, sommige respondenten hebben meer dan één baan en deze banen kunnen in verschillende bedrijfstakken zijn. Voor deze personen moeten we hun gewichten naar deze bedrijfstakken verdelen. Dat doen we volgens de bijbehorende variabele. Stel bijvoorbeeld dat een persoon X van EBB 2015 in industrie A en B, respectievelijk HA en HB uren werkte en SA en SB lonen ontving. Het gewicht voor deze persoon voor bedrijfstak A bij de berekening van de gewerkte uren wordt dan:

$$w_{X,2015}^{3H}=\frac{w_{X,2015}^2}{H_A+H_B }*H_A$$

Op dezelfde manier kunnen we het gewicht voor bedrijfstak B berekenen. Het gewicht voor deze persoon voor bedrijfstak A bij de loonberekening wordt dan:

$$w_{X,2015}^{3S}=\frac{w_{X,2015}^2}{S_A+S_B }*S_A$$

Hetzelfde geldt voor het gewicht voor bedrijfstak B.

Bijlage 7. Jaar-op-jaar prijsontwikkelingen data, databases en datascience
JaarData en databases (%)Datascience (%)
20010,21,7
20022,67,6
20031,32,8
20040,9-0,1
20050,51,3
20060,41,8
20070,20,6
20083,12,9
20092,51,4
2010-0,90,9
201121,3
20120,92,3
2013-0,5-1,3
2014-1,25,3
2015-1-4,8
2016-0,8-0,9
20170,90,9
Bron: CBS

Bijlage 8. Uitgaven aan data
JaarData laag scenario (mln euro)Data hoog scenario (mln euro)
20014 3435 938
20024 1555 763
20034 0185 544
20044 4176 093
20054 7686 493
20065 1297 128
20076 2328 635
20086 0998 853
20095 8808 623
20106 0608 852
20116 0168 773
20126 4939 296
20136 7549 569
20146 9819 869
20156 9849 958
20167 06410 091
20177 29010 438
Bron: CBS

Bijlage 9. Uitgaven aan databases
Jaar Databases laag scenario (mln euro) Databases hoog scenario (mln euro)
2001 3 403 3 781
2002 3 738 4 154
2003 4 073 4 526
2004 4 598 5 108
2005 4 551 5 056
2006 4 375 4 862
2007 4 328 4 809
2008 4 526 5 030
2009 4 775 5 306
2010 5 004 5 560
2011 5 128 5 704
2012 4 911 5 471
2013 4 226 4 724
2014 3 835 4 300
2015 3 851 4 328
2016 3 825 4 291
2017 3 926 4 404

Bron: CBS

Bijlage 10. Uitgaven aan datascience
JaarDatascience laag scenario (mln euro)Datascience hoog scenario (mln euro)
2001 671 802
2002 659 788
2003 605 722
2004 677 808
2005 633 756
2006 820 980
2007 1 032 1 231
2008 1 239 1 480
2009 1 130 1 351
2010 1 130 1 351
2011 1 240 1 481
2012 1 955 2 331
2013 2 748 3 276
2014 3 533 4 205
2015 3 845 4 570
2016 4 137 4 903
2017 4 382 5 184

Bron: CBS

 

[5] Bedrijven met 10 en meer werkzame personen.

[6] Bedrijven met 2 en meer werkzame personen.

[7] Bedrijven met 2 en meer werkzame personen.