6. Methoden
Het combineren van verschillende databestanden met microdata levert nieuwe methodologische uitdagingen op. Deze uitdagingen hebben te maken met vier aspecten van kwaliteit9):
- Nauwkeurigheid
- Vergelijkbaarheid
- Consistentie
- Vertrouwelijkheid
Statistieken
Met microdata worden voor de kernindicatoren cijfers geproduceerd die zijn uitgesplitst naar regionale clusters, bedrijfsgrootte en bedrijfsleeftijd. Voor iedere groep bedrijven wordt het gemiddelde getoond. Dit is het gemiddelde van de waargenomen bedrijven. Bij de meeste indicatoren zijn de data echter scheef verdeeld. Het gemiddelde wordt dan bepaald door een klein aantal bedrijven met zeer hoge waarden.
Daarom wordt met de microdata de spreiding van de waarden in kaart gebracht. De mediaan is het exacte midden van de verdeling: 50 procent van de bedrijven heeft een hogere waarde en 50 procent een lagere. Dit is een betere weergave voor het doorsneebedrijf in de populatie dan het gemiddelde. Daarnaast worden het eerste kwartiel (25 procent van de bedrijven) en het derde kwartiel (75 procent) getoond. Tussen en het eerste en het derde kwartiel bevinden zich 50 procent van alle waarden. Deze interkwartielafstand is een mate voor de spreiding van de data. De variatiecoëfficiënt (de standaarddeviatie gedeeld door het gemiddelde) is een meer algemene maatstaf voor de spreiding in alle microdata in een steekproef. De uitersten van de verdeling zijn niet getoond in verband met de mogelijke herleidbaarheid van deze bedrijven.
Nauwkeurigheid
Nauwkeurigheid heeft betrekking op de betrouwbaarheid van een cijfer (‘ruis’) en op eventuele structurele vertekeningen (‘bias’).
Idealiter wordt voor ieder cijfer dat wordt gepubliceerd een betrouwbaarheidsmarge berekend. Een betrouwbaarheidsmarge geeft een bereik waarbinnen de werkelijke waarde van het geschatte cijfer (de puntschatting) kan variëren. Zo kan met een bepaalde zekerheid (doorgaans 95 procent) worden gesteld dat de werkelijke waarde van een cijfer binnen het bereik van de ondermarge en de bovenmarge van de puntschatting ligt.
De aard, omvang en samenstelling van steekproeven verschilt per bron. In sommige bronnen zijn alle bedrijven meegenomen (integraal gemeten). De meeste bronnen meten echter niet integraal maar steekproefsgewijs. Sommige indicatoren kunnen worden gemaakt op basis van een enkele bron. Voor die bron is de kans bekend dat een bepaald bedrijf met bekende kenmerken (zoals grootte en sbi) in de steekproef is meegenomen (de insluitkans). De bestanden van RVO zijn een van de belangrijkste bronnen van informatie voor de MVI. De kans dat een bepaald bedrijf in de databases van RVO voorkomt is niet afhankelijk van vooraf bepaalde insluitkansen per categorie (zoals grootteklasse) of van de samenstelling (stratificatie) van de populatie, maar van de kans dat een bedrijf met een regeling bekend is en daarvan gebruik maakt.
Wanneer een indicator wordt gemaakt op basis van een combinatie van microdatabestanden, wordt het berekenen van de betrouwbaarheidsmarges van een cijfer een methodologische uitdaging. Verschillende bronnen hebben verschillende soorten steekproeven (deterministisch of non-deterministisch; gestratificeerd; integraal; enzovoorts). Voor microdatabestanden met verschillende insluitkansen van bedrijven kan een gecombineerde insluitkans worden berekend. Voor combinaties waarbij databases van RVO worden gebruikt kan dit niet, omdat de populatie in deze databases anders tot stand komt en de insluitkans onbekend is.
Structurele vertekening (‘bias’) treedt wanneer bedrijven selectief worden opgenomen in een database. Dat gebeurt bijvoorbeeld wanneer een enquête wordt uitgezet onder bedrijven in een bepaalde bedrijfstak of met bepaalde kenmerken. De resultaten kunnen niet zonder meer worden gebruikt om uitspraken te doen over alle bedrijven in de industrie.
Indien betrouwbaarheidsmarges ontbreken, kunnen spreidingsdata worden gebruikt om de verdeling van waarden in een steekproefpopulatie te laten zien. Waar de data scheef verdeeld zijn, is de mediaan een betere weergave van indicator voor het doorsneebedrijf in de populatie dan het gemiddelde.
Vergelijkbaarheid
Vergelijkbaarheid van cijfers heeft betrekking op vergelijkingen in de tijd, tussen deelpopulaties en tussen landen en regio’s. Het principe is dat de waarde van een bepaalde indicator voor iedere deelpopulatie (zoals een klasse uit een classificatie of een regio in een land) is berekend met dezelfde definities en methoden. Classificaties spelen een belangrijke rol bij dit criterium.
De vergelijkbaarheid van cijfers neemt af wanneer de berekeningen voor verschillende deelpopulaties zijn gebaseerd op andere methoden en/of andere data. Op dit kwaliteitscriterium is de uitdaging voor de MVI hoe om te gaan met de verschillende samenstelling van steekproeven (van jaar op jaar en tussen databestanden) van individuele bedrijven.
Consistentie
Cijfers zijn consistent wanneer schattingen voldoen aan dezelfde standaarden (zoals het System of National Accounts) en dezelfde concepten vertegenwoordigen. Voorlopige cijfers moeten consistent zijn met definitieve cijfers, maandcijfers met jaarcijfers, microdata voor de omzet van een bedrijf met totaalcijfers voor de totale omzet van alle bedrijven, enzovoorts.
Plausibiliteit is een type consistentie. Cijfers voor concepten of fenomenen die onderling samenhangen, zijn plausibel wanneer ze in de verwachte richting bewegen.
In de MVI is consistentie van belang bij cijfers die conform de definities van de nationale rekeningen zijn opgesteld (zoals toegevoegde waarde), bij de internationale vergelijking van cijfers op basis van Eurostat-data, en bij het gebruik van data over broeikasgasemissies. Voor broeikasgasemissies geldt dat de doelen van het klimaatbeleid zijn gebaseerd op de cijfers die conform de definities van de IPCC zijn opgesteld. Waar het totale volume van emissies wordt gebruikt, zijn die altijd gebaseerd op de IPCC-definities. De IPCC-cijfers zijn echter niet uit te splitsen naar alle bedrijfstakken en zijn conceptueel niet consistent met de nationale rekeningen. Waar emissie-intensiteiten per bedrijfstak worden berekend (broeikasgasemissies per eenheid toegevoegde waarde), worden emissiecijfers uit de luchtemissierekeningen gebruikt. Deze cijfers zijn consistent met de nationale rekeningen en goed uit te splitsen naar de bedrijfstakken in de industrie.
Vertrouwelijkheid
Het CBS produceert statistische informatie waarin de individuele gegevens niet meer herkenbaar zijn. Het moet niet mogelijk zijn om de gegevens over een afzonderlijk bedrijf te herleiden uit de gepubliceerde cijfers.
De herleidbaarheid van cijfers in tabellen wordt automatisch bepaald met de volgende methode. Het cijfer voor een bepaalde groep bedrijven (een cel in een tabel) moet aan twee criteria voldoen. Allereerst moet de waarde bestaan uit minimaal drie (3) gevallen (bijv. bedrijven). Ten tweede, moet het niet mogelijk zijn om de waarde van de grootste bijdrage (bijv. een bedrijf) aan een cel (A) te voorspellen uit de waarde van de op-een-na-grootste bijdrage (B). Het verschil tussen de werkelijke waarde van A en de vanuit B geschatte waarde van A mag niet kleiner zijn dan een kritische waarde (p). Als vuistregel worden p-waarden van 5 (losse beveiliging) tot 15 procent (strenge beveiliging) genoemd. In de MVI hanteren we een strenge eis (15 procent).