Grenzen verleggen van automatische data integratie in de officiële statistiek

Omslag, Pushing the Boundaries for Automated data Reconciliation in Official Statistics, Jacco Daalmans
© CBS
Proefschrijft over methoden om inconsistenties in statistische output weg te corrigeren op geaggregeerd niveau.
Wanneer één statistiek op meerdere plekken gepubliceerd wordt, dan moeten de uitkomsten hetzelfde zijn. Een aantal mag niet in de ene publicatie anders zijn dan in een andere. Een verschil in uitkomsten levert verwarring op. Eén van de oorzaken van verschillende uitkomsten is dat cijfers die een statistisch bureau verzamelt en verwerkt, uit tal van bronnen komen die meestal niet consistent zijn. Statistieken moeten ook aan onderlinge relaties voldoen. Een voorbeeld is dat twaalf maandcijfers op moeten tellen tot één jaarcijfer. Wanneer hier niet aan is voldaan, kan men naast het gegeven jaarcijfer, een alternatief jaarcijfer afleiden door de onderliggende maandcijfers op te tellen. Ook dan geen eenduidigheid over het ‘ware’ cijfer. Dit strookt niet met het doel van statistische bureaus om onbetwistbare statistieken te leveren.

Om consistente statistische uitkomsten te maken is het nodig om gegevens aan te passen. De uitkomsten van verschillende statistieken worden een klein beetje gewijzigd, om ze daarmee beter op elkaar af te stemmen, bijvoorbeeld om te zorgen dat twaalf maandcijfers optellen tot een jaarcijfer. In het proefschrift wordt een nieuwe wiskundige methode voor formele data integratie ontwikkeld en toegepast.

De nieuwe methode wordt nu op het CBS toegepast voor het samenstellen van Nationale Rekeningen. Dit gaat om zeer grote en gedetailleerde tabellen, die kunnen worden gezien als boekhouding van een land. Het bruto binnenlands product (BBP) is het bekendste cijfer uit de Nationale Rekeningen. Het aanpassen van data uit de Nationale Rekening is lastig omdat het gaat om zeer veel gegevens die onderling een sterke samenhang hebben. Stel bijvoorbeeld dat uit een confrontatie van bronnen blijkt dat de productie van een bepaald product naar boven moet worden bijgesteld. Dit betekent dat ook meer grondstof moet zijn verbruikt en dit betekent dan weer dat er ook meer van die grondstof moet zijn geproduceerd, of geïmporteerd, etc. Vóór de ingebruikneming van de wiskundige methode hingen correcties meer af van informele methoden zoals inschattingen van experts. De introductie van de formele, wiskundige methode vergroot de reproduceerbaarheid en transparantie van de statistiek.

De methode die in het proefschrift is voorgesteld is vergeleken met een andere methode, die door een ander statistisch bureau is toegepast. De nieuwe methode heeft een belangrijke eigenschap waaraan de andere methode niet voldoet. Kortgezegd houdt die eigenschap in dat de resultaten hetzelfde moeten blijven als de richting van de tijd zou worden omgekeerd.

Het proefschrift onderzoekt verder toepassingen van data integratiemethoden buiten het traditionele toepassingsgebied van de Nationale Rekeningen, zoals bij de volkstelling en bij bedrijfseconomische statistieken. De voorgestelde methoden blijken sommige problemen van de huidig toegepaste methoden te vermijden.

Daalmans, J.A. (2019). Pushing the boundaries for automated data reconciliation in official statistics. Dissertation, Tilburg Universitiy.