Verwerking van foutieve en onveilige data

© CBS
Proefschrift over foutenlokalisatie en statistische beveiliging.

In dit proefschrift onderzoeken we twee verschillende, maar gerelateerde, onderwerpen. Het eerste onderwerp is gaafmaken (Engels: statistical data editing), ook wel controle en correctie genaamd, dat plaatsvindt tijdens het verwerken en analyseren van data. Het doel van gaafmaken is het opsporen en corrigeren van incorrecte data. Om dit doel te bereiken worden de geobserveerde data verrijkt door middel van vakinhoudelijke kennis en statistische analyses. We proberen in feite meer informatie te creëren dan we hebben geobserveerd.

Het tweede onderwerp is statistische beveiliging (Engels: statistical disclosure control), dat plaatsvindt aan het eind van het statistische proces. Het doel van statistische beveiliging is het verhinderen dat gevoelige informatie over individuele respondenten, of kleine groepen respondenten, uit de gepubliceerde data kan worden afgeleid. Om dit doel te bereiken worden vaak gegevens verwijderd, of wordt de informatie in de data gereduceerd door het toevoegen van ruis of het indikken (hercoderen) van variabelen. We proberen hier dus in feite de informatie in de data te verminderen.

We beschrijven eerst een aantal bekende technieken om het gaafmaakproces efficiënt te laten verlopen. In latere hoofdstukken concentreren we ons vooral op het zogeheten foutenlokalisatieprobleem, dat wil zeggen het probleem van het opsporen van incorrecte data, voor een mix van categoriale en continue data. In het tweede gedeelte van dit boek concentreren we ons op statistische beveiliging. In een algemeen overzicht van het vakgebied gaan we vooral in op een algemene aanpak voor de statistische beveiliging van microdata, dat wil zeggen de data van individuele respondenten, van met name sociale statistieken die wordt toegepast op diverse statistische bureaus waaronder het CBS. Deze algemene aanpak wordt in aansluitende hoofdstukken nader uitgewerkt.

Waal, A. G. de (2003). Processing of erroneous and unsafe data. Dissertation, Erasmus University Rotterdam.

What is your opinion?
Heeft deze informatie je geholpen?