Imputeren van data met restricties: Toepassingen op bedrijfsenquêtes

Omslag, Imputation of restricted data, Caren Tempelman
© CBS
Imputeren van data met restricties: Toepassingen op bedrijfsenquêtes
De focus van dit proefschrift ligt op de imputatie van (economische) gegevens die onderhevig zijn aan verschillende soorten lineaire beperkingen. In deze studie worden verschillende imputatieprocedures ontwikkeld en geanalyseerd om de imputeerder te voorzien van een set modellen die gebruikt kan worden voor verschillende soorten restrictiestructuren en datasets. We ontwikkelen een imputatiemethode die de Dirichletverdeling gebruikt om de gegevens te modelleren. Deze methode is handig vanwege de flexibiliteit. Deze procedure kan gegevensitems imputeren die niet-negatief zijn en onderworpen zijn aan één lineaire evenwichtsbeperking. Het is echter niet mogelijk om meerdere balansrestricties op te nemen. Daarom stellen we voor om de multivariate singuliere normale verdeling te gebruiken. Het blijkt dat het EM-algoritme kan worden uitgebreid zodat ook singulier normale gegevens kunnen worden verwerkt. Deze imputatieprocedure is eenvoudig te implementeren en de eigenschappen zijn bekend.

Aangezien ongelijkheidsbeperkingen niet zijn opgenomen in het singulier normaalmodel, is er nog steeds behoefte aan een algemene methode die alle soorten evenwichts- en ongelijkheidsbeperkingen aankan. Met dit doel wordt de multivariate singuliere normale dichtheid afgekapt tot het gebied gedefinieerd door de ongelijkheidsrestricties. Deze afgeknotte singuliere normale verdeling bestaat uit hoog-dimensionale integralen en leidt bijgevolg tot complexe modelleerproblemen. In een geheel andere benadering wordt het gezamenlijke model opgesplitst in een reeks univariate voorwaardelijke verdelingen. Deze univariate voorwaardelijke modellen worden gebruikt om elke variabele sequentieel te imputeren. In dit model kunnen ook gelijktijdig evenwichts- en ongelijkheidsbeperkingen worden opgenomen.

Tempelman, D. C. G. (2007). Imputation of restricted data: Applications to business surveys. Dissertation, University of Groningen.