Bijlage 3. Variantieschatting gebruikt in de validatiestudie

In deze bijlage leiden we een variantiebenadering af die in de validatiestudie uit hoofdstuk 3 is gebruikt.

Definieer δ_ci= 1 als persoon i opleidingsniveau c heeft en anders δ_ci= 0. Er is een steekproef van omvang n beschikbaar waar δ_ci is waargenomen. Hieruit wordt de proportie personen met opleidingsniveau c geschat door:

$${\widehat{P}}_{c} = \frac{\sum_{i = 1}^{n}{w_{i}\delta_{ci}}}{\sum_{i = 1}^{n}w_{i}}$$

waarbij w_i het ophooggewicht is van persoon i in de steekproef. Ter vereenvoudiging nemen we aan dat er (bij benadering) sprake is van een enkelvoudig aselecte steekproef en dat de steekproeffractie uit de doelpopulatie verwaarloosbaar klein is.

Verder zijn J=10 geïmputeerde versies van de steekproef beschikbaar. Definieer δ_imp,cij=1 als in ronde j opleidingsniveau c is geïmputeerd voor persoon i en anders δ_imp,cij=0. Uit de geïmputeerde data kan de proportie personen met opleidingsniveau c worden geschat door:

$${\overline{\widehat{P}}}_{imp,cJ} = \frac{1}{J}\sum_{j = 1}^{J}{\widehat{P}}_{imp,cj},\ \ \ \ {\widehat{P}}_{imp,cj} = \frac{\sum_{i = 1}^{n}{w_{i}\delta_{imp,cij}}}{\sum_{i = 1}^{n}w_{i}}$$

We zijn geïnteresseerd in de variantie van het verschil ${\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c}$ Deze variantie kan worden geschreven als:

$$\begin{align} var\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \right) &= E\left\{ var\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \middle| steekproef \right) \right\} + var\left\{ E\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \middle| steekproef \right) \right\} \\ &= E\left\{ var\left( \overline{\widehat{P}}_{imp,cJ} \middle| steekproef \right) \right\} + var\left\{ \overline{\widehat{P}}_{imp,c\infty} - \widehat{P}_{c} \right\} \\ &= \frac{1}{J} E\left\{ var\left( \widehat{P}_{imp,cj} \middle| steekproef \right) \right\} + var\left\{ \overline{\widehat{P}}_{imp,c\infty} - \widehat{P}_{c} \right\} \\ &= V_{1c} + V_{2c}, \end{align}$$

waarbij ${\overline{\widehat{P}}}_{imp,c\infty}$ de theoretische schatter is die gevonden zou worden als J→∞.

De variantie $V_{2c} = {var}\left\{ {\overline{\widehat{P}}}_{imp,c\infty} - {\widehat{P}}_{c} \right\}$ kan bij benadering worden geschat door:

$$\begin{align} \widehat{V}_{2c} &= \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{ci} - \overline{z}_{c} \right)^{2},\\ z_{ci} &= \frac{1}{J}\sum_{j = 1}^{J}\delta_{imp,cij} - \delta_{ci}, \end{align}$$

met ${\overline{z}}_{c} = n^{- 1}\sum_{i = 1}^{n}z_{ci}$. In deze formule is nog geen rekening gehouden met de ophooggewichten w_i. In de praktijk leiden ongelijke ophooggewichten doorgaans tot een hogere variantie. Een redelijke benadering van dit effect wordt vaak gegeven door de zogenaamde Kish-factor (Kish, 1992). Toevoegen van deze factor geeft:

$${\widehat{V}}_{2c} = \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{ci} - {\overline{z}}_{c} \right)^{2}\left( 1 + {CV}_{w}^{2} \right),$$

waarbij CV_w de variatiecoëfficiënt van de ophooggewichten is (de standaarddeviatie van de gewichten gedeeld door het gemiddelde gewicht).

De andere term V_1c kan bij benadering worden geschat met behulp van de empirische variantie van ${\widehat{P}}_{imp,cj}$ over de imputatieronden heen:

$${\widehat{V}}_{1c} = \frac{1}{J(J - 1)}\sum_{j = 1}^{J}\left( {\widehat{P}}_{imp,cj} - {\overline{\widehat{P}}}_{imp,cJ} \right)^{2}.$$

Samengevat vinden we dus de volgende variantieschatter:

$$\widehat{var}\left( {\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c} \right) = \frac{1}{J(J - 1)}\sum_{j = 1}^{J}\left( {\widehat{P}}_{imp,cj} - {\overline{\widehat{P}}}_{imp,cJ} \right)^{2} + \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{i} - \overline{z} \right)^{2}\left( 1 + {CV}_{w}^{2} \right).$$