Bijlage 3. Variantieschatting gebruikt in de validatiestudie
In deze bijlage leiden we een variantiebenadering af die in de validatiestudie uit hoofdstuk 3 is gebruikt.
Definieer δci = 1 als persoon i opleidingsniveau c heeft en anders δci = 0. Er is een steekproef van omvang n beschikbaar waar δci is waargenomen. Hieruit wordt de proportie personen met opleidingsniveau c geschat door:
$${\widehat{P}}_{c} = \frac{\sum_{i = 1}^{n}{w_{i}\delta_{ci}}}{\sum_{i = 1}^{n}w_{i}}$$
waarbij wi het ophooggewicht is van persoon i in de steekproef. Ter vereenvoudiging nemen we aan dat er (bij benadering) sprake is van een enkelvoudig aselecte steekproef en dat de steekproeffractie uit de doelpopulatie verwaarloosbaar klein is.
Verder zijn J=10 geïmputeerde versies van de steekproef beschikbaar. Definieer δimp,cij=1 als in ronde j opleidingsniveau c is geïmputeerd voor persoon i en anders δimp,cij=0. Uit de geïmputeerde data kan de proportie personen met opleidingsniveau c worden geschat door:
$${\overline{\widehat{P}}}_{imp,cJ} = \frac{1}{J}\sum_{j = 1}^{J}{\widehat{P}}_{imp,cj},\ \ \ \ {\widehat{P}}_{imp,cj} = \frac{\sum_{i = 1}^{n}{w_{i}\delta_{imp,cij}}}{\sum_{i = 1}^{n}w_{i}}$$
We zijn geïnteresseerd in de variantie van het verschil \({\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c}\) Deze variantie kan worden geschreven als:
$$\begin{align} var\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \right) &= E\left\{ var\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \middle| steekproef \right) \right\} + var\left\{ E\left( \overline{\widehat{P}}_{imp,cJ} - \widehat{P}_{c} \middle| steekproef \right) \right\} \\ &= E\left\{ var\left( \overline{\widehat{P}}_{imp,cJ} \middle| steekproef \right) \right\} + var\left\{ \overline{\widehat{P}}_{imp,c\infty} - \widehat{P}_{c} \right\} \\ &= \frac{1}{J} E\left\{ var\left( \widehat{P}_{imp,cj} \middle| steekproef \right) \right\} + var\left\{ \overline{\widehat{P}}_{imp,c\infty} - \widehat{P}_{c} \right\} \\ &= V_{1c} + V_{2c}, \end{align}$$
waarbij \({\overline{\widehat{P}}}_{imp,c\infty}\) de theoretische schatter is die gevonden zou worden als J→∞.
De variantie \(V_{2c} = {var}\left\{ {\overline{\widehat{P}}}_{imp,c\infty} - {\widehat{P}}_{c} \right\}\) kan bij benadering worden geschat door:
$$\begin{align} \widehat{V}_{2c} &= \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{ci} - \overline{z}_{c} \right)^{2},\\ z_{ci} &= \frac{1}{J}\sum_{j = 1}^{J}\delta_{imp,cij} - \delta_{ci}, \end{align}$$
met \({\overline{z}}_{c} = n^{- 1}\sum_{i = 1}^{n}z_{ci}\). In deze formule is nog geen rekening gehouden met de ophooggewichten wi. In de praktijk leiden ongelijke ophooggewichten doorgaans tot een hogere variantie. Een redelijke benadering van dit effect wordt vaak gegeven door de zogenaamde Kish-factor (Kish, 1992). Toevoegen van deze factor geeft:
$${\widehat{V}}_{2c} = \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{ci} - {\overline{z}}_{c} \right)^{2}\left( 1 + {CV}_{w}^{2} \right),$$
waarbij CVw de variatiecoëfficiënt van de ophooggewichten is (de standaarddeviatie van de gewichten gedeeld door het gemiddelde gewicht).
De andere term V1c kan bij benadering worden geschat met behulp van de empirische variantie van \({\widehat{P}}_{imp,cj}\) over de imputatieronden heen:
$${\widehat{V}}_{1c} = \frac{1}{J(J - 1)}\sum_{j = 1}^{J}\left( {\widehat{P}}_{imp,cj} - {\overline{\widehat{P}}}_{imp,cJ} \right)^{2}.$$
Samengevat vinden we dus de volgende variantieschatter:
$$\widehat{var}\left( {\overline{\widehat{P}}}_{imp,cJ} - {\widehat{P}}_{c} \right) = \frac{1}{J(J - 1)}\sum_{j = 1}^{J}\left( {\widehat{P}}_{imp,cj} - {\overline{\widehat{P}}}_{imp,cJ} \right)^{2} + \frac{1}{n(n - 1)}\sum_{i = 1}^{n}\left( z_{i} - \overline{z} \right)^{2}\left( 1 + {CV}_{w}^{2} \right).$$