5. Verwerken
De gegevens die via het veldwerk binnenkomen zijn niet direct geschikt voor analysedoeleinden. Om tot een bruikbaar databestand te komen worden eerst een aantal bewerkingsslagen op de data uitgevoerd. Hieronder staan de voornaamste onderdelen van het verwerkingsproces vermeld.
5.1 Typeren
Om vast te stellen welk onderwijsniveau respondenten behaald hebben, in welke bedrijfstak zij werken en welk beroep zij uitoefenen, heeft het CBS standaard vraagstellingen ontwikkeld. Met een standaard typeerproces worden vervolgens de bedrijfstak, het beroep en het behaalde onderwijsniveau geclassificeerd. Op de website van het CBS is meer informatie beschikbaar over de classificaties.
Het behaalde onderwijsniveau is volledig automatisch geclassificeerd volgens de SOI 2021.
De bedrijfstak waarin respondenten werken is in het merendeel van de gevallen vastgesteld op basis van registerinformatie (Polisadministratie). Onder bepaalde voorwaarden is de bedrijfstak getypeerd (deels automatisch en deels handmatig), namelijk als de respondent uitzendkracht of gedetacheerd is of recent bij de huidige werkgever is komen werken. Als de respondent korter dan vier maanden geleden bij de huidige werkgever is komen werken, heeft de registerinformatie mogelijk nog betrekking op de bedrijfstak van de vorige werkgever. Uitzendkrachten en gedetacheerden behoren volgens de polisadministratie tot de zakelijke dienstverlening. Het bedrijf waarnaartoe zij zijn uitgezonden, zal in de praktijk vaak in een andere bedrijfstak actief zijn. Het typeerproces levert een SBI 2008 code op. Deze wordt gebruikt voor publicatie.
Nadat de bedrijfstak is getypeerd, is het beroep getypeerd. Dit gebeurt deels automatisch en deels handmatig. Het typeerproces maakt gebruik van de informatie die in het blok Beroep is verzameld, SBI en onderwijsniveau. Het typeerproces resulteert in een ISCO 2008 code, waarvan tevens een BRC 2014 code wordt afgeleid.
Er is een classificatiefile ontwikkeld om volledig automatisch het beroep te kunnen typeren van respondenten die de vragen over het beroep in het Engels hebben doorlopen.
5.2 Verrijken
De bruikbare respons wordt verrijkt met data uit registers over de volgende kenmerken:
- Herkomst,
- Samenstelling van het huishouden,
- Regio en stedelijkheid,
- Wel of niet CAO van toepassing en CAO-sector,
- Wel of niet arbeidsongeschiktheidsregeling van toepassing,
- Inkomen en welvaart.
5.3 Afleiden
In het verwerkingsproces wordt een aantal variabelen afgeleid. Voor nieuwe en gewijzigde afgeleide variabelen zijn de specificaties afgestemd door CBS en TNO. Voor bestaande afgeleide variabelen zijn de bestaande specificaties gehanteerd, die eerder zijn afgestemd of door CBS zijn gemaakt conform programmatuur van TNO.
Enkele afgeleide variabelen zijn schalen. Hierop zijn betrouwbaarheidsanalyses uitgevoerd, waarbij gekeken is of alle items voldoende onderdeel zijn van het concept dat de schaal pretendeert te meten. Zie paragraaf 4.2 van het methodologierapport van de NEA 2021 (Van Dam et al., 2022) en paragraaf 4.2 van het methodologierapport van de NEA 2020 (Hooftman et al., 2021).
Enkele andere afgeleide variabelen zijn combinatiematen voor risicofactoren. Dit wordt gedaan bij vragen waar blootstelling aan één van de gemeten risicofactoren al een ongewenste situatie of verhoogd risico oplevert. Combinatiematen geven aan of respondenten op één van de in de maat opgenomen subvragen een ongunstig antwoord hebben gegeven. Het betreft de volgende concepten:
- Fysiek belastend werk,
- Gevaarlijk werk,
- Conflict met collega’s, leidinggevende en/of werkgever,
- Ongewenst gedrag (meerdere combinatiematen),
- Bewegingsapparaat (KANS) klachten,
- Werk-privé en/of privé-werk disbalans.
5.4 Correcties
Sinds 2018 wordt de NEA volledig via internet met een elektronische vragenlijst waargenomen. Respondenten volgen daardoor automatisch de correcte route naar de volgende vraag. Bij meerdere vragen zijn controles ingebouwd op het antwoord dat een respondent invult. In de verwerking achteraf worden ook nog enkele controles en correcties uitgevoerd. Als bijvoorbeeld uit de datum van het arbeidsongeval blijkt, dat het arbeidsongeval buiten de referentieperiode valt, dan wordt dit in de verwerking gewijzigd naar ‘geen’ arbeidsongeval. Een ander voorbeeld betreft de gegevens over beroepsziekten. TNO typeert de open antwoorden over dit onderwerp. Als het geen beroepsziekte betreft, wordt dit in de verwerking gewijzigd naar ‘geen’ beroepsziekte.