6. Verwerkingsproces ODiN 2023
De gegevens die via het veldwerk binnenkomen zijn niet direct geschikt voor analysedoeleinden. Om tot een bruikbaar databestand te komen worden eerst een aantal bewerkingsslagen op de data uitgevoerd. Hieronder staan de voornaamste onderdelen van het verwerkingsproces vermeld.
Afbakenen respons en converteren datamodel
In dit onderdeel van het verwerkingsproces worden de volledige en bruikbare responsen geselecteerd. Hierbij worden onder andere die responsen geselecteerd die betrekking hebben op het kalenderjaar waar op dat moment aan gewerkt wordt. Ook wordt in deze stap de overgang gemaakt van het uniforme vragenlijstmodel naar het datamodel dat beter geschikt is voor de verwerking.
Corrigeren
Om de responsen geschikt te maken voor verdere verwerking wordt op de data een aantal verschillende correcties uitgevoerd:
- Corrigeren van ritten met een te hoge of te lage snelheid.
- Corrigeren van ritten met een te lange reisduur.
- Corrigeren van ritten met een ritreisduur van 0 minuten.
- Corrigeren van ritten met een ritafstand van 0,0 kilometer.
- Corrigeren van verplaatsingstijden die niet overeenkomen met rittijden.
Veel van de punten die hierboven zijn vermeld worden (deels) afgevangen in de vragenlijst. Omdat de respondent soms teruggaat in de vragenlijst om zaken te corrigeren kunnen er uiteindelijk toch inconsistenties in de responsdata voor komen.
Typeren en coderen
Coderen heeft onder andere betrekking op het typeren of classificeren van antwoorden op open vragen. Voorbeelden hiervan zijn het doel van een verplaatsing en de gebruikte vervoermiddelen. Ook het bijzoeken van postcodes op basis van adresgegevens en het bijzoeken van informatie ten behoeve van grensoverschrijdende verplaatsingen valt hieronder.
Verrijken
De responsdata in het verwerkingsproces wordt verrijkt met data uit registers. Bij ODiN gaat het onder andere om:
- Geografische informatie gerelateerd aan het woonadres.
- Geografische informatie gerelateerd aan de verplaatsingspostcodes.
- Routeafstanden tussen verplaatsingspostcodes.
- Treinafstanden (koppeling op basis van gerespondeerde in- en uitstapstation)
- Persoons- en huishoudkenmerken (niet-geografische informatie).
- Rijbewijsbezit (voor respondent en huishoudleden).
- Reisrecht van studenten (OV-studentenchipkaart respondent; week/weekend).
- Voertuigbezit (voor respondent en huishoudleden).
- Kenmerken van leaseauto’s.
Gaafmaken
In ODiN zijn een aantal processen gericht op het uniform te maken en/of te laten passen van de responsen bij de onderzoeksafbakening. Het betreft de volgende processen:
- Correctie van verplaatsingen naar ritten.
- Samenvoegen OV-ritten.
- Verwijderen vliegtuigritten.
- Splitsen grensoverschrijdende verplaatsingen.
- Verwijderen geheel buitenlandse verplaatsingen.
Afleiden
Om van de variabelen in de verwerking te komen tot de variabelen in het databestand vinden afleidingen plaats. In sommige gevallen betreft het eenvoudige afleidingen. Bijvoorbeeld om van leeftijd (variabele Leeftijd) naar leeftijdsklasse (variabele KLeeft) te komen. In andere gevallen gaat het om complexe afleidingen. Zo moet voor de afleiding van het motief (KMotiefV) in sommige gevallen naar het doel van voorgaande verplaatsingen van de respondent worden gekeken. De meeste afleidingen vinden plaats nadat alle verwerkingsprocessen zijn doorlopen. Daarop zijn een aantal uitzonderingen. Een aantal voorlopige afleidingen worden al veel eerder in het proces uitgevoerd, omdat het voor de verwerking belangrijke variabelen betreft (zoals het soort verplaatsing, het doel en het vervoermiddel) of omdat een oorspronkelijke status bewaard moet worden (bijvoorbeeld of het vertrek- of aankomstadres een vakantieadres was).
Wegen
Van alle respondenten wordt informatie verzameld over het verplaatsingsgedrag op één bepaalde dag van het jaar. Om op basis van het ODiN toch uitspraken te kunnen doen over het hele jaar en over de hele Nederlandse bevolking van 6 jaar of ouder (exclusief personen in instellingen, inrichtingen en tehuizen) moeten de steekproefresultaten worden opgehoogd naar de totale doelpopulatie.
Een steekproef is nooit perfect representatief voor de werkelijke populatie. Voor een deel komt dit door de steekproeftrekking, maar een belangrijkere oorzaak is selectieve non-respons. Sommige groepen doen nu eenmaal eerder mee aan enquêtes mee te doen dan andere. Door te wegen naar achtergrondkenmerken wordt voor de selectiviteit in de steekproef gecorrigeerd. Achtergrondkenmerken die in de weging worden meegenomen zijn variabelen die van belang zijn voor het verplaatsingsgedrag, zoals leeftijd, geslacht, inkomen, stedelijkheidsgraad en voertuigbezit.
Het weegproces van ODiN start met een voorweging om de insluit- of startgewichten voor de eindweging te benaderen. In de voorweging wordt corrigeert voor verschillen in insluitkansen die met het steekproefontwerp te maken hebben en ook deels voor selectieve respons tussen de verschillende groepen. De voorweging bestaat gewoonlijk uit 3 elementen, namelijk de doelgroepen (strata) uit de steekproef, een regionale component en een eventuele periode-indeling. In de voorweging wordt de daadwerkelijk toegepaste stratificatie van het steekproefontwerp meegenomen. Het betreft de indeling van de doelgroepbenadering op basis van inkomen, leeftijd en herkomst. De regionale component bestaat doorgaans uit de meerwerkgebieden met een specifieke responswens. De periode-indeling wordt gebaseerd op eventuele bijzonderheden in de respondentbenadering en/of een ongelijke verdeling van de respons gedurende het onderzoeksjaar.
Na de voorweging volgt de eindweging. Het weegmodel hiervan bevat tientallen termen. In de eindweging wordt ook een correctie uitgevoerd voor mogelijke extra non-respons onder vakantiegangers. Dit is dus een correctie op persoonsniveau die corrigeert voor het gegeven dat inwoners van Nederland een deel van het jaar in het binnen- of buitenland op vakantie zijn en hierdoor niet of ánders responderen dan wanneer ze het gehele jaar thuis zouden verblijven. De correctiegewichten van ODiN zorgen ervoor dat de selectiviteit van de respons rond en tijdens vakantieperioden wordt verminderd. Dit gebeurt door de waargenomen vakantiekenmerken (of de dag begon of eindigde op een vakantieadres) te relateren aan bijbehorende populatieschattingen van het aantal vakantiegangers uit het Continu Vakantieonderzoek (CVO).
De eindweging leidt uiteindelijk tot weegfactoren voor de afzonderlijke personen (persoonsgewichten). Deze worden aan het verwerkingsbestand gekoppeld. Vervolgens worden van de persoonsgewichten de weegfactoren voor huishoudens en voor verplaatsingen afgeleid. In bijlage C is het weegmodel van ODiN beschreven.
Bestandscontrole en analyse
Op het databestand vinden talrijke controles plaats om te bezien of de data juist, logisch en onderling consistent zijn. Het databestand van ODiN bevat uiteindelijk alleen respondenten die gedurende het verwerkingsproces gaaf, dat wil zeggen bruikbaar, zijn bevonden. Als dat het geval is, is het bestand klaar om tabellen voor de rapportages en StatLine te maken. De uitkomsten in de tabellen worden vergeleken met die van voorgaande jaren en zo mogelijk met resultaten uit andere onderzoeken om na te gaan of de resultaten plausibel zijn. Als het databestand en de resultaten plausibel zijn bevonden, dan kan worden overgegaan tot publicatie.
6.1 Realisatie verwerkingsproces in 2023
Voor het verwerkingsproces zijn in totaal 64.908 volledige responsen opgehaald uit het veldwerkbestand met een invuldatum in 2023. Daarvan werden 499 responsen in het verwerkingsproces als onbruikbaar bestempeld, omdat deze vanwege onlogische gegevens foutief waren en niet gaaf te maken waren. In het databestand van ODiN 2023 zijn daarmee uiteindelijk 64.459 responsen aanwezig.