6. Verwerkingsproces ODiN 2020
De gegevens die via het veldwerk binnenkomen zijn niet direct geschikt voor analysedoeleinden. Om tot een bruikbaar databestand te komen worden eerst een aantal bewerkingsslagen op de data uitgevoerd. Hieronder staan de voornaamste onderdelen van het verwerkingsproces vermeld.
Afbakenen respons en converteren datamodel
In dit onderdeel van het verwerkingsproces worden de volledige en bruikbare responsen geselecteerd. Hierbij worden onder andere die responsen geselecteerd die betrekking hebben op het kalenderjaar waar op dat moment aan gewerkt wordt. Ook wordt in deze stap de overgang gemaakt van het uniforme vragenlijstmodel naar het datamodel dat beter geschikt is voor de verwerking.
Corrigeren
Om de responsen geschikt te maken voor verdere verwerking wordt op de data een aantal verschillende correcties uitgevoerd:
- Corrigeren van ritten met een te hoge of te lage snelheid.
- Corrigeren van ritten met een te lange reisduur.
- Corrigeren van ritten met een ritreisduur van 0 minuten.
- Corrigeren van ritten met een ritafstand van 0,0 kilometer.
- Corrigeren van verplaatsingstijden die niet overeenkomen met rittijden.
Veel van de punten die hierboven staan vermeld worden (deels) afgevangen in de vragenlijst, maar ook omdat de respondent soms terug gaat in de vragenlijst om zaken te corrigeren kunnen uiteindelijk toch inconsistenties in de responsdata voor komen.
Typeren en coderen
Coderen heeft onder andere betrekking op het typeren of classificeren van antwoorden op open vragen. Voorbeelden hiervan zijn het doel van een verplaatsing en de gebruikte vervoermiddelen. Ook het bijzoeken van postcodes op basis van adresgegevens en het bijzoeken van informatie ten behoeve van grensoverschrijdende verplaatsingen valt hieronder.
Verrijken
De responsdata in het verwerkingsproces wordt verrijkt met data uit registers. Bij ODiN gaat het onder andere om:
- Geografische informatie gerelateerd aan het woonadres.
- Geografische informatie gerelateerd aan de verplaatsingspostcodes.
- Routeafstanden tussen verplaatsingspostcodes.
- Persoons- en huishoudkenmerken (niet-geografische informatie).
- Rijbewijsbezit (voor respondent en huishoudleden).
- Reisrecht van studenten (OV-studentenchipkaart respondent; week/weekend).
- Voertuigbezit (voor respondent en huishoudleden).
- Kenmerken van leaseauto’s.
Gaafmaken
In ODiN zijn er een aantal processen die erop gericht zijn responsen uniform te maken en/of te laten passen bij de onderzoeksafbakening. Het betreft de volgende processen:
- Correctie van verplaatsingen naar ritten.
- Samenvoegen OV-ritten.
- Verwijderen vliegtuigritten.
- Splitsen grensoverschrijdende verplaatsingen.
- Verwijderen geheel buitenlandse verplaatsingen.
Afleiden
Om van de variabelen in de verwerking te komen tot de variabelen in het databestand vinden afleidingen plaats. In sommige gevallen betreft het eenvoudige afleidingen. Bijvoorbeeld om van leeftijd (variabele Leeftijd) naar leeftijdsklasse (variabele KLeeft) te komen. In andere gevallen gaat het om complexe afleidingen. Zo moet voor de afleiding van het motief (KMotiefV) in sommige gevallen naar het doel van voorgaande verplaatsingen van de respondent worden gekeken. De meeste afleidingen vinden plaats nadat alle verwerkingsprocessen zijn doorlopen. Daarop zijn een aantal uitzonderingen. Een aantal voorlopige afleidingen worden al veel eerder in het proces uitgevoerd, omdat het voor de verwerking belangrijke variabelen betreft (zoals het soort verplaatsing, het doel en het vervoermiddel) of omdat een oorspronkelijke status bewaard moet worden (bijvoorbeeld of het vertrek- of aankomstadres een vakantieadres was).
Wegen
Van alle respondenten wordt informatie verzameld over het verplaatsingsgedrag op één bepaalde dag van het jaar. Om op basis van het ODiN toch uitspraken te kunnen doen over het hele jaar en over de hele Nederlandse bevolking van 6 jaar of ouder (exclusief personen in instellingen, inrichtingen en tehuizen) moeten de steekproefresultaten worden opgehoogd.
Daarnaast is een steekproef nooit perfect representatief voor de werkelijke populatie. Voor een deel komt dit door de steekproeftrekking, maar een belangrijkere oorzaak is selectieve non-respons. Sommige groepen zijn nu eenmaal meer geneigd om aan enquêtes mee te doen dan andere. Door middel van een weging naar achtergrondkenmerken wordt voor de selectiviteit in de steekproef gecorrigeerd. Achtergrondkenmerken die in de weging worden meegenomen zijn variabelen die van belang zijn voor het verplaatsingsgedrag, zoals leeftijd, geslacht, inkomen, stedelijkheidsgraad en voertuigbezit.
Het weegproces van ODiN start met een voorweging. In de voorweging worden aspecten van het steekproefontwerp meegenomen. Het betreft de doelgroepbenadering, de verschillende steekproeven (landelijk en meerwerk) en wijzigingen in de steekproefgrootte gedurende het onderzoeksjaar.
Na de voorweging volgt de eindweging. Het weegmodel hiervan bevat 45 termen. In de eindweging is ook een correctie voor mogelijke extra non-respons onder vakantiegangers via het weegmodel aanwezig. Dit is dus een correctie op persoonsniveau die corrigeert voor het gegeven dat inwoners van Nederland een deel van het jaar in het binnen- of buitenland op vakantie zijn en hierdoor niet of ánders responderen dan wanneer ze het gehele jaar thuis zouden verblijven. De correctiegewichten van ODiN zorgen ervoor dat de responsselectiviteit rond en tijdens vakantieperioden wordt verminderd. Dit gebeurt door de waargenomen vakantiekenmerken (of de dag begon of eindigde op een vakantieadres) te relateren aan bijbehorende populatieschattingen van het aantal vakantiegangers uit het Continu Vakantieonderzoek (CVO).
De eindweging leidt uiteindelijk tot persoonsgewichten. Dat zijn de weegfactoren voor personen. Deze worden aan het verwerkingsbestand gekoppeld. Vervolgens worden hiervan afgeleid de weegfactor voor huishoudens en voor verplaatsingen. In bijlage C staat het weegmodel van ODiN beschreven.
Bestandscontrole en analyse
Op het bestand vinden uiteindelijk controles plaats om te bezien of de data juist, logisch en onderling consistent is. Als dat het geval is, is het bestand klaar om tabellen voor de rapportages en StatLine te maken en uit te leveren. De uitkomsten hiervan worden vergeleken met voorgaande uitkomsten om na te gaan of de resultaten plausibel zijn.
6.1 Realisatie verwerkingsproces in 2020
Voor het verwerkingsproces zijn in totaal 63 412 volledige responsen opgehaald uit het veldwerkbestand met een invuldatum in 2020. Daarvan werden 472 responsen in het verwerkingsproces als onbruikbaar bestempeld, omdat deze vanwege de onlogische gegevens foutief waren en niet gaaf te maken waren. In het databestand van ODiN 2020 zijn daarmee uiteindelijk 62 940 responsen aanwezig.