2. De tijdreeksmethode
2.1 Het model
Voor de berekening van de kwartaalcijfers gaan we uit van het bivariate structurele tijdreeksmodel gegeven door
Hierin is
•
•
•
•
•
•
•
De volledige uitwerking van dit model staat in Bijlage I.
2.2 De directe schattingen
De directe schattingen
In 2020 is er voor de berekening van de kwartaalcijfers steeds een gewogen bestand samengesteld door de tot dan toe beschikbare respons via de gegeneraliseerde regressieschatter (GREG, Särndal e.a. 1992) op te hogen naar de populatie van 2020. Hierbij is gebruik gemaakt van het weegmodel uit eerdere jaren, waarbij geen rekening gehouden is met de in 2018 ingevoerde doelgroepenbenadering. De eerste twee kwartalen over 2020 zijn in het derde kwartaal van 2020 berekend en gepubliceerd in augustus. De directe schattingen voor deze twee kwartalen zijn daarom gebaseerd zijn op een gewogen halfjaarsbestand. De directe schattingen voor het derde kwartaal zijn gebaseerd op een gewogen negenmaandsbestand en de directe schattingen voor het vierde kwartaal op het gewogen jaarbestand van 2020.
De directe schatting
De directe schattingen van de internetreeks over de kwartalen 1 en 2 en de directe schattingen voor de reguliere reeks zijn dus berekend op basis van het gewogen halfjaarsbestand. De directe schattingen van beide reeksen over het vierde kwartaal zijn berekend op basis van het gewogen jaarbestand.
Voor het derde kwartaal is het gewogen negenmaandsbestand gebruikt gebaseerd op de beschikbare respons van januari t/m september. In het derde kwartaal is de capi-respons maar voor twee derde beschikbaar, omdat de capi-waarneming pas in augustus is opgestart. Er is daarom een correctie toegepast bij het berekenen van de directe schatting van de reguliere reeks over kwartaal 3. De directe schatting over kwartaal 3 is berekend als het gewogen gemiddelde van de volledige respons (cawi plus capi) in augustus en september minus 1/3 maal de breuk
Op deze manier zijn de twee inputreeksen voor het tijdreeksmodel samengesteld. De reguliere reeks, bestaande uit de schattingen
2.3 De modelgebaseerde schattingen
Aan de hand van het tijdreeksmodel uit paragraaf 2.1 kunnen schattingen gemaakt worden voor de populatieparameter
Om het Kalman filter toe te kunnen passen wordt het model uit paragraaf 2.1 eerst als toestandsruimtemodel geschreven:
In het toestandsruimtemodel wordt de vector
Bij het berekenen van de cijfers over de eerste twee kwartalen en bij het berekenen van het derde en vierde kwartaal zijn voor alle doelvariabelen de modelaannames geëvalueerd door voor zowel de reguliere reeks als de internetreeks de gestandaardiseerde innovaties te analyseren. Innovaties zijn de fouten van de voorspellingen van de waarnemingen
Bij het toepassen van het tijdreeksmodel blijken bij enkele variabelen in eerdere jaren uitbijters voor te komen. Het gaat om huisartscontact in kwartaal 3 van 2016, dagelijks roken in kwartaal 2 van 2019 en overgewicht in kwartaal 4 van 2018. De gestandaardiseerde innovaties vallen in deze kwartalen buiten het interval (-2,2). Bij het berekenen van de eerste twee kwartalen worden bij ervaren gezondheid en de drie variabelen over het zorggebruik in de eerste kwartalen van 2020 gestandaardiseerde innovaties gemeten die in absolute waarde variëren van 3 tot 6. Dat is een teken dat voor deze variabelen het tijdreeksmodel de effecten van corona in 2020 in de eerste twee kwartalen niet goed beschrijft en aangepast moet worden.
2.4 Aanpassing model vanwege corona-effecten
Schattingen gebaseerd op het tijdreeksmodel lenen informatie uit het verleden om zo de nauwkeurigheid van de schattingen te verbeteren. Er wordt daarbij aangenomen dat de cijfers uit het verleden samenhangen met de huidige cijfers. In de eerste twee kwartalen van 2020 wordt bij een viertal variabelen een sterke afwijking gemeten in de internetreeks. We zien het zorggebruik sterk afnemen. Het gaat hier om de variabelen huisartscontact, tandartsbezoek en specialistcontact. Bij de variabele ervaren gezondheid zien we juist een sterke toename. Voor deze variabelen geldt de aanname van de samenhang met het verleden niet meer en passen we het model aan. Dit is gesignaleerd doordat de gestandaardiseerde innovaties waardes aannemen die (absoluut) veel groter zijn dan 2 (zie vorige paragraaf).
Het tijdreeksmodel leent informatie uit het verleden via zowel de trend
De trend is opgebouwd uit een niveau
De kwartalen waar
Na analyse van de gestandaardiseerde innovaties bij de variabelen over het zorggebruik de variantie
Na deze aanpassingen worden er bij de meeste doelvariabelen geen modelveronderstellingen verworpen. Bij het berekenen van de eerste twee kwartalen wordt alleen bij huisartscontact en dagelijks roken de veronderstelde normaliteit verworpen. Bij deze variabelen blijken in enkele kwartalen nog uitbijters voor te komen, maar de gestandaardiseerde innovaties in deze kwartalen vallen net buiten het interval (-2,2). Bij huisartscontact gaat het om kwartaal 3 in 2016 en kwartaal 1 in 2020. Bij dagelijks roken gaat het om kwartaal 2 in 2019. Bij het berekenen van de kwartalen 3 en 4 wordt er geen enkele modelveronderstelling meer verworpen.
Doelvariabele | Aanpassing trend | Aanpassing factor in |
---|---|---|
Ervaren gezondheid | ja | 2019 kw2 t/m 2020 kw2 |
Psychisch ongezond | nee | |
Huisartscontact | ja | 2019 kw3 t/m 2020 kw2 |
Dagelijks roken | nee | |
Overgewicht | nee | |
Overmatig alcoholgebruik | nee | |
Tandartsbezoek | ja | 2019 kw3 t/m 2020 kw2 |
Specialistcontact | ja | 2019 kw3 t/m 2020 kw2 |
In bijlage II zijn voor alle doelvariabelen de kwartaalcijfers gegeven vanaf 2017 t/m het laatste kwartaal van 2020. De tabellen 2 t/m 4 tonen de ML-schattingen van de hyperparameters van het tijdreeksmodel. Hierbij heeft tabel 2 betrekking op de hyperparameters van het model dat is toegepast op de reeksen t/m het tweede kwartaal van 2020. Tabel 3 geeft de resultaten van de ML-schattingen van het model toegepast op de reeksen t/m het derde kwartaal en tabel 4 heeft betrekking op de reeksen t/m het vierde kwartaal. De figuren 1 t/m 16 laten de modelgebaseerde schattingen (STM) zien met de bijbehorende standaardfouten vanaf 2017 en vergelijken deze met de directe schattingen, gebaseerd op de volledige respons (internetwaarneming en face-to-facewaarneming) en de internetrespons (volledig).
Merk op dat de kwartaalcijfers van 2017 t/m 2019 gebaseerd zijn op het structureel tijdreeksmodel terwijl eerder gepubliceerde jaarcijfers over deze jaren directe schattingen zijn, gebaseerd op de weging zoals beschreven in Boonstra (2019). Hierdoor wijkt het gemiddelde van de kwartaalcijfers soms iets af van de jaarcijfers.
Op basis van de kwartaalcijfers kunnen, net als bij de jaarcijfers, jaarontwikkelingen berekend worden door het verschil te berekenen van hetzelfde kwartaal in twee opeenvolgende jaren. Aangezien de kwartaalcijfers op het structureel tijdreeksmodel gebaseerd zijn, wijken ook de standaardfouten van de jaarontwikkelingen gebaseerd op de kwartaalcijfers af van de standaardfouten van de jaarontwikkelingen gebaseerd op de jaarcijfers. Over het algemeen zijn de jaarontwikkelingen van de modelgebaseerde kwartaalcijfers nauwkeuriger dan die van de directe jaarcijfers. Hierdoor zal er bij de kwartaalcijfers eerder een significante jaarontwikkeling gemeten worden dan bij de jaarcijfers.