Auteur: Marie-Jeanne Aarts, Thijs Driessen, Fleur Gommans, Arthur Junior Provoost, Lois Verburg, Renske Verweij
Woningmarktontwikkelingen rondom het Groningenveld - Methoderapport

3. Kernindicatoren

In het onderzoeksrapport staan zes indicatoren centraal. Vijf indicatoren beschrijven de verkoopbaarheid van woningen. Dit zijn: aantal verkochte woningen, aantal te koop staande woningen, verkoopduur, te koopduur, en de verhouding tussen vraagprijs en verkoopprijs. De zesde indicator is de prijsontwikkeling van verkochte woningen. Dit hoofdstuk beschrijft op welke manier de zes indicatoren worden vastgesteld.

3.1 Inleiding

Dit hoofdstuk is als volgt opgebouwd. In paragraaf 3.2 worden de gebruikte bronbestanden toegelicht. Paragraaf 3.3 beschrijft de operationalisering van de vijf verkoopbaarheidsindicatoren en de gehanteerde methode. Voor deze indicatoren zijn niet alleen de risicogebieden vergeleken met het referentiegebied, maar zijn eveneens woningen in het hoge en lage segment met elkaar vergeleken. Deze uitsplitsing wordt verder toegelicht in paragraaf 3.4. De gehanteerde methode voor het vaststellen van de prijsindicator wordt beschreven in hoofdstuk 3.5. Alle indicatoren die in dit hoofdstuk worden beschreven, worden op kwartaalbasis berekend in de vorm van een trendmatige ontwikkeling per indicator. In paragraaf 3.6 wordt behandeld hoe is vastgesteld wat de maximaal haalbare periodiciteit is waarover met voldoende betrouwbaarheid gepubliceerd kan worden. Deze paragraaf beschrijft ook hoe de betrouwbaarheid van de resultaten is bepaald. Ten slotte is in deze paragraaf de methode toegelicht waarmee de trendmatige ontwikkeling in de cijfers is vastgesteld.

3.2 Bronbestanden

De zes indicatoren maken gebruik van dezelfde bronbestanden. Daarom worden in deze paragraaf eerst de gebruikte bronbestanden beschreven, voordat de operationalisering en de methode voor het vaststellen van de indicatoren wordt toegelicht. Per bron wordt beschreven wat de inhoud van het bestand is. Vervolgens wordt aangegeven welke bewerkingen en filters zijn toegepast.

NVM-bestand

Het bestand van de Nederlandse Vereniging van Makelaars (NVM) vormt de basis van alle kernindicatoren behalve het aantal verkochte woningen. Het bevat bestaande woningen die ergens tussen 1 januari 1985 en het einde van de onderzoeksperiode te koop hebben gestaan bij NVM-makelaars. Het gaat om zowel woningen die daadwerkelijk zijn verkocht als om woningen die nu nog te koop staan of van de markt zijn teruggetrokken. Hierbij moet worden opgemerkt dat sommige verkopen pas een tijd na de verkoopdatum worden geregistreerd. Het aantal verkopen in de meest recente kwartalen wordt daardoor onderschat. De dekking van het NVM-bestand is in de jaren voor 2000 ongeveer 50 procent van de markt en neemt daarna steeds verder toe. Voor de jaren vanaf 2010 bevat het NVM-bestand ongeveer 90 procent van alle verkochte woningen in het onderzoeksgebied. Verkopen die zonder NVM-makelaar zijn gedaan, ontbreken in het bestand.

Van alle woningen is bekend op welk moment ze op de markt zijn gekomen en, indien van toepassing, op welk moment ze weer van de markt af zijn gehaald. Dit laatste kan het gevolg zijn van terugtrekking of van een daadwerkelijke verkoop. In het geval van een verkoop is zowel de verkoopprijs als de verkoopdatum bekend. De verkoopdatum is de dag waarop het koopcontract is getekend. Naast gegevens over aan- en afmelding van de woningen zijn ook diverse woningkenmerken opgenomen in het bestand, zoals adresgegevens, type woning, bouwperiode, inhoud, oppervlakte, aantal verdiepingen, soort tuin en parkeergelegenheid.

De kwaliteit van de variabelen in het bestand is niet altijd optimaal, vooral voor de jaren tot 2000. Om het bestand geschikt te maken voor analysedoeleinden is daarom eerst een aantal bewerkingen toegepast. Zo zijn aan- en afmelddata omgedraaid indien de afmelddatum vóór de aanmelddatum lag.

Ieder record in het bestand bevat een aanmelding van een woning. Eén en dezelfde woning kan meerdere keren te koop zijn gezet. Deze woning zit dan meerdere keren in het bestand. Records van woningen die tijdelijk van de woningmarkt zijn teruggetrokken en binnen drie maanden weer opnieuw te koop zijn gezet zijn samengevoegd. In dat geval beschouwen we beide verkoopperioden als aaneengesloten.

Het komt ook voor dat meerdere records van één en dezelfde woning elkaar overlappen, dat wil zeggen dat de woning opnieuw is aangemeld voordat het andere record is afgemeld. Dit kan verschillende oorzaken hebben. Bij elk mogelijk scenario zijn er beslisregels opgesteld om te bepalen welke aanmelding van die woning in het bestand moet worden behouden.

Tot slot zijn buurtcodes toegevoegd op basis van de postcode en het huisnummer in het bestand. Wanneer postcode of huisnummer niet goed is ingevuld of ontbreekt, is het niet mogelijk een buurtcode aan te koppelen. Hierdoor worden enkele transacties niet meegenomen in de analyse. Het effect hiervan is echter minimaal.

Het NVM-bestand bevat een groot aantal records dat niet binnen de reikwijdte van het onderzoek valt. Het gaat dan bijvoorbeeld om woningen die niet tot de gedefinieerde onderzoeksgebieden behoren of woningen die buiten de onderzoeksperiode te koop hebben gestaan. Daarom is er een filter aan het bestand toegevoegd waarmee kan worden bepaald welke records meegenomen moeten worden in de analyse.

Binnen het filter vallen de records die:

  • in één van de onderzoeksgebieden (risicogebieden of referentiegebied) liggen.
  • een woonhuis of appartement betreffen. Bouwgrond en garageboxen worden buiten beschouwing gelaten.
  • tot het onroerend goed behoren. Woonboten en stacaravans zijn uitgesloten.
  • ergens in de onderzoeksperiode te koop hebben gestaan. Dat wil zeggen dat de woning tussen 1 januari 1985 (start bestand) en de meest recente onderzoeksperiode is aangemeld én dat de woning, indien afgemeld, op of na 1 januari 1995 is afgemeld.

Voor verkochte woningen geldt naast bovengenoemde criteria dat zij alleen binnen de relevante selectie vallen als:

  • de woning daadwerkelijk verkocht is. Verkopen onder voorbehoud zijn uitgesloten.
  • de verkoopprijs en de oorspronkelijke vraagprijs groter dan of gelijk zijn aan 10 duizend euro en kleiner dan of gelijk aan 5 miljoen euro. Hiermee worden verkopen met een onrealistische prijs buiten beschouwing gelaten.

Voor de prijsindicator zijn twee aanvullende filters toegepast. Dit is gedaan om te voorkomen dat niet plausibele transacties de regressie verstoren. Woningen zijn niet geselecteerd als:

  • De inhoud kleiner is dan 21 m³. De grens is gesteld op 21 m³ omdat dit de minimale inhoud is die een woning in Nederland volgens Bouwbesluit 2012 moet hebben.
  • Het logaritme van de verkoopprijs van de woning valt buiten het interval van 99% rond het gemiddelde. Het gemiddelde logaritme van de verkoopprijs is bepaald, evenals de standaarddeviatie. Woningen die 2,58 standaarddeviaties of meer van het gemiddelde afwijken, worden verwijderd. Dit filter wordt toegepast om te voorkomen dat zeer hoge of zeer lage prijzen de regressie bovengemiddeld beïnvloeden.

BAG en Woonruimteregister

Informatie over de woningvoorraad is noodzakelijk om twee van de verkoopbaarheidsindicatoren te kunnen berekenen: het aandeel te koop staande en verkochte woningen. Om de woningvoorraad te bepalen van 1995 t/m 2011 is gebruik gemaakt van het Woonruimteregister (WRG). Het WRG is een registratie met adressen en bevat de voorraad van woonruimten op 1 januari. Uit het WRG kan onder andere de woningvoorraad worden afgeleid. Voor de woningvoorraad is de typering ‘woning’ geselecteerd. De BAG is gebruikt voor het bepalen van de woningvoorraad vanaf 2012. De BAG is uitgebreider beschreven in paragraaf 2.2.

De WRG en BAG-gegevens sluiten niet volledig op elkaar aan. Dit levert in 2012 een trendbreuk op in de woningvoorraadcijfers. Door structurele tijdreeksmodellen (Durbin en Koopman, 2012) toe te passen kan er voor de breuk worden gecorrigeerd6). In het kader van een structureel tijdreeksmodel wordt een tijdreeks opgeknipt in verschillende latente onderdelen (bijvoorbeeld een trend, een seizoens-effect (bij maandelijkse data) of een cyclus). Daarnaast kan ook een breuk in de trend worden geschat.

De methodeherziening die in 2019 heeft plaatsgevonden, heeft tot een nieuwe indeling van de onderzoeksgebieden geleid. De tijdreeksmodellen zijn op deze nieuwe onderzoeksgebieden toegepast. Deze modellen zijn gelijk aan degenen die voor de vorige gebiedsindeling zijn gebruikt.

Kadasterbestand

Het verkopenbestand van het Kadaster bevat alle woningen die vanaf 1 januari 1995 verkocht zijn. Het Kadaster heeft de wettelijke taak alle verkooptransacties van onroerende zaken te registreren. Naast de verkoopprijs worden ook adres, woningtype en datum van overdracht geregistreerd. De verkoopprijs is inclusief eventueel aanwezige grond, tenzij het een woning met erfpacht betreft. De prijs is exclusief bijkomende kosten zoals notariële kosten, makelaars- of taxateursdiensten en overdrachtsbelasting. Ook roerende zaken (zoals boedel) worden uitgesloten. De verkoopdatum die bij het Kadaster is geregistreerd is de datum van de juridische overdracht. Deze datum ligt gemiddeld twee tot drie maanden na de datum waarop het koopcontract is getekend. Het bestand heeft een volledige dekking. Op basis van dit bestand is het aantal verkochte woningen bepaald.

3.3 Ontwikkelingen verkoopbaarheidsindicatoren

Het onderzoek behandelt vijf indicatoren die de verkoopbaarheid van woningen vaststellen:

  1. Aantal verkochte woningen als percentage van de woningvoorraad
  2. Aantal te koop staande woningen als percentage van de woningvoorraad
  3. Aantal dagen dat verkochte woningen te koop hebben gestaan (verkoopduur)
  4. Aantal dagen dat te koop staande woningen al te koop staan (te koopduur)
  5. Verkoopprijs als percentage van de oorspronkelijke vraagprijs (prijsverhouding)

Deze vijf indicatoren zijn als volgt geoperationaliseerd:

  1. = Het aantal woningen dat in kwartaal x is verkocht als percentage van de woningvoorraad aan het eind van kwartaal x.
  2. = Het aantal woningen dat aan het eind van kwartaal x te koop staat als percentage van de woningvoorraad aan het eind van kwartaal x.
  3. = De mediane verkoopduur van alle woningen die in kwartaal x verkocht zijn. De verkoopduur is het aantal dagen tussen de aanmelddatum en de afmelddatum van de woning.
  4. = De mediane te koopduur van alle woningen die aan het eind van kwartaal x te koop staan. De te koopduur is het aantal dagen tussen de aanmelddatum en de laatste dag van het kwartaal.
  5. = De mediane prijsverhouding van alle woningen die in kwartaal x verkocht zijn. De prijsverhouding is de verkoopprijs als percentage van de oorspronkelijke vraagprijs.

De eerste twee indicatoren zijn gerelateerd aan de totale woningvoorraad. Hierdoor kunnen de resultaten beter in de tijd en ook tussen verschillende gebieden worden vergeleken. Volgtijdelijke vergelijkbaarheid is ook de reden dat bij indicator 3, 4 en 5 is gekozen voor de mediaan in plaats van het rekenkundig gemiddelde. De mediaan is namelijk minder gevoelig voor uitschieters in de data.

Vanwege het kleine aantal waarnemingen per kwartaal vertonen de reeksen van de verschillende indicatoren een grillig verloop. Om een beter beeld te krijgen van de trendmatige ontwikkeling is een smoothing techniek toegepast; namelijk een state spacemodel. Dit is verder uitgelegd in paragraaf 3.6.

3.4 Hoog en laag segment

Omdat het prijssegment mogelijk van invloed is op de verkoopbaarheid van woningen, is voor alle verkoopbaarheidsindicatoren (behalve de verkoopprijsindex en de WOZ-waarde), ieder jaar een aparte uitsplitsing gemaakt naar woningen in het hoge en lage segment. Sinds het in 2021 gepubliceerde rapport is de methode om de segmentgrens te bepalen gewijzigd ten opzichte van de methode die gehanteerd werd in eerdere documenten. Beide methodes worden hieronder toegelicht.

De uitsplitsing naar segment wordt gemaakt op basis van het NVM-bestand, beschreven in paragraaf 3.2. In de rapporten voor 2021 werd de uitsplitsing naar segment gemaakt op basis van een vaste grenswaarde. Woningen werden tot het hogere segment gerekend indien de oorspronkelijke vraagprijs boven 200 duizend euro lag. Woningen met een oorspronkelijke vraagprijs onder of gelijk aan 200 duizend euro werden tot het lagere segment woningen gerekend. Deze vaste grenswaarde werd voor zowel het risicogebied als het referentiegebied gehanteerd en was voor alle onderzochte jaren gelijk. De grens van 200 duizend euro was gebaseerd op een beleidsgrens, gehanteerd door de NCG bij de start van het Koopinstrument in 2016, voor het opkopen van langdurig te koop staande woningen in het aardbevingsgebied7).

Door de tijd heen kunnen woningen echter duurder of goedkoper worden. Het hanteren van een vaste grenswaarde bemoeilijkt het trekken van conclusies over ontwikkelingen door de tijd heen. De methode om de segmentgrens te bepalen is daarom vanaf 2021 (en met terugwerkende kracht voor alle periodes daarvoor) gewijzigd naar een variabele grens op basis van een percentielbenadering, gebaseerd op het NVM-bestand. Het Koopinstrument, dat is gestart in het tweede kwartaal van 2016, dient hierbij nog steeds als uitgangspunt. Voor het tweede kwartaal van 2016 is berekend voor welk deel van de woningen in het risicogebied de oorspronkelijke vraagprijs kleiner of gelijk is aan 200 duizend euro. Dit is het lagere prijssegment. Afgerond ligt deze grens op het 63e percentiel. Dit percentiel is vastgezet, waardoor in iedere periode een even groot deel van de woningen in het hogere en lagere segment valt. Voor iedere periode in zowel het risico- als het referentiegebied is dus berekend met welke oorspronkelijke vraagprijs het 63e percentiel overeenkomt. De uitkomst van deze berekening is de segmentgrens voor het betreffende gebied en periode.

In verband met de onderzoeksperiode, die steeds loopt tot en met het tweede kwartaal van een jaar, is er voor gekozen om periodes van jaren aan te houden die lopen vanaf het derde kwartaal in een jaar tot en met het tweede kwartaal een jaar later. Wegens het gebrek aan voldoende waarnemingen zijn de segmentgrenzen van woningen die te koop zijn gezet vóór 1995 erg instabiel. Daarom worden woningen die te koop zijn gezet vóór 1995 niet ingedeeld naar segment. Tot slot wordt voor de uitsplitsing naar hoog en laag segment in het risicogebied - net als voor krimpgebieden - geen onderscheid gemaakt naar schade-intensiteit.

Het hogere segment risicogebied bestaat dus uit alle woningen met een oorspronkelijke vraagprijs boven het grensbedrag, gelegen in een buurt waar aan minimaal 5 woningen en aan minimaal 1 procent van de woningen een schadevergoeding is toegekend. De segmentgrenzen in euro’s voor het risicogebied en het referentiegebied staan per onderzoeksperiode weergegeven in Bijlage II.

3.5 Prijsontwikkelingen verkochte woningen

De zesde indicator, de prijsontwikkeling van bestaande koopwoningen, is gemeten aan de hand van een kenmerkenmodel8). Een kenmerkenmodel ziet een woning als een set woningkenmerken. Voorbeelden van woningkenmerken zijn de grootte van de woning of het woningtype. Elk kenmerk heeft invloed op de prijs van een woning. Zo zal een woning met een grote woonoppervlakte duurder zijn dan een woning met een kleine oppervlakte, gegeven de overige kenmerken. Met behulp van regressieanalyse kan de invloed van de woningkenmerken op de prijs worden bepaald. Hiermee kan de gemeten prijsontwikkeling worden gecorrigeerd voor veranderingen in de samenstelling en kwaliteit van de set verkochte woningen.

Selectie van woningkenmerken

De NVM-dataset bevat circa 100 woningkenmerken. Het is niet zinvol deze allemaal op te nemen in het kenmerkenmodel. Een model heeft na opname van de belangrijkste woningkenmerken vaak al een vrij grote verklaarkracht. Toevoeging van extra kenmerken voegt dan nauwelijks verklaarkracht toe, terwijl het lastiger wordt om significante resultaten uit de regressieanalyse te krijgen. Daarom is gekozen voor een beperkt aantal woningkenmerken. Een nadeel hiervan is dat het model hierdoor minder geschikt is voor unieke objecten, zoals woonboerderijen. Aan de meer algemene kenmerken van zulke woningen is niet af te leiden dat het om een bijzondere woning gaat, terwijl dit wel tot uitdrukking komt in de prijs.

Omdat niet alle 100 woningkenmerken opgenomen kunnen worden in het model, is er een selectie gemaakt van beschikbare woningkenmerken in de NVM-dataset. Bij het maken van de selectie is allereerst gekeken of er voldoende woningen worden verkocht die het kenmerk bezitten. Daarnaast moeten er betrouwbare data over dit kenmerk beschikbaar zijn. Tot slot moet er voldoende variatie van het kenmerk aanwezig zijn in het onderzoeksgebied. De kenmerken die aan deze voorwaarden voldoen zijn doorgerekend in het kenmerkenmodel. Woningkenmerken die niet significant bleken zijn verwijderd. Daarnaast zijn ook kenmerken verwijderd die weinig effect bleken te hebben op de verkoopprijs. Onderstaande kenmerken zijn uiteindelijk opgenomen in het kenmerkenmodel:

  1. Inhoud van de woning
  2. Grootte van het perceel behorende bij de woning
  3. Woningtype
  4. Bouwperiode van de woning
  5. Gemeente waarin de woning is gelegen
  6. Staat van het onderhoud binnen
  7. Staat van het onderhoud buiten

De kenmerken 1 tot en met 5 behoren tot de belangrijkste kenmerken die verkoopprijzen verklaren (Diewert, 2013). De kenmerken 6 en 7 zeggen iets over de staat waarin de woning verkeert. Deze kenmerken zijn in het kader van dit onderzoek van belang, omdat er woningen in deze regio zijn die te maken hebben met schade als gevolg van aardbevingen.

Het is gebruikelijk om in een kenmerkenmodel een variabele voor locatie op te nemen, omdat de locatie van een woning een belangrijke verklarende variabele is voor de prijs van de woning. In dit geval is gekozen voor de variabele gemeente omdat op deze manier rekening gehouden wordt met het imago van de gemeente. Wanneer een bepaalde buurt een minder goede naam heeft, dan beperkt zich dat vermoedelijk niet tot deze ene buurt. Mogelijk mijden kopers ook omliggende buurten, omdat deze vlakbij een buurt met een minder goede naam ligt. Om voor dit soort imago effecten te corrigeren, wordt de variabele gemeente meegenomen.

In deze studie zijn verschillende mogelijkheden onderzocht om het effect van aardbevingen mee te nemen in het kenmerkenmodel. Zo is gekeken naar de mogelijkheid om schademeldingen op te nemen. Dit bleek echter niet haalbaar, omdat niet achterhaald kan worden in hoeverre een woning schade heeft op het moment van verkoop. Daarnaast is gekeken naar de mogelijkheid om het aantal aardbevingen per woning mee te nemen. Het meenemen hiervan is mogelijk, maar voegt weinig verklaarkracht toe aan het model. Dat komt doordat de buurten waar regelmatig aardbevingen voorkomen zijn samengevoegd tot de drie risicogebieden. Omdat vrijwel alle woningen in deze gebieden aardbevingen hebben doorgemaakt, is dit geen onderscheidend kenmerk tussen de woningen binnen deze gebieden. Er is wel verschil in de mate waarin woningen schade hebben opgelopen. Daarom is de staat van het onderhoud meegenomen. Indien een woning aardbevingsschade heeft op het moment van verkoop, dan nemen we aan dat dit hierin tot uitdrukking komt.

Het opnemen van de variabele onderhoud heeft als nadeel dat er gecorrigeerd wordt voor aardbevingsschade aan woningen. Toch is het beter om de variabele onderhoud in het model op te nemen. Allereerst is dit nodig om tijdreeksen te kunnen maken. De kwaliteit van de set verkochte woningen verschilt van periode tot periode. In het ene kwartaal worden bijvoorbeeld beter onderhouden woningen verkocht dan in het andere kwartaal. Door te corrigeren voor het onderhoud van woningen kunnen vergelijkingen in de tijd worden gemaakt ondanks verschillen in de kwaliteit van de set verkochte woningen. Eenzelfde redenering gaat op voor het vergelijken tussen de verschillende gebieden in het onderzoek. Door te corrigeren voor eventuele aardbevingsschade kan worden onderzocht of er sprake is van een verschil in prijsontwikkeling tussen de risicogebieden en het referentiegebied ongeacht een verschil in de kwaliteit van verkochte woningen. Op deze manier kan een uitspraak worden gedaan over de vraag of er in het risicogebied sprake is van een andere prijsontwikkeling dan in het referentiegebied, ook als het gaat om niet beschadigde woningen.

Bovenstaande selectie van woningkenmerken is gemaakt op basis van onderzoek naar verkochte bestaande koopwoningen. De kenmerken van verkochte bestaande koopwoningen kunnen verschillen van de kenmerken van niet-verkochte woningen of van de kenmerken van nieuwbouwkoopwoningen. De beschreven bevindingen en de resultaten van het model zijn daarom ook alleen van toepassing op verkochte bestaande koopwoningen.

Regressieanalyse

Door middel van een standaard time dummy methode9) wordt het logaritme van de verkoopprijs verklaard aan de hand van een set woningkenmerken en dummy variabelen. In de vorige paragraaf zijn de zeven kenmerken beschreven die zijn opgenomen in het model. Daarnaast is het kwartaal waarin woningen zijn verkocht opgenomen in het model. Zo is de invloed van de periode waarin de verkoop plaatsvond gemeten. Het model ziet er als volgt uit:

Log(Verkoopprijs) = Constante + Verkoop kwartaal + log(Inhoud) + Perceel + Woningtype + Bouwperiode + Gemeente + Onderhoud binnen + Onderhoud buiten + Ruis

Bij een time dummy methode wordt er één regressie uitgevoerd voor alle perioden samen. In dit geval is de regressie uitgevoerd met behulp van de kleinstekwadratenmethode op kwartaaldata van het eerste kwartaal van 1995 tot en met de meest recente periode die in het rapport wordt beschreven. Voor elk onderscheiden onderzoeksgebied is een aparte regressieanalyse uitgevoerd.

Om te bepalen in hoeverre het model geschikt is voor het verklaren van de verkoopprijs, is R² berekend. Dit is een maatstaf waarmee bepaald kan worden in hoeverre het model geschikt is voor het verklaren van de variantie in de uitkomsten. R² is een waarde tussen 0 en 1, waarbij geldt: hoe hoger de waarde hoe beter het model geschikt is voor het verklaren van de variantie in de uitkomsten.

Controleren modelaannames

Het regressiemodel is gebaseerd op een aantal aannames. Deze aannames zijn gecontroleerd en zijn hieronder besproken:

  1. De residuen zijn homoscedastisch. Dit wil zeggen dat ze een constante variantie hebben. Deze aanname is gecontroleerd met behulp van de zogenoemde Breusch-Pagan test. Hieruit bleek dat de residuen niet homoscedastisch, maar heteroscedastisch zijn en dat verhoogt de standaardfout van de coëfficiënten. Daarom is een zogenoemde hccm-test uitgevoerd om de significantie van de woningkenmerken te controleren. Hierbij is rekening gehouden met de heteroscedasticiteit. Uit de test bleek dat de geselecteerde woningkenmerken allen significant zijn. Dit betekent dat met zekerheid kan worden gesteld dat de geselecteerde woningkenmerken invloed hebben op de verkoopprijs van de woning.
  2. De residuen zijn ongecorreleerd. Dit is een belangrijke aanname. Het wil zeggen dat de residuen niet met elkaar samenhangen. Er is geen resterend patroon in de residuen aanwezig dat door toevoeging van een extra woningkenmerk aan het model verklaard zou kunnen worden.
  3. De residuen zijn normaal verdeeld. Dit is nodig om bepaalde statistische toetsen uit te kunnen voeren die alleen onder deze aanname werken. De residuen in dit onderzoek zijn normaal verdeeld.

Deze aannames zijn tijdens het bepalen van het model (het vinden van de optimale verzameling kenmerken) herhaaldelijk gecontroleerd. Als niet (geheel) aan de aannamen werd voldaan was dit een teken dat het model verbeterd kon worden. Naast de genoemde toets op heteroscedasticiteit zijn de aannamen gecontroleerd door de eigenschappen van de residuen visueel te bestuderen. Bij deze visuele controle bleken nog outliers met een grote invloed op de regressie in de data te zitten. Deze zogenoemde influential outliers zijn verwijderd met behulp van Cook’s Distance.

3.6 Betrouwbaarheidsmarges en trendlijnen

Alle ontwikkelingen worden gerapporteerd op kwartaalbasis in de vorm van een trendmatige ontwikkeling per indicator. In deze paragraaf is eerst behandeld hoe is vastgesteld wat de maximaal haalbare periodiciteit is waarmee met voldoende betrouwbaarheid gepubliceerd kan worden. Vervolgens is besproken hoe deze betrouwbaarheid is vastgesteld. Ten slotte is de methode toegelicht waarmee de trendmatige ontwikkelingen in de cijfers zijn bepaald.

Periodiciteit

Het aantal verkochte woningen per kwartaal in de onderzoeksgebieden is klein. Daarom gaat een aantal van de indicatoren voor deze gebieden gepaard met relatief grote marges. Het gaat met name om de prijsindices, maar geldt ook voor sommige verkoopbaarheidsindicatoren. De berekende indicatoren zullen in die gevallen minder betrouwbaar zijn dan voor gebieden met veel verkopen. Inzicht in de betrouwbaarheid van de berekende cijfers is belangrijk omdat dit bepaalt wat de hoogste frequentie is waarvoor cijfers gepubliceerd kunnen worden. De onzekerheidsmarges worden groter en de betrouwbaarheid kleiner door over kortere periodes te rapporteren. Bovendien zal het patroon over de perioden van de indicator een grilliger verloop hebben.

Om een schatting van de onzekerheid te maken, zijn de prijsindexmethoden voor verschillende periodiciteiten toegepast. Hierbij zijn telkens de 95%-betrouwbaarheidsintervallen berekend. Zowel de onzekerheidsmarges rond het geschatte niveau als de marges rond de ontwikkeling van de prijsindexcijfers zijn bepaald. Op basis hiervan is besloten dat het CBS de prijsindexcijfers niet gedetailleerder dan op kwartaalbasis met voldoende nauwkeurigheid kan publiceren. Ook voor de verkoopbaarheidsindicatoren wordt deze periodiciteit gehanteerd.

Om toch voldoende inzicht te krijgen in de onderliggende ontwikkelingen, ondanks de onzekerheid in de cijfers en de grilligheid van het verloop van de indicatoren, zijn voor alle indicatoren trendlijnen berekend. De methode hiervoor wordt verderop toegelicht.

Varianties

De berekende prijsindices en enkele van de verkoopbaarheidsindicatoren zijn schattingen van onbekende grootheden. Zoals met elke statistische methode kennen deze schattingen daarom een onzekerheid. Die wordt uitgedrukt met een variantie, waarmee vervolgens een onzekerheidsmarge in de vorm van een 95%-betrouwbaarheidsinterval berekend kan worden. Voor al deze indicatoren is sprake van reeksen van opeenvolgende schattingen. De variantie kan daarom per periode verschillen.

Voor het kenmerkenmodel (Eurostat, 2013) is een formule waarmee de variantie bepaald kan worden niet beschikbaar. Bij deze methode wordt een lineaire regressie uitgevoerd en wordt vervolgens een transformatie (het nemen van de exponent) uitgevoerd op bepaalde regressiecoëfficiënten om de prijsindex te berekenen. Deze coëfficiënten hebben weliswaar een bekende standaardfout, maar voor de getransformeerde coëfficiënten is deze fout niet triviaal te berekenen. Om toch een variantie te kunnen berekenen, zijn de varianties via een ‘bootstrap’-procedure (Efron en Tibshirani, 1993) op empirische wijze bepaald voor de prijsindices. In deze procedure is een steekproef (met teruglegging) getrokken uit het bestaande bestand met huizenverkopen die even groot is als het oorspronkelijke bestand. Dit is per periode gebeurd. Vervolgens is voor dit nieuwe bestand de prijsindex per periode berekend. Door dit geheel een groot aantal keer te herhalen (500 keer) kon de variantie van prijsindex over alle herhalingen worden berekend.

Voor de verkoopbaarheidsindicatoren zijn om verschillende redenen geen varianties bekend. Voor sommige indicatoren geldt dat ze gebaseerd zijn op alle transacties in een periode, maar iets proberen te zeggen over de woningmarkt als geheel. Dit geldt voor de indicator ‘Verhouding tussen de verkoopprijs en de oorspronkelijke vraagprijs’. In dit geval is het beter om de transacties te zien als een steekproef uit de totale woningvoorraad. De samenvattende maat is dan een schatting van een onbekende populatieparameter. Alvorens de samenvattende maat te berekenen, zijn op de brongegevens nog een aantal bewerkingen uitgevoerd, zoals het verwijderen van transacties die onrealistisch zijn of die de samenvattende maat te sterk zouden beïnvloeden. De samenvattende maat is dus een schatting van de waarde voor de gehele woningvoorraad, en kent daardoor een variantie. Door de bewerkingsstappen valt de variantie ervan echter niet te berekenen.

Nadat de indicatoren bepaald zijn, zijn trendlijnen berekend. De methode hiervoor wordt in de volgende paragraaf behandeld. Deze methode kent ook weer een variantie en gaat ervan uit dat de bronreeksen om de trendlijnen te bepalen geen onzekerheid kennen. Zoals hierboven beschreven kennen alle indicatoren een bepaalde onzekerheid. Daarom is de trendlijnmethode zo aangepast dat deze ook rekening houdt met de hierboven beschreven varianties van de indicatoren. De marge van de trendlijnen geeft daarna de gecombineerde onzekerheid weer van zowel de brondata als de schattingsmethode. Dit is echter alleen mogelijk voor de prijsindices. Voor de verkoopbaarheidsindicatoren is alleen de onzekerheid van de trendlijnmethode vastgesteld. Dit is dus een ondergrens voor de totale onzekerheid.

Wanneer naast een niveauschatting ook ontwikkelingen van belang zijn, moet er rekening mee worden gehouden dat de variantie en dus de onzekerheid in de ontwikkeling niet rechtstreeks overgenomen kan worden uit de varianties van de niveauschattingen. Het gaat immers om de ratio tussen twee schattingen die beide een variantie kennen. De variantie van deze ratio wordt via een benadering geschat. Hierbij zal meestal het geval zijn dat de relatieve onzekerheidsmarge op een ontwikkeling groter is dan de relatieve onzekerheidsmarge op de niveauschatting.

Trendlijnen

Voor alle indicatoren is het belangrijk de trendmatige ontwikkeling te scheiden van toevallige fluctuaties en systematische schommelingen. Zo kan worden bepaald of de ontwikkeling per indicator verschilt tussen het risicogebied en het referentiegebied. Om deze trendmatige ontwikkeling te berekenen, worden voor alle indicatoren state spacemodellen en bijbehorende schattingstechnieken gebruikt (Durbin en Koopman, 2012; Harvey, 1989; Koopman et al., 2008). Deze methodologie gebruikt filters om de onderliggende trend te bepalen.

In deze state spacemodellen wordt ervan uitgegaan dat elke tijdreeks bestaat uit een aantal componenten die niet waargenomen kunnen worden. Deze componenten zijn expliciet gemodelleerd. De in dit onderzoek gebruikte modellen zijn allen speciale gevallen van dezelfde state spaceformulering. De basis hiervoor is een univariaat model met niveau en trend, met een seizoencomponent daaraan toegevoegd. De state spacemodellen gaan ervan uit dat elk van deze componenten zich langzaam ontwikkelt (en dus stochastisch is). Sommige componenten zijn echter vast (ofwel deterministisch). De reeksen worden behalve uit niveau en seizoen ook verklaard middels een of meerdere verklarende variabelen. Via deze component is hulpinformatie in het model opgenomen die een betere verklaring aan de ontwikkeling van de reeks kan geven. Deze variabelen zijn als regressie-effect toegevoegd aan het model. De laatste twee componenten bestaan uit de uitbijters en de breuken. Dit zijn respectievelijk eenmalige extreme waarden in de reeks en plotselinge verschuivingen in het niveau van de reeks. Beide zijn verstorende effecten die expliciet zijn gemodelleerd. Alle componenten samen verklaren de variaties in de reeks. Het kleine gedeelte dat niet met het model kan worden verklaard, is de onregelmatige component of ruis.

Naast het opnemen van deze componenten is de modelformulering uitgebreid zodat de formulering rekening houdt met onzekerheid in de brondata. De marge van de trendlijnen geeft daarmee de gecombineerde onzekerheid weer van zowel de brondata als van de schattingsmethode.

Voor elke reeks kan de precieze modelformulering verschillen. Niet elk van de genoemde componenten hoeft voor elke reeks opgenomen te zijn in het model. Daarnaast kunnen sommige componenten zowel stochastisch als deterministisch gemodelleerd worden. Er is voor gekozen om de modellering per reeks te optimaliseren, en dus niet per se hetzelfde model te hanteren voor alle reeksen (voor de verschillende onderzoeksgebieden) van een indicator.

Via de genoemde filters kan de grootte van elk van de componenten van de reeks geschat worden. De trendmatige ontwikkeling bestaat dan uit de oorspronkelijke reeks zonder de seizoencomponent en de ruiscomponent, maar inclusief de regressie-effecten, uitbijters en breuken.

6) Het R package mcmcsae (auteur: H.J. Boonstra, CBS Methodologie Heerlen) is gebruikt om de breuk in het kader van deze structurele tijdreeksmodellen te schatten.
7) Voor dit opkoopprogramma is er een bepaald budget beschikbaar om woningen op te kopen. Dit budget wordt verdeeld over goedkopere en duurdere woningen.
8) Een kenmerkenmodel wordt ook wel een hedonisch model genoemd.
9) Voor meer over hedonische methoden, zie: De Haan, J. and E. Diewert (2013) Hedonic Regression Methods. In: Eurostat, ILO, IMF, OECD, UNECE and the World Bank, Handbook on Residential Property Prices Indices(RPPIs) (pp. 50-64). Luxembourg: Publications Office of the European Union.