Door schatting actueler beeld verhuizingen mogelijk

Mensen laden verhuiswagen vol
Cijfers over de woningmarkt staan op dit moment sterk in de belangstelling vanwege het tekort aan woningen in bepaalde regio’s. Het CBS registreert het aantal verhuizingen per maand, dit brengt de doorstroming op de woningmarkt in kaart, de vorming van nieuwe huishoudens en regionale bevolkingsgroei of -krimp. Het totaal aantal verhuisde personen in Nederland loopt in de registratie een maand achter op de actualiteit.

Het Center for Big Data Statistics (CBDS) van het CBS heeft met behulp van tijdreeksanalyses onderzocht of het mogelijk is, om op basis van register- en big data bronnen, een actuelere indicator voor verhuizingen te ontwikkelen. Eerder onderzoek heeft aangetoond dat gegevens van zoekgedrag op Google mogelijk gebruikt kunnen worden als snelle indicatoren om trends te monitoren. Hetzelfde onderzoek heeft ook aangetoond dat deze zoekgegevens specifiek voor de woningmarkt interessant kunnen zijn (Choi en Varian, 2012; Jun, Yoo en Choi, 2018; Stephens-Davidowitz en Varian, 2015). Uit de resultaten van het CBS-onderzoek blijkt dat zoektermen in Google, in dit geval met name de zoekterm ‘verhuizen’, wel hetzelfde patroon over tijd laten zien als de verhuizingen, maar niet de kwaliteit van het real-time cijfer verbeteren (‘nowcasten’). Informatie over het aantal verhuisde personen in het verleden biedt wel voldoende aanknopingspunten om dit aantal een maand vooruit te schatten. Op deze wijze kan alsnog een actueel cijfer verkregen worden. Het CBS heeft dit nog niet eerder gedaan.

Werkwijze

Dit onderzoek is in drie stappen uitgevoerd: 1) exploratie van de data in Google Correlate, 2) het downloaden van tijdreeksen van zoektermen met Google Trends en 3) vervolgens is met structurele tijdreeksanalyse onderzocht of deze indicatoren iets toevoegen aan de huidige informatie over verhuisde personen in het register.

  • 1) In de eerste stap is de tijdreeks met de maandelijkse verhuizingen uit het register ingelezen in Google Correlate. Daarna zijn alle zoektermen, die in Nederland werden gebruikt in dezelfde tijdsperiode, vergeleken met deze tijdreeks. Google heeft geen informatie over de aard van de cijfers en ‘weet’ dus niet dat de reeks het aantal verhuisde personen in Nederland betreft. Er is bekeken of er vergelijkbare patronen over de tijd waarneembaar zijn in zoektermen. Ook is bekeken of deze termen gerelateerd zijn aan verhuizingen. De zoektermen liepen hierbij tot maximaal een jaar voor op de registerinformatie. Zoals te verwachten valt, bleek hierbij vooral de zoekterm ‘verhuizen’ een vergelijkbare trend te laten zien. Een andere zoekterm die in enige mate vergelijkbaar was over tijd, is de zoekterm ‘verhuisdozen’.
  • 2) In stap twee is met Google Trends een aantal tijdreeksen met zoektermen gedownload en opgeslagen, zoals ‘verhuizen’ en ‘verhuisdozen’. Het gaat hierbij om het relatieve gebruik van een specifieke zoekterm ten opzichte van het totale aantal zoekopdrachten in Nederland. Hiervoor wordt door Google een steekproef van alle zoekopdrachten gebruikt. Om de robuustheid van de resultaten, op basis van deze steekproeven, in te kunnen schatten, heeft het CBS een aantal keer opnieuw reeksen met dezelfde zoektermen gedownload in dezelfde periode. Deze reeksen weken niet sterk van elkaar af, de gemiddelde reeks is vervolgens gebruikt als inputdata voor de tijdreeksanalyses.
  • 3) Tenslotte zijn de Google Trends tijdreeksen van verschillende zoektermen gebruikt als inputdata in structurele tijdreeksmodellen. Vervolgens is onderzocht of de zoektermen dezelfde trends over tijd laten zien als het daadwerkelijke aantal verhuizingen uit het register (zogenaamde ‘coïntegratie’). Hierbij is gecorrigeerd voor seizoenseffecten. Ook is onderzocht of deze trends voorlopen op de verhuizingen. Met de beschikbare registerinformatie over de verhuisde personen van een aantal maanden daarvoor, is het tijdreeksmodel in staat om een periode vooruit te schatten, in dit geval een maand. Door de Google Trends tijdreeks mee te nemen in het model, kan onderzocht worden of deze tijdreeks de schatting op basis van het aantal verhuisde personen in het verleden verbetert. 

Resultaten

Uit de eerste analyse met Google Correlate blijkt dat vooral de zoekterm ‘verhuizen’ over tijd correleert met de tijdreeks van verhuizingen in het register. Deze term lijkt logischerwijs ook het meest van toepassing. Het patroon in het gebruik van de zoekterm ‘verhuizen’ laat dus dezelfde trend zien als het aantal verhuisde personen. De verklaring hiervoor is dat mensen, voordat zij gaan verhuizen, eerst via Google informatie over verhuizen opzoeken op Internet, zoals ‘tips over verhuizen’. Google zou daarom kunnen dienen als een ‘early warning system’ om veranderingen in verhuisgedrag vroegtijdig op te pikken. In dit geval is het zeer waarschijnlijk dat degenen die de zoekterm ‘verhuizen’ intypen in Google, geïnteresseerd zijn in verhuizen en mogelijk in de toekomst gaan verhuizen.

Aantal verhuizingen en zoekterm 'verhuizen'
JaarOpbrengst milieubelastingen en -heffingenVerhuisde personen (x 1 000, procent)Gebruik zoekterm 'verhuizen' (x 1 000, procent)
2004januari131,22679
2004februari120,87660
2004maart136,27357
2004april123,80764
2004mei115,67754
2004juni134,37072
2004juli145,15598
2004augustus140,09448
2004september139,93771
2004oktober130,60575
2004november132,53358
2004december137,69451
2005januari131,74269
2005februari123,00655
2005maart133,65464
2005april131,05357
2005mei119,99571
2005juni134,04472
2005juli144,63361
2005augustus154,76970
2005september154,07464
2005oktober143,81960
2005november137,60767
2005december143,17970
2006januari145,73062
2006februari131,85158
2006maart148,04461
2006april121,78865
2006mei132,29058
2006juni136,82368
2006juli144,08577
2006augustus155,35670
2006september145,04859
2006oktober141,47057
2006november142,44162
2006december133,19350
2007januari145,65462
2007februari128,21962
2007maart140,17757
2007april118,50553
2007mei131,88273
2007juni134,75975
2007juli149,21467
2007augustus152,66565
2007september134,10261
2007oktober142,65656
2007november137,39061
2007december123,95747
2008januari150,83554
2008februari130,93158
2008maart128,08455
2008april132,79355
2008mei120,61365
2008juni129,63066
2008juli151,00165
2008augustus143,26057
2008september145,10757
2008oktober142,42647
2008november123,49743
2008december134,21444
2009januari132,77340
2009februari119,50447
2009maart128,47548
2009april114,12545
2009mei110,36444
2009juni119,48548
2009juli139,31648
2009augustus129,89050
2009september134,35443
2009oktober125,77741
2009november118,66751
2009december125,09043
2010januari124,57846
2010februari118,64052
2010maart129,47955
2010april111,59252
2010mei107,71345
2010juni118,77951
2010juli129,43553
2010augustus134,01653
2010september130,22547
2010oktober117,78349
2010november118,35047
2010december121,64442
2011januari124,76144
2011februari117,61847
2011maart125,42955
2011april109,55952
2011mei113,73253
2011juni110,95951
2011juli127,26960
2011augustus138,85153
2011september130,23356
2011oktober117,71050
2011november119,76452
2011december123,14249
2012januari132,64253
2012februari118,91052
2012maart123,61653
2012april107,55046
2012mei114,38749
2012juni128,21049
2012juli131,80653
2012augustus137,95753
2012september122,48451
2012oktober123,64352
2012november118,88548
2012december118,77148
2013januari132,07355
2013februari117,98649
2013maart120,14150
2013april107,94047
2013mei111,40346
2013juni106,40155
2013juli132,65160
2013augustus137,85859
2013september132,67058
2013oktober128,72759
2013november121,05849
2013december124,26055
2014januari137,53357
2014februari124,72160
2014maart123,09457
2014april119,53953
2014mei114,95059
2014juni116,78360
2014juli139,68657
2014augustus143,28958
2014september143,35965
2014oktober134,83156
2014november120,60952
2014december144,94457
2015januari139,59459
2015februari131,15061
2015maart137,59558
2015april124,00057
2015mei119,95058
2015juni132,86674
2015juli159,13673
2015augustus156,01774
2015september153,67867
2015oktober145,10262
2015november132,51963
2015december148,02559
2016januari137,90959
2016februari141,90271
2016maart142,91158
2016april137,13360
2016mei133,03060
2016juni141,46066
2016juli160,88770
2016augustus171,43269
2016september162,60970
2016oktober149,74966
2016november149,56665
2016december162,86268
2017januari159,611100
2017februari151,16790
2017maart164,68473
2017april138,47571
2017mei151,30666
2017juni151,15766
2017juli168,98574
2017augustus173,49670
2017september165,27765
2017oktober157,29866
2017november150,31181
2017december153,64680
2018januari153,32276


Als de verhuizingen in het verleden uit het register worden meegenomen in het model, blijkt uit de structurele tijdreeksanalyses, dat de tijdreeks, op basis van het relatieve gebruik van de zoekterm ‘verhuizen’ van Google Trends, geen informatie toevoegt aan het actualiseren van de verhuizingen. De tijdreeks heeft als hulpinformatie dus geen toegevoegde waarde. Daarnaast kan de tijdreeks van Google Trends niet gebruikt worden als real-time proxy voor het monitoren van stijgingen dan wel dalingen in het aantal verhuizingen binnen Nederland. Dit ligt vooral aan de onverklaarbare piek in zoekopdrachten in januari 2017, terwijl er in deze maand geen sterke stijging in de verhuizingen is geweest. Ook de updates van de Google zoekalgoritmen bieden geen logische verklaring voor deze piek. De Google Trends reeks loopt daarnaast soms voor en soms achter op de register reeks van verhuisde personen, er is geen bewijs dat de Google reeks mogelijk voorloopt op de registraties en een zogenaamde ‘time-lag’ in het model moet worden opgenomen om hier rekening mee te houden.

Voor deze analyses heeft het CBS geëxperimenteerd met verschillende andere zoektermen, gerelateerd aan verhuizingen. Deze alternatieve zoektermen, zoals ‘verhuizing’, ‘verhuizingen’, ‘verhuis’, ‘verhuisdoos’ en ‘makelaar’, voegen ook geen informatie toe. Voor andere fenomenen met bijbehorende zoektermen kan deze werkwijze mogelijk wel relevante additionele informatie opleveren. Hierbij kan bijvoorbeeld gedacht worden aan het doen van grote uitgaven zoals het kopen van een auto of het zoeken naar een andere baan.

Hierbij moet de kanttekening worden gemaakt dat Google sinds 2004 vaak zoekalgoritmen heeft aangepast. Hierbij is niet altijd duidelijk op welke manier deze precies zijn aangepast. Het is daarom onduidelijk of deze cijfers over tijd vergelijkbaar zijn. Eerder onderzoek waarschuwt voor het risico dat algoritmen worden aangepast op een manier, die een waargenomen trend in zoekgedrag verandert (Lazer et al., 2014). Zo kan uit de resultaten worden afgeleid dat de Google Trends reeks in de laatste jaren beter overeen komt met de register reeks dan in de beginjaren. In augustus 2008 is bijvoorbeeld de functionaliteit ‘Google Suggest’ toegevoegd aan de zoekmachine. Deze functionaliteit geeft suggesties voor zoekopdrachten door woorden af te maken. Dit zou impact kunnen hebben op het gebruik van zoektermen, maar het is onduidelijk of dat hier het geval is en hoe groot deze invloed is. Google geeft daarnaast geen informatie over het totale aantal zoekopdrachten en het minimum aantal zoekopdrachten (dit is gevoelige bedrijfsinformatie). Het CBS kan op dit moment dus geen goede indicatie geven van de betrouwbaarheid van de tijdreeksen van de zoektermen.

Vanwege de genoemde redenen acht het CBS de registerinformatie voldoende voor het actualiseren van de cijfers over het aantal verhuisde personen. Daarnaast acht het CBS Google Trends informatie over het gebruik van zoektermen in Nederland op dit moment niet bruikbaar voor dit doel.

Privacy

Voor deze analyses zijn open data gecombineerd met registerdata. Er is alleen gebruik gemaakt van geaggregeerde gegevens, waarbij individuele personen niet herleid kunnen worden.

Toepassingen

Het structurele tijdreeksmodel kan gebruikt worden voor het nowcasten van het aantal verhuisde personen. Hiermee kan een actueel voorlopig cijfer naar buiten worden gebracht. In de toekomst kan onderzocht worden of tijdreeksanalyse, met informatie over het gebruik van zoektermen, nuttig is voor bijvoorbeeld het doen van bevolkingsprognoses om zo vroegtijdig veranderingen in trends te signaleren of prognoses te verbeteren.

Referenties

Choi, H. en H. Varian, 2012, Predicting the Present with Google Trends. Economic Record, 88 (s1), blz. 2-9.
Jun, Yoo en Choi, 2018, Ten years of research change using Google Trends: From the perspective of big data utilizations and applications. Technological Forecasting & Social Change, 130, blz. 69-87.
Lazer, D., R. Kennedy, G. King, en A. Vespignani, 2014, The Parable of Google Flu: Traps in Big Data Analysis, Science, 343 (6176), blz. 1203-1205. 
Stephens-Davidowitz, S. en H. Varian, 2015, A Hand-on Guide to Google Data. Google, technical report.  

Feedback

Het CBS wil graag feedback op dit project. Hoe kan beter inzicht worden verkregen in de Google algoritmen? Hoe kan de betrouwbaarheid van deze cijfers worden vastgesteld? Op welke manier kan rekening worden gehouden met veranderend gebruik van zoektermen? En kan Google Trends data wel gebruikt worden voor andere toepassingen?


Je browser wordt niet ondersteund. Upgrade je browser. Je hebt een inconsistente user-agent geleverd bij het oplossen van de uitdaging. Mogelijk heb je browserextensies of -instellingen ingeschakeld om de user-agent te vervalsen en moet je deze uitschakelen om door te gaan. Een deel van Turnstile is per ongeluk in de cache opgeslagen. Wis gelieve je cache. De tijd op de klok klopt niet. Zet je klok op de juiste tijd. Een ongespecificeerde fout heeft zich voorgedaan.