Door schatting actueler beeld verhuizingen mogelijk
Het Center for Big Data Statistics (CBDS) van het CBS heeft met behulp van tijdreeksanalyses onderzocht of het mogelijk is, om op basis van register- en big data bronnen, een actuelere indicator voor verhuizingen te ontwikkelen. Eerder onderzoek heeft aangetoond dat gegevens van zoekgedrag op Google mogelijk gebruikt kunnen worden als snelle indicatoren om trends te monitoren. Hetzelfde onderzoek heeft ook aangetoond dat deze zoekgegevens specifiek voor de woningmarkt interessant kunnen zijn (Choi en Varian, 2012; Jun, Yoo en Choi, 2018; Stephens-Davidowitz en Varian, 2015). Uit de resultaten van het CBS-onderzoek blijkt dat zoektermen in Google, in dit geval met name de zoekterm ‘verhuizen’, wel hetzelfde patroon over tijd laten zien als de verhuizingen, maar niet de kwaliteit van het real-time cijfer verbeteren (‘nowcasten’). Informatie over het aantal verhuisde personen in het verleden biedt wel voldoende aanknopingspunten om dit aantal een maand vooruit te schatten. Op deze wijze kan alsnog een actueel cijfer verkregen worden. Het CBS heeft dit nog niet eerder gedaan.
Werkwijze
Dit onderzoek is in drie stappen uitgevoerd: 1) exploratie van de data in Google Correlate, 2) het downloaden van tijdreeksen van zoektermen met Google Trends en 3) vervolgens is met structurele tijdreeksanalyse onderzocht of deze indicatoren iets toevoegen aan de huidige informatie over verhuisde personen in het register.
- 1) In de eerste stap is de tijdreeks met de maandelijkse verhuizingen uit het register ingelezen in Google Correlate. Daarna zijn alle zoektermen, die in Nederland werden gebruikt in dezelfde tijdsperiode, vergeleken met deze tijdreeks. Google heeft geen informatie over de aard van de cijfers en ‘weet’ dus niet dat de reeks het aantal verhuisde personen in Nederland betreft. Er is bekeken of er vergelijkbare patronen over de tijd waarneembaar zijn in zoektermen. Ook is bekeken of deze termen gerelateerd zijn aan verhuizingen. De zoektermen liepen hierbij tot maximaal een jaar voor op de registerinformatie. Zoals te verwachten valt, bleek hierbij vooral de zoekterm ‘verhuizen’ een vergelijkbare trend te laten zien. Een andere zoekterm die in enige mate vergelijkbaar was over tijd, is de zoekterm ‘verhuisdozen’.
- 2) In stap twee is met Google Trends een aantal tijdreeksen met zoektermen gedownload en opgeslagen, zoals ‘verhuizen’ en ‘verhuisdozen’. Het gaat hierbij om het relatieve gebruik van een specifieke zoekterm ten opzichte van het totale aantal zoekopdrachten in Nederland. Hiervoor wordt door Google een steekproef van alle zoekopdrachten gebruikt. Om de robuustheid van de resultaten, op basis van deze steekproeven, in te kunnen schatten, heeft het CBS een aantal keer opnieuw reeksen met dezelfde zoektermen gedownload in dezelfde periode. Deze reeksen weken niet sterk van elkaar af, de gemiddelde reeks is vervolgens gebruikt als inputdata voor de tijdreeksanalyses.
- 3) Tenslotte zijn de Google Trends tijdreeksen van verschillende zoektermen gebruikt als inputdata in structurele tijdreeksmodellen. Vervolgens is onderzocht of de zoektermen dezelfde trends over tijd laten zien als het daadwerkelijke aantal verhuizingen uit het register (zogenaamde ‘coïntegratie’). Hierbij is gecorrigeerd voor seizoenseffecten. Ook is onderzocht of deze trends voorlopen op de verhuizingen. Met de beschikbare registerinformatie over de verhuisde personen van een aantal maanden daarvoor, is het tijdreeksmodel in staat om een periode vooruit te schatten, in dit geval een maand. Door de Google Trends tijdreeks mee te nemen in het model, kan onderzocht worden of deze tijdreeks de schatting op basis van het aantal verhuisde personen in het verleden verbetert.
Resultaten
Uit de eerste analyse met Google Correlate blijkt dat vooral de zoekterm ‘verhuizen’ over tijd correleert met de tijdreeks van verhuizingen in het register. Deze term lijkt logischerwijs ook het meest van toepassing. Het patroon in het gebruik van de zoekterm ‘verhuizen’ laat dus dezelfde trend zien als het aantal verhuisde personen. De verklaring hiervoor is dat mensen, voordat zij gaan verhuizen, eerst via Google informatie over verhuizen opzoeken op Internet, zoals ‘tips over verhuizen’. Google zou daarom kunnen dienen als een ‘early warning system’ om veranderingen in verhuisgedrag vroegtijdig op te pikken. In dit geval is het zeer waarschijnlijk dat degenen die de zoekterm ‘verhuizen’ intypen in Google, geïnteresseerd zijn in verhuizen en mogelijk in de toekomst gaan verhuizen.
Jaar | Opbrengst milieubelastingen en -heffingen | Verhuisde personen (x 1 000, procent) | Gebruik zoekterm 'verhuizen' (x 1 000, procent) |
---|---|---|---|
2004 | januari | 131,226 | 79 |
2004 | februari | 120,876 | 60 |
2004 | maart | 136,273 | 57 |
2004 | april | 123,807 | 64 |
2004 | mei | 115,677 | 54 |
2004 | juni | 134,370 | 72 |
2004 | juli | 145,155 | 98 |
2004 | augustus | 140,094 | 48 |
2004 | september | 139,937 | 71 |
2004 | oktober | 130,605 | 75 |
2004 | november | 132,533 | 58 |
2004 | december | 137,694 | 51 |
2005 | januari | 131,742 | 69 |
2005 | februari | 123,006 | 55 |
2005 | maart | 133,654 | 64 |
2005 | april | 131,053 | 57 |
2005 | mei | 119,995 | 71 |
2005 | juni | 134,044 | 72 |
2005 | juli | 144,633 | 61 |
2005 | augustus | 154,769 | 70 |
2005 | september | 154,074 | 64 |
2005 | oktober | 143,819 | 60 |
2005 | november | 137,607 | 67 |
2005 | december | 143,179 | 70 |
2006 | januari | 145,730 | 62 |
2006 | februari | 131,851 | 58 |
2006 | maart | 148,044 | 61 |
2006 | april | 121,788 | 65 |
2006 | mei | 132,290 | 58 |
2006 | juni | 136,823 | 68 |
2006 | juli | 144,085 | 77 |
2006 | augustus | 155,356 | 70 |
2006 | september | 145,048 | 59 |
2006 | oktober | 141,470 | 57 |
2006 | november | 142,441 | 62 |
2006 | december | 133,193 | 50 |
2007 | januari | 145,654 | 62 |
2007 | februari | 128,219 | 62 |
2007 | maart | 140,177 | 57 |
2007 | april | 118,505 | 53 |
2007 | mei | 131,882 | 73 |
2007 | juni | 134,759 | 75 |
2007 | juli | 149,214 | 67 |
2007 | augustus | 152,665 | 65 |
2007 | september | 134,102 | 61 |
2007 | oktober | 142,656 | 56 |
2007 | november | 137,390 | 61 |
2007 | december | 123,957 | 47 |
2008 | januari | 150,835 | 54 |
2008 | februari | 130,931 | 58 |
2008 | maart | 128,084 | 55 |
2008 | april | 132,793 | 55 |
2008 | mei | 120,613 | 65 |
2008 | juni | 129,630 | 66 |
2008 | juli | 151,001 | 65 |
2008 | augustus | 143,260 | 57 |
2008 | september | 145,107 | 57 |
2008 | oktober | 142,426 | 47 |
2008 | november | 123,497 | 43 |
2008 | december | 134,214 | 44 |
2009 | januari | 132,773 | 40 |
2009 | februari | 119,504 | 47 |
2009 | maart | 128,475 | 48 |
2009 | april | 114,125 | 45 |
2009 | mei | 110,364 | 44 |
2009 | juni | 119,485 | 48 |
2009 | juli | 139,316 | 48 |
2009 | augustus | 129,890 | 50 |
2009 | september | 134,354 | 43 |
2009 | oktober | 125,777 | 41 |
2009 | november | 118,667 | 51 |
2009 | december | 125,090 | 43 |
2010 | januari | 124,578 | 46 |
2010 | februari | 118,640 | 52 |
2010 | maart | 129,479 | 55 |
2010 | april | 111,592 | 52 |
2010 | mei | 107,713 | 45 |
2010 | juni | 118,779 | 51 |
2010 | juli | 129,435 | 53 |
2010 | augustus | 134,016 | 53 |
2010 | september | 130,225 | 47 |
2010 | oktober | 117,783 | 49 |
2010 | november | 118,350 | 47 |
2010 | december | 121,644 | 42 |
2011 | januari | 124,761 | 44 |
2011 | februari | 117,618 | 47 |
2011 | maart | 125,429 | 55 |
2011 | april | 109,559 | 52 |
2011 | mei | 113,732 | 53 |
2011 | juni | 110,959 | 51 |
2011 | juli | 127,269 | 60 |
2011 | augustus | 138,851 | 53 |
2011 | september | 130,233 | 56 |
2011 | oktober | 117,710 | 50 |
2011 | november | 119,764 | 52 |
2011 | december | 123,142 | 49 |
2012 | januari | 132,642 | 53 |
2012 | februari | 118,910 | 52 |
2012 | maart | 123,616 | 53 |
2012 | april | 107,550 | 46 |
2012 | mei | 114,387 | 49 |
2012 | juni | 128,210 | 49 |
2012 | juli | 131,806 | 53 |
2012 | augustus | 137,957 | 53 |
2012 | september | 122,484 | 51 |
2012 | oktober | 123,643 | 52 |
2012 | november | 118,885 | 48 |
2012 | december | 118,771 | 48 |
2013 | januari | 132,073 | 55 |
2013 | februari | 117,986 | 49 |
2013 | maart | 120,141 | 50 |
2013 | april | 107,940 | 47 |
2013 | mei | 111,403 | 46 |
2013 | juni | 106,401 | 55 |
2013 | juli | 132,651 | 60 |
2013 | augustus | 137,858 | 59 |
2013 | september | 132,670 | 58 |
2013 | oktober | 128,727 | 59 |
2013 | november | 121,058 | 49 |
2013 | december | 124,260 | 55 |
2014 | januari | 137,533 | 57 |
2014 | februari | 124,721 | 60 |
2014 | maart | 123,094 | 57 |
2014 | april | 119,539 | 53 |
2014 | mei | 114,950 | 59 |
2014 | juni | 116,783 | 60 |
2014 | juli | 139,686 | 57 |
2014 | augustus | 143,289 | 58 |
2014 | september | 143,359 | 65 |
2014 | oktober | 134,831 | 56 |
2014 | november | 120,609 | 52 |
2014 | december | 144,944 | 57 |
2015 | januari | 139,594 | 59 |
2015 | februari | 131,150 | 61 |
2015 | maart | 137,595 | 58 |
2015 | april | 124,000 | 57 |
2015 | mei | 119,950 | 58 |
2015 | juni | 132,866 | 74 |
2015 | juli | 159,136 | 73 |
2015 | augustus | 156,017 | 74 |
2015 | september | 153,678 | 67 |
2015 | oktober | 145,102 | 62 |
2015 | november | 132,519 | 63 |
2015 | december | 148,025 | 59 |
2016 | januari | 137,909 | 59 |
2016 | februari | 141,902 | 71 |
2016 | maart | 142,911 | 58 |
2016 | april | 137,133 | 60 |
2016 | mei | 133,030 | 60 |
2016 | juni | 141,460 | 66 |
2016 | juli | 160,887 | 70 |
2016 | augustus | 171,432 | 69 |
2016 | september | 162,609 | 70 |
2016 | oktober | 149,749 | 66 |
2016 | november | 149,566 | 65 |
2016 | december | 162,862 | 68 |
2017 | januari | 159,611 | 100 |
2017 | februari | 151,167 | 90 |
2017 | maart | 164,684 | 73 |
2017 | april | 138,475 | 71 |
2017 | mei | 151,306 | 66 |
2017 | juni | 151,157 | 66 |
2017 | juli | 168,985 | 74 |
2017 | augustus | 173,496 | 70 |
2017 | september | 165,277 | 65 |
2017 | oktober | 157,298 | 66 |
2017 | november | 150,311 | 81 |
2017 | december | 153,646 | 80 |
2018 | januari | 153,322 | 76 |
Als de verhuizingen in het verleden uit het register worden meegenomen in het model, blijkt uit de structurele tijdreeksanalyses, dat de tijdreeks, op basis van het relatieve gebruik van de zoekterm ‘verhuizen’ van Google Trends, geen informatie toevoegt aan het actualiseren van de verhuizingen. De tijdreeks heeft als hulpinformatie dus geen toegevoegde waarde. Daarnaast kan de tijdreeks van Google Trends niet gebruikt worden als real-time proxy voor het monitoren van stijgingen dan wel dalingen in het aantal verhuizingen binnen Nederland. Dit ligt vooral aan de onverklaarbare piek in zoekopdrachten in januari 2017, terwijl er in deze maand geen sterke stijging in de verhuizingen is geweest. Ook de updates van de Google zoekalgoritmen bieden geen logische verklaring voor deze piek. De Google Trends reeks loopt daarnaast soms voor en soms achter op de register reeks van verhuisde personen, er is geen bewijs dat de Google reeks mogelijk voorloopt op de registraties en een zogenaamde ‘time-lag’ in het model moet worden opgenomen om hier rekening mee te houden.
Voor deze analyses heeft het CBS geëxperimenteerd met verschillende andere zoektermen, gerelateerd aan verhuizingen. Deze alternatieve zoektermen, zoals ‘verhuizing’, ‘verhuizingen’, ‘verhuis’, ‘verhuisdoos’ en ‘makelaar’, voegen ook geen informatie toe. Voor andere fenomenen met bijbehorende zoektermen kan deze werkwijze mogelijk wel relevante additionele informatie opleveren. Hierbij kan bijvoorbeeld gedacht worden aan het doen van grote uitgaven zoals het kopen van een auto of het zoeken naar een andere baan.
Hierbij moet de kanttekening worden gemaakt dat Google sinds 2004 vaak zoekalgoritmen heeft aangepast. Hierbij is niet altijd duidelijk op welke manier deze precies zijn aangepast. Het is daarom onduidelijk of deze cijfers over tijd vergelijkbaar zijn. Eerder onderzoek waarschuwt voor het risico dat algoritmen worden aangepast op een manier, die een waargenomen trend in zoekgedrag verandert (Lazer et al., 2014). Zo kan uit de resultaten worden afgeleid dat de Google Trends reeks in de laatste jaren beter overeen komt met de register reeks dan in de beginjaren. In augustus 2008 is bijvoorbeeld de functionaliteit ‘Google Suggest’ toegevoegd aan de zoekmachine. Deze functionaliteit geeft suggesties voor zoekopdrachten door woorden af te maken. Dit zou impact kunnen hebben op het gebruik van zoektermen, maar het is onduidelijk of dat hier het geval is en hoe groot deze invloed is. Google geeft daarnaast geen informatie over het totale aantal zoekopdrachten en het minimum aantal zoekopdrachten (dit is gevoelige bedrijfsinformatie). Het CBS kan op dit moment dus geen goede indicatie geven van de betrouwbaarheid van de tijdreeksen van de zoektermen.
Vanwege de genoemde redenen acht het CBS de registerinformatie voldoende voor het actualiseren van de cijfers over het aantal verhuisde personen. Daarnaast acht het CBS Google Trends informatie over het gebruik van zoektermen in Nederland op dit moment niet bruikbaar voor dit doel.
Privacy
Voor deze analyses zijn open data gecombineerd met registerdata. Er is alleen gebruik gemaakt van geaggregeerde gegevens, waarbij individuele personen niet herleid kunnen worden.Toepassingen
Het structurele tijdreeksmodel kan gebruikt worden voor het nowcasten van het aantal verhuisde personen. Hiermee kan een actueel voorlopig cijfer naar buiten worden gebracht. In de toekomst kan onderzocht worden of tijdreeksanalyse, met informatie over het gebruik van zoektermen, nuttig is voor bijvoorbeeld het doen van bevolkingsprognoses om zo vroegtijdig veranderingen in trends te signaleren of prognoses te verbeteren.
Referenties
Choi, H. en H. Varian, 2012, Predicting the Present with Google Trends. Economic Record, 88 (s1), blz. 2-9.
Jun, Yoo en Choi, 2018, Ten years of research change using Google Trends: From the perspective of big data utilizations and applications. Technological Forecasting & Social Change, 130, blz. 69-87.
Lazer, D., R. Kennedy, G. King, en A. Vespignani, 2014, The Parable of Google Flu: Traps in Big Data Analysis, Science, 343 (6176), blz. 1203-1205.
Stephens-Davidowitz, S. en H. Varian, 2015, A Hand-on Guide to Google Data. Google, technical report.
Feedback
Het CBS wil graag feedback op dit project. Hoe kan beter inzicht worden verkregen in de Google algoritmen? Hoe kan de betrouwbaarheid van deze cijfers worden vastgesteld? Op welke manier kan rekening worden gehouden met veranderend gebruik van zoektermen? En kan Google Trends data wel gebruikt worden voor andere toepassingen?