Verhuiskans schatten met machine learning
Het ministerie van Binnenlandse Zaken en Koninkrijksrelaties, de opdrachtgever van het WoON-onderzoek, heeft het CBS gevraagd om onderzoek te doen naar alternatieve manieren om deze gegevens te verzamelen. Het CBS heeft daarom onderzoek gedaan naar de mogelijkheden om de verhuiskans op basis van registerinformatie met machine learning technieken te schatten. Deze experimentele pilot wijst uit dat het mogelijk is om de vraag naar de verhuiswens uit de enquête van het WoON-onderzoek te vervangen door de geschatte verhuiskans uit de registers.
Werkwijze
De kans dat iemand binnen twee jaar verhuist, is voor iedere persoon in de Basisregistratie Personen (BRP) geschat. Dit is gebeurd op basis van registerinformatie van het CBS over de periode 1995 tot en met 2016. Hierbij is zowel gekeken naar persoonskenmerken (bijvoorbeeld leeftijd, geslacht en burgerlijke staat) als naar huishoudenskenmerken (bijvoorbeeld type huishouden en huishoudensinkomen). Daarnaast zijn verhuizingen uit het verleden en regiokenmerken meegenomen in de modellen, alsmede de vraag of men in een huur- of koopwoning woont en of het inkomen is veranderd. Tevens zijn levensloopgebeurtenissen uit de periode 1995 tot en met 2016 toegevoegd, zoals het krijgen van kinderen, trouwen, samenwonen of scheiden.
Niet alleen de verandering zelf is meegenomen in de modellen, maar ook de vraag hoe lang geleden deze verandering heeft plaatsgevonden. Tot slot is gekeken hoeveel van dergelijke veranderingen hebben plaatsgevonden. Iemand kan bijvoorbeeld gescheiden en daarna hertrouwd zijn. Additionele kenmerken die verhuismotieven van werkenden kunnen beïnvloeden, namelijk reisafstanden en -tijden naar het werk, alsmede het type arbeidscontract, zijn niet meegenomen. Hetzelfde geldt voor woningkenmerken.
Modelontwikkeling
De modellen zijn geoptimaliseerd en getraind om de relatie tussen al deze kenmerken en het (bekende) daadwerkelijke verhuisgedrag in 2013 en 2014 zo goed mogelijk in kaart te brengen. Vervolgens zijn de modellen toegepast op de Nederlandse bevolking, zoals die geregistreerd was op 1 januari 2015. Aan de hand van iemands registerinformatie schatten de modellen de kans dat deze persoon binnen twee jaar verhuist. Omdat we weten wie in 2015 en 2016 daadwerkelijk verhuisd zijn, kunnen we meten hoe goed de modelschattingen de werkelijkheid benaderen.
Er zijn een aantal schattingsmethoden getest om te bepalen wat de beste methode is om verhuiskansen te schatten. Bij deze test is onder meer gekeken naar de bruikbaarheid van logistische regressie, lasso regressie, ridge regressie, alsmede van random forest- en survival modellen. Deze methoden hebben als voordeel dat zij veel kenmerken tegelijkertijd kunnen meenemen en er niet vooraf een beperkt aantal kenmerken geselecteerd hoeft te worden. Hierbij kwam de ridge regressie met interactie-effecten als beste model uit de bus. Dit model schat de kans op verhuizing even goed in als de verhuiskans op basis van de vraag naar de verhuiswens in het WoON-onderzoek. Van de groep mensen die volgens het gekozen model zou gaan verhuizen, is 39 procent ook daadwerkelijk verhuisd. Als de groep mensen die daadwerkelijk is verhuisd als vertrekpunt wordt genomen, blijkt dat 60 procent met behulp van het model correct is geclassificeerd als verhuizer. Van de groep mensen die niet is verhuisd, classificeert het model 81 procent correct als blijver.
In totaal zijn 32 kenmerken en interacties tussen deze kenmerken opgenomen in het model. De belangrijkste kenmerken om de verhuiskans te schatten, zijn: 1) iemands leeftijd, 2) of iemand eigenaar of huurder is, ook in combinatie met iemands positie in het huishouden (bijvoorbeeld alleenstaande of lid van paar of thuiswonend kind), 3) de tijd die is verstreken sinds de laatste verandering in het huishouden (bijvoorbeeld het krijgen van kinderen, samenwonen of scheiden) en 4) het aantal verhuizingen in het verleden.
Resultaten
De met behulp van het model berekende gemiddelde verhuiskans per persoon in 2015 en 2016 is 0,31 met een standaarddeviatie van 0,17. Deze kans kan tussen de 0 en 1 liggen en kan worden omgezet naar een percentage tussen de 0 en 100 procent. De gemiddelde kans kan worden opgevat als een kans van 31 procent per persoon om te verhuizen binnen twee jaar. De meeste personen hebben volgens het model een verhuiskans tussen de 20 en 50 procent en een deel hiervan zal waarschijnlijk verhuizen. Het onderzoek leverde een groep op van ruim 373 duizend personen met een kans van meer dan 90 procent. Van deze groep hebben iets meer dan 30 duizend mensen een kans van 100 procent toegekend gekregen. Volgens het onderzoek is het zeer waarschijnlijk dat deze groep mensen binnen afzienbare tijd zal verhuizen. Daarentegen hebben bijna 2,4 miljoen personen volgens het model een kans van 0 en is de kans zeer klein dat zij zouden verhuizen. In werkelijkheid verhuisden in deze periode in totaal bijna 3,5 miljoen mensen.
Een uitsplitsing van de verhuiskansen naar bevolkingsgroepen levert interessante inzichten op. Zo heeft een eenpersoonshuishouden een gemiddelde kans van 26 procent (relatief laagste kans per type huishouden) en een niet-gehuwd paar met kinderen een kans van 35 procent (relatief hoogste kans). Daarnaast hebben thuiswonende kinderen met een gemiddelde kans van 39 procent een relatief hoge verhuiskans ten opzichte van andere personen in het huishouden. Hieronder vallen zowel jonge, al dan niet schoolgaande, kinderen, als thuiswonende studenten en werkende starters. Een ouder in een eenouderhuishouden heeft met 25 procent de laagste verhuiskans.
Starters op de woningmarkt hebben gemiddeld een kans van 35 procent om binnen twee jaar te verhuizen, terwijl doorstromers in een huur- of koopwoning een verhuiskans van 28 procent hebben. In het interactieve dashboard kunt u zelf de verdeling van verhuiskansen voor verschillende bevolkingsgroepen bekijken.