3. Methodebeschrijving in 9 stappen
3.1. Verwerkingsstappen die plaatsvinden bij het telefoonbedrijf
3.1.1 Stap 1 Beschrijving van brondata die al bij het telefoonbedrijf aanwezig zijn en pseudonimisering
Brondata
De brondata voor de methode bestaan uit signalling data. Dat zijn data over gebeurtenissen (hierna: events) die plaatsvinden tussen het toestel en het netwerk die worden vastgelegd in de telefooncentrale van het telecombedrijf. De signalling data worden gegenereerd doordat telefoons contact maken met het mobiele telefonienetwerk, bijvoorbeeld vanwege een telefoongesprek, een dataverbinding die wordt gestart, of een sms die wordt ontvangen. Dit wordt geregistreerd bij de telefooncentrale en voor maximaal 6 maanden bewaard. Het gaat niet om de inhoud van de communicatie maar het tijdstip, de duur en de cell waaraan dat betreffende event wordt toegekend. Een cell is een onderdeel van een antenne; een antenne bestrijkt een gebied dat bestaat uit één of enkele cellen.
Er zijn diverse typen van event-gebaseerde brondata, afhankelijk van welke gebeurtenissen zijn opgeslagen. Naast signalling data zijn dat bijvoorbeeld Event Data Records (EDR) en Call Detail Records (CDR). Signalling data bevatten de meeste gebeurtenissen. Vaak worden deze data apart gegenereerd voor 2G, 3G, 4G, en 5G netwerken. Dat maakt allemaal voor de methode niet uit. Het gaat er om dat er per toestel voldoende van dergelijke datapunten (dus events die worden vastgelegd) beschikbaar zijn. Hoe meer events er zijn hoe beter dat is voor de schattingen. Tabel 3.1 is geleend uit publicatie [2] en laat de verschillen in aantallen events zien tussen verschillende type data.
Van de signalling data worden uitsluitend een dubbel gepseudonimiseerd ID, de tijd en het antenne-ID (nummer van de gebruikte antenne) van elke actieve verbinding gebruikt als brondata voor de methode. Daarbij komen aansluitend statische referentiedata als het cellplan (waar de antennes staan) bij.
Overigens kan de methode ook overweg met Timing Advance data als speciale vorm van een event, maar deze vallen uitdrukkelijk buiten de pilot. Ook speciale locatiebepalingstechnieken zoals deze voor 4G en 5G netwerken door netwerkleveranciers worden aangeboden vallen buiten de scope van deze methode (en worden dus niet gebruikt).
Opslag en pseudonimisering van de brondata
De methode begint bij het verwerken en opslaan van de signalling data met betrekking tot abonnees en gebruikers van de communicatiediensten van het telefoonbedrijf. Dit is een bestaand proces bij het telefoonbedrijf. Alle vervolgstappen zijn hiervan afgeleid. Zoals hierboven reeds is aangegeven, is de wettelijke bewaartermijn van de signalling data 6 maanden.
Signalling data worden gespeudonimiseerd en voorzien van een identificatienummer. Dit is een bestaande interne beveiligingsprocedure. Het betreft een gebruikelijke interne handeling in dataverwerking die ook door andere dataverwerkers in andere sectoren dan telefonie gebruikt wordt om directe herleidbaarheid van personen binnen de organisatie tegen te gaan. Deze pseudonimisering zorgt ervoor dat alle direct herleidbare informatie uit de data wordt gehaald (telefoonnummer, IMSI etc.). De medewerkers van het telecombedrijf hebben getekend voor geheimhouding en mogen geen activiteiten ontplooien die leiden tot onthulling.
3.1.2 Stap 2 Tweede pseudonimisering
Als tweede stap pseudonimiseert het telefoonbedrijf de signallingdata opnieuw, waarbij de sleutels steeds veranderen en ook niet bewaard kunnen worden. Iedere 30 dagen wordt dit proces voor alle gepseudonimiseerde nummers herhaald. Dit gaat onder andere groepsonthulling (door onderzoekers zelf binnen de operator) tegen van groepen personen (vaak VIPS met beveiliging) waarvan de agenda publiek bekend is. Veel belangrijker is nog dat dit proces onomkeerbaar is. De medewerkers van het telecombedrijf die de data verwerken kunnen niet terug naar de oorspronkelijke data.
Verderop in het proces worden aanzienlijk meer waarborgen voor de privacy ingebouwd. Toch is ook in deze processtap al gekeken naar risico’s van herleidbaarheid van de data binnen het telefoonbedrijf. Gekeken is naar de risico’s op herleiding van de gespeudonimiseerde gegevens door de onderzoekers zelf. We zien twee risico’s. Het eerste risico bestaat uit het kraken van de sleutel. Het tweede betreft het in het advies van de Article 29 Working Party (hierna: WP29) aangegeven risico op onthulling op basis van signalling data.
Het kraken van de sleutel is lastig en kost veel rekenkracht. Het herleiden van individuen door het schatten van de locatie uit de signalling data zoals aangegeven in het Europese advies van de WP29 is ook zeer moeilijk geworden doordat er een tweede pseudonimisering heeft plaatsgevonden waarvan geen sleutel beschikbaar is. In de literatuur wordt genoemd dat onthulling in dit geval gemakkelijk mogelijk is als men enkele locaties van een persoon kent. Die theorie is echter niet zomaar toe te passen op deze praktijk.
Stel dat iemand moedwillig een persoon (toestel) – tegen de regels in – wil onthullen op basis van geschatte geolocaties uit signalling data.
- Ten eerste moet een sortering worden gedaan uit een dataset van 40 tot 200 miljard records per maand. Dat is zeer lastig, immers het IMSI of een andere variabele is niet bekend.
- Om die sortering te doen op gepseudonimiseerde data binnen de operator moet extra informatie worden verzameld uit een agenda van iemand met minstens 4 nauwkeurige locaties per dag en daarbij ook het tijdstip. Een groot deel van de route moet vooraf bekend zijn om die herleiding te kunnen uitvoeren. Bekendheid van de werkplaats en woonplaats alleen is niet voldoende. In totaal zijn 4 locaties nodig om een slagingspercentage van 95% te bereiken.
- Vervolgens moeten de bekende punten (plaats en tijd) worden vertaald naar een route van cellen en antennes die terug te vinden zijn in het bronbestand. Er zullen fout positieve matches zijn die leiden tot de verkeerde antenne en dus ook tot het verkeerde bijbehorende versleutelde en daarmee gepseudonimiseerde IMSI. Dat maakt het proces behoorlijk arbeidsintensief. Bovendien zal er extra software geschreven moeten worden. Dit is niet mogelijk met de beschikbare algoritmen vanuit het proces. In het hele proces wordt nergens gerekend met “routeinformatie”. Er zal dus een illegaal geautomatiseerd proces moeten worden ingericht binnen de muren van het telefoonbedrijf om de route van een individu samen te stellen. Die route is niet vastgesteld op basis van precieze punten zoals dat bij GPS data kan, maar gebieden die verschillen per locatie. Deze exercitie is vele malen complexer en moeilijker dan in een “gewone” dataset zoals die van een survey.
Onze inschatting is dat een poging tot herleiding meer dan 4-5 dagen werk kost en opvallend veel rekenkracht binnen de IT-voorzieningen kost. Zeer weinig medewerkers van het telefoonbedrijf hebben toegang tot de originele signalling data. Zij hebben allen een geheimhoudingsverklaring getekend. Daarnaast is een samenspanning van deze medewerkers, de analisten bij het telefoonbedrijf en de medewerkers van de IT-security nodig. Immers, binnen de IT-voorziening van het telefoonbedrijf’s zijn er beveiligingen die de inzet van een grote hoeveelheid rekenkracht signaleren en er is sprake van logging van handelingen van medewerkers.
Uiteraard is het inherente restrisico van moedwillige re-identificatie zeker niet nul is, maar deze is vele malen moeilijker dan in een reguliere dataset zoals belastingdienstgegevens of medische dossierinformatie. De moeite die onthulling kost in combinatie met de maatregelen die zijn genomen, leidt dan ook tot een zeer klein risico. Herleiding in andere meer traditionele datasets is eenvoudiger en dat komt veelal door de combinatie met unieke variabelen als leeftijd of geslacht. Deze ontbreken hier geheel.
3.1.3 Stap 3 Locatieschattingen maken (module MobLoc)
In het onderdeel MobLoc wordt de locatie geschat. Die locatie wordt aan de hand van het dekkingsgebied van een cel geschat met een Bayesiaans model. Om de geaggregeerde schattingen zo representatief mogelijk te krijgen worden de toestellen herverdeeld en verspreid. Er is dus geen sprake van een exacte bepaling zoals bij GPS-data, maar een schatting waarbij met kansen gerekend wordt. Het doel van deze stap is om een schatting te maken van aantallen toestellen per gemeente op basis van de gespeudonimiseerde signalling data. Hierbij wordt ook gebruik gemaakt van de antennekaart (reference data) en kan er publiek beschikbare hulpinformatie worden voorgesteld door het CBS om uitkomsten te verbeteren, zoals landgebruik en hoogtekaarten. Dit is statische informatie.
Het algoritme dat gebruikt wordt voor de locatieschatting werkt als volgt. Het land wordt opgedeeld in tegels van 100x100 meter. Dit zijn vakjes die (vergelijkbaar met pixels) goed te vertalen zijn naar de vloeiende grenzen van gemeenten.1) In het geval een toestel verbinding maakt met een cell worden voor de dichtbij gelegen tegels de kansen geschat dat het toestel zich in de desbetreffende tegel bevindt. Hierbij wordt gebruik gemaakt van data uit de antennekaart, zoals locatie van de antennes/cellen en ook de fysieke eigenschappen zoals hoogte en richtingshoek. Deze kansen worden vermenigvuldigd met prior kansen. Dit zijn genormaliseerde schattingen van het aantal toestellen per tegel die alleen gemaakt zijn op basis van hulpinformatie, zoals stedelijkheidsgraad. De geschatte kansen worden posterior kansen genoemd.
De cell-ID’s uit de data worden gekoppeld aan deze posterior kansen, zodat per gemeente een schatting wordt gemaakt van het aantal toestellen. De locatie is dus niet heel precies: er wordt in deze stap statistische ruis toegevoegd. Een bijkomend effect van deze methode is dat aantallen toestellen worden “verspreid” in de ruimte en daarmee worden herverdeeld. Ook in de tijd is er sprake van een verspreiding. Het model werkt in een batch van een uur. Als er maar één meting is in een specifiek uur dan worden deze gegevens geëxtrapoleerd over andere minuten binnen dat uur. Er vindt geen spreiding plaats tussen de uren als tijdseenheid. De verspreiding in ruimte en tijd veroorzaakt een extra ruis die elk uur verandert van samenstelling. Dit betekent dat de relatie tussen de tellingen per gebied en de tellingen per mast een systeem van lineaire vergelijkingen is, met minder vergelijkingen dan onbekenden en daarom niet uniek inverteerbaar.
We illustreren dit met een voorbeeld. Stel dat we voor een toestel met nummer 1 in het uur 8:00–9.00 over gemeenten A, B en C de respectievelijke kansen 0,5, 0,3 en 0,2 verkrijgen. We achtten de kans dus groter dat het toestel zich in gemeente A bevond, maar laten deze kansverdeling zoals hij is – wij kennen hem niet definitief toe aan A. Stel dat wij verder voor een ander toestel 2 in hetzelfde uur een kansverdeling over gemeente A, B en C deze op 0, 1, en 0 schatten. Oftewel, wij vermoeden dat het toestel zich in dat uur volledig in gemeente B bevond. Dan tellen wij de kansverdelingen voor beide toestellen op: 0,5, 1,3 en 0,2. Wij schatten dus dat zich 1,3 toestellen in gemeente B bevonden.
3.1.4 Stap 4 Het toevoegen van de woongemeente (module MobProp(erties)
In deze stap wordt de woongemeente afgeleid. Een indicatie voor een woonverblijf is in deze pilot dat een telefoon het vaakst in de buurt is van een bepaalde antenne. Ook dit betreft geen pinpoint en maakt gebruik van informatie uit Mobloc, een schatting van de locatie. De “woongemeente” –tellingen worden tenslotte ook geschat. Ieder toestel krijgt een zogenaamde woonmast toegewezen. Dit is in het verwerkingsproces de zendmast waarmee het toestel het langst verbonden is geweest gedurende de observatieperiode. De massa van het toestel wordt vervolgens verspreid over de gemeenten die in het bereik van de woonmast liggen. Over het algemeen wordt dus aan een toestel niet één enkele woongemeente toegekend – het gaat om een kansverdeling over één of meer gemeenten.
3.1.5 Stap 5 Automatische dataverwerking en indikking (module MobCube)
Indikking van de dataset vindt plaats door een selectie te maken van een gebied en een tijdsperiode en in MobCube te verwerken. Deze laatste stap is onomkeerbaar omdat er zeer veel informatie vernietigd wordt (80-90%). Na deze stap is er alleen nog sprake van een statistische geaggregeerde telling. In feite is één geschat toestel al een vorm van een aggregaat.
De data uit MobLoc en MobProp worden geautomatiseerd verwerkt en geaggregeerd tot statistische informatie. Feitelijk komt er een telling tot stand. Een voorbeeld van een dergelijke telling is beschreven in figuur 3. Als een persoon, woonachtig is in Maastricht en om 12 uur in Utrecht is, dan wordt deze geteld in de tabelcel (kolom Woonplaats) Maastricht en (rij) Utrecht. Als dezelfde persoon om 11 uur in Eindhoven is, dan wordt deze geteld in de (kolom Woonplaats) Maastricht en de (rij) Eindhoven. Er is geen koppeling tussen de verschillende uurtellingen en er kan dus met deze uitkomsten geen route (Maastricht-Eindhoven-Utrecht) berekend worden.
3.1.6 Stap 6 Outputcontrole op geanonimiseerde data en verzending (module MobSafe)
Na MobCube zitten er vrijwel geen herleidbare gegevens meer in de dataset. Wel kan het voorkomen dat sommige tabelcellen zeer kleine aantallen tellingen bevatten, bijvoorbeeld het aantal personen dat in een kleine gemeente woont en aanwezig is in een andere gemeente die niet in de buurt ligt. Om elk risico op onthulling te vermijden vindt er daarom een definitieve statistische beveiliging in MobSafe plaats waarbij alle output met een celvulling lager dan 15 toestellen definitief wordt verwijderd. Deze tabelcellen blijven leeg.
In deze stap gaat dus ook weer informatie verloren. Het telefoonbedrijf doet uiteindelijk ook handmatig een controle om te zien of het proces goed is uitgevoerd. De uitkomst van dit proces bij het telefoonbedrijf betreft geaggregeerde en geanonimiseerde informatie die aan het CBS wordt geleverd. Qua format is dit dezelfde tabel als in figuur 3 is beschreven. Alleen is door de N>15 regel wederom een groot deel van de data vernietigd. Dat is ook in deze tabel meer dan 80% van de cellen het geval (zie ook hoofdstuk 4). Deze krijgen een missing value ( een puntje of een streepje). Het resultaat van de in stap 1 t/m 6 toegepaste techniek is permanent. Door alle genomen maatregelen bestaat geen mogelijkheid tot deduceerbaarheid. Ook koppeling met externe datasets zou niet tot onthulling kunnen leiden. Het herleiden van de geaggregeerde en geanonimiseerde informatie tot individuele persoonsgegevens uit deze tabel is dan ook onmogelijk.
De gecontroleerde geanonimiseerde geaggregeerde data gaan over een beveiligde verbinding naar het CBS. De informatie wordt als uiterst bedrijfsgevoelig behandeld, omdat deze op gemeenteniveau inzicht geeft in de verdeling van het aantal abonnees van een individueel telefoonbedrijf over het land. De informatie wordt daarom versleuteld alvorens deze te verzenden.
3.2 Verdere verwerking bij het CBS
3.2.1 Stap 7 Correctie op data (MobCal(ibration)
Bij het CBS vindt een correctie plaats om van de verkregen gegevens representatieve gegevens te maken over de Nederlandse bevolking. Doel is immers om iets te zeggen over de bevolking en niet over toestellen of de populatie van de telefoonbedrijven. Die correctie vindt plaats op basis van registerdata uit de Basisregistratie Personen (BRP) volgens een weegmodel. Ook kan de data op gemeenteniveau (dus niet persoonsniveau) worden verrijkt met andere CBS data, zoals het vakantieonderzoek of andere registerinformatie.
3.2.2 Stap 8 Verwerking naar relatieve waarden
Er komt na de weging uit stap 7 een aangepaste telling tot stand. De tellingen zijn in deze pilot nog niet gevalideerd. Dat wil zeggen dat onzeker is of de aantallen de juiste aantallen zijn voor alle gemeenten. Hierop is nog geen controle gedaan. Voor de visualisatie in het beta-product worden de waarden daarom vertaald naar relatieve verschillen. Dat wil zeggen dat de aantallen worden vertaald naar percentages van en naar een gemeente. Bijvoorbeeld om 12:00 uur is 8% van de bewoners uit Amsterdam vertrokken naar Almere. Dit heeft vooral te maken met de kwaliteit van de uitkomsten maar is ook te zien als extra maatregel tegen groepsonthulling met informatie van buiten. Het format blijft gelijk als in figuur 3 beschreven, maar het betreft dus ratio’s/percentages die in de visualisatie kunnen worden afgelezen straks (MobVis).
3.2.3 Stap 9 Publicatie
De uitkomsten zijn openbaar gepubliceerd in een nieuwe visualisatie (MobVis) die speciaal hiervoor ontwikkeld is.