Wat is synthetische data?
Synthetische data simuleren kenmerken van relaties tussen personen en objecten (bijvoorbeeld een school of een wijk), waardoor de realiteit kan worden nagebootst zonder dat de persoon of het object geïdentificeerd wordt. Synthetische data kunnen worden gegenereerd door een algoritme of een computersimulatie. Het voordeel van synthetische data is dat er, afhankelijk van het doel van de gebruiker, een afweging wordt gemaakt tussen de analytische waarde van de dataset en het onthullingsrisico (“fidelity”). Daardoor bestaat de situatie dat wanneer een onderzoek een dataset vereist met een hoge analytische waarde (sterkere overeenkomst met de originele dataset), dit leidt tot een hoger risico op onthulling. Synthetische data worden gebruikt voor privacybescherming en gecontroleerde openbaarmaking. Het gebruik van synthetische data kwalificeert daarom als een Privacy Enhancing Technique (PET).
Welke toepassingen kent synthetische data?
Er bestaan verschillende niveaus van synthetische data, met elk een andere afweging tussen analytische waarde en onthullingsrisico. Afhankelijk van deze afweging en het gebruiksdoel van de dataset, kan synthetische data voor de volgende toepassingen worden ingezet:
- testen van systemen, waar echte data vanwege regels rondom databeveiliging niet gebruikt mag worden
- software demonstraties
- ontwikkeling van AI-modellen
- voorbeelddata van een CBS databron waar een gebruiker (nog) niet bij mag
- voorbeelddata voor een externe (big) databron waar het CBS (nog) geen toegang toe heeft
- oefendata voor opleidingen (technisch of inhoudelijk)
- brondata voor nieuwe ideeën/proof of concepts
- brondata voor agent based models en digital twins
- brondata voor analysedoeleinden (beleidsanalyses of wetenschappelijk onderzoek).
Voor sommige toepassingen ziet het CBS al mogelijkheden, voor andere gebruikersdoelen (nog) niet of is meer onderzoek nodig. Het valt niet uit te sluiten dat zich gaandeweg nog meer toepassingen aandienen.
Concreet zal het CBS beginnen met het inzetten van synthetische data bij gebruikersdoelen die het minste risico met zich meebrengen. Dit zullen interne CBS casussen zijn waarbij synthetische data gegeneerd worden voor test- en evaluatiedoeleinden. Verder, zal het CBS een synthetische dataset voor onderwijsdoeleinden uitbrengen waarbij een hoge privacy maat gebruikt zal worden. Voor andere potentiële diensten van synthetische data zal wederom meer ervaring opgedaan moeten worden door het CBS waarbij relevante partijen worden meegenomen in het proces.
Waarom werken we met synthetische data?
Het CBS beschikt over een grote hoeveelheid data waarvoor de privacy volledig gegarandeerd dient te zijn. Hoewel de vraag naar data en de hoeveelheid beschikbare data toeneemt, worden data nog steeds te weinig uitgewisseld met de wetenschappelijke gemeenschap. Vanuit organisatie/bedrijfsperspectief is er - vanwege steeds strengere privacy-voorschriften (die data-uitwisseling bemoeilijken) - behoefte aan verbeterde methoden om gegevens te delen. Hierin zouden synthetische data een belangrijke rol kunnen gaan spelen. Belangrijk om op te merken is dat privacyregelgeving, zoals de AVG, ook bij deze toepassingen in acht moet worden genomen. Zij bieden richtlijnen voor de doeleinden waarvoor gevoelige gegevens wel en niet kunnen worden gebruikt. Het CBS ziet meerwaarde in het gebruik van synthetische data om het delen van gegevens te vergemakkelijken en te vereenvoudigen.
Wat is de maatschappelijke meerwaarde van synthetische data?
Het CBS wil veilig data gebruiken en delen. Synthetische data wordt steeds vaker gezien als alternatief voor het uitwisselen van privacy gevoelige data. Het CBS krijgt regelmatig vragen over synthetische data, en gaat hier graag op in. Het CBS is een kennisinstituut dat zich positioneert als datapartner en dataknooppunt. Synthetische data kan ingezet worden om zowel samenwerkingen als de maatschappelijke rol van het CBS te versterken.
Syntho pilot – Wat is er al gedaan met synthetische data?
Het CBS heeft een PoC (Proof of Concept) uitgevoerd die als doel had om ervaring op te doen met het maken van synthetische data. Hierbij is gebruik gemaakt van het softwarepakket van Syntho, een Nederlandse startup die software ontwikkelt en exploiteert voor het maken van synthetische data. Het doel van de PoC was om een deel van het Algemeen Bedrijvenregister (ABR) te synthetiseren dat de economisch-statistisch relevante bedrijvenpopulatie in Nederland beschrijft met een aantal basiskenmerken zoals economische activiteit en grootteklasse.
Het is gelukt om een synthetische testdataset te creëren. Op basis van de beoordeling van de analytische waarde en onthullingsrisico wordt geadviseerd om intern gebruik bij het testen van software voor statistiekproductie als voornaamste toepassing te beschouwen voor deze dataset. Op inhoudelijk, methodologisch, IT-infrastructuur, juridisch en software terreinen is er veel geleerd. Echter, moet er nog meer onderzoek gedaan worden over het beoordelen van onthullingsrisico’s. Deze PoC heeft als katalysator gewerkt voor een bredere discussie over synthetische data en wat dit voor het CBS kan betekenen.