CBS lanceert Center for Big Data Statistics
Sneller, actueler en gedetailleerder
CBS maakt reeds een aantal jaren gebruik van big data om er statistieken mee te maken. Dat leidde er toe dat het medio vorig jaar het eerste statistiekbureau ter wereld was dat een officiële verkeersstatistiek lanceerde met big data. Het grote voordeel van het gebruik van big data is dat de uitkomsten sneller, actueler en gedetailleerder zijn. Van Meeteren: ‘CBS is leidend als het gaat om big data in de officiële statistiek. De tijd is nu rijp om alle disciplines op dit gebied bij elkaar te zetten, zaken te versnellen en met een duidelijk gezicht naar buiten te treden. Dat is de reden waarom wij het Center for Big Data Statistics (CBDS) lanceren.’ Het CBDS zal fysiek gehuisvest worden op twee real time verbonden locaties, met het zwaartepunt bij CBS in Heerlen. Daar zullen onderzoekers en datascientists van CBS samen met promovendi, studenten en deskundigen van diverse nationale en internationale partijen werken aan nieuwe statistieken met big data.
Nieuwe technieken
Volgens Van Meeteren heeft CBS een drietal doelstellingen met het CBDS. ‘Allereerst willen we sneller onze statistieken realiseren: real-time statistics. Daardoor kunnen we inspelen op de behoefte in de samenleving om steeds sneller bruikbare informatie te krijgen. Een tweede doel is dat we bestaande statistieken op een lager aggregatieniveau beschikbaar willen krijgen, met name op regionaal en stedelijk gebied. Ook leveren big data kansen om de statistiekproductie flexibeler te maken en nieuwe indicatoren samen te stellen. Tot slot willen we werken vanuit de zero footprint-gedachte. Dat betekent dat we de administratieve lastendruk bij bedrijven en personen verder willen reduceren door gebruik te maken van nieuwe bronnen.’ Van Meeteren spreekt de verwachting uit dat toepassen van big data in de statistiek ook leidt tot efficiency- en kwaliteitsverbeteringen.
Kwaliteit van de cijfers
Piet Daas is senior-methodoloog en datascientist bij CBS. Vanaf 2009 ging Daas met zijn collega’s op zoek naar mogelijkheden om nieuwe databronnen zoals internet, smartphone-metingen en andere grote complexe bestanden te ontsluiten voor het maken van statistieken. Kroon op het werk was de lancering van de eerste officiële big data statistiek over verkeerslussen medio 2015. Een wereldwijde primeur. Een van de onderwerpen waar CBS momenteel aan werkt, is een onderzoek naar de betekenis van de interneteconomie in Nederland. In dat onderzoek worden gegevens uit reguliere CBS-statistieken over bedrijven gecombineerd met gegevens over websites, verzameld en bewerkt door het bedrijf DataProvider. Begin oktober komen de eerste uitkomsten van dit onderzoek beschikbaar, waar ook Google aan bijdraagt. Volgens Daas zijn niet alleen de enorme hoeveelheden data een grote uitdaging als het aan komt op werken met big data, maar ook de kwaliteit speelt een belangrijke rol. ‘Wat CBS onderscheidt van andere organisaties is de hoge kwaliteit van onze cijfers. Dat willen wij zo houden, maar dan zal je er wel voor moeten zorgen dat dit ook bij het gebruik van big data zo blijft. Aangezien dergelijke databronnen erg veranderlijk zijn, is dat één van de punten die extra aandacht vragen.’
Nieuwe manier van werken en denken
Daas ziet uit naar werken in het Center for Big Data Statistics. ‘Omdat we nu met externe partijen aan de slag gaan, hebben we meer mogelijkheden dan voorheen om verschillende databronnen binnen te halen en te onderzoeken. Het is een hele heterogene groep partners en dat is interessant, want op die manier kun je elkaar aanvullen en versterken.’ Werken met big data wijkt sterk af van de traditionele manier van statistieken maken. ‘We ontwikkelen met externe partijen en onze eigen datascientists nieuwe methoden en technieken en die vragen om een andere manier van denken. Het is echter wel belangrijk zo vroeg mogelijk de afdelingen binnen CBS waar de inhoudelijke kennis zit er bij te betrekken. Dat hebben we gemerkt bij de ontwikkeling van de nieuwe statistiek op basis van verkeerslusdata. Ook op IT-gebied zijn nieuwe voorzieningen nodig. Daarom heeft CBS een Sparkcluster in gebruik genomen. Dat zijn machines waarmee grote hoeveelheden data snel kunnen worden geanalyseerd.’ Daas stipt nog een belangrijk issue aan in het kader van big data en dat is de privacygevoeligheid. ‘Binnen CBS is dat goed geregeld. Alle werkzaamheden worden binnen de zeer goed beveiligde CBS-omgeving uitgevoerd.’
Innovatieve externe partners
Barteld Braaksma is innovatiemanager bij CBS. Hij had de taak allerlei nationale en internationale partners te interesseren voor samenwerking met het CBDS. ‘Partners haken snel aan en zijn enthousiast. Zo doen de statistiekbureaus van zeven verschillende landen al mee, net als het Europese statistiekbureau Eurostat. We richten ons niet alleen op statistiekbureaus, maar ook op gerenommeerde innovatieve externe partners uit het bedrijfsleven of de overheid zoals TNO, DNB, IBM, KPN en SURFsara. Ook een groot aantal universiteiten en hogescholen heeft zich aangesloten, van Maastricht tot Leiden en van Twente tot Amsterdam.’ Het ambitieniveau van CBS met dit Center for Big Data Statistics is hoog, volgens Braaksma. ‘Die ambities moeten we zelf waarmaken. Daar moeten we niet alleen met onze partners aan werken, maar ook met alle afdelingen binnen CBS. Cruciaal is verder het verzamelen van bruikbare datasets.’ Er komen steeds meer big data bronnen beschikbaar bij bedrijven, instellingen en overheden. Toegang tot die bronnen is nodig om de ambities te verwezenlijken.’ Over het algemeen willen deze partijen samenwerken met CBS om de data in anonieme vorm beschikbaar te maken.
Bij de lancering van het Center for Big Data Statistics komt een innovatieportaal beschikbaar, waarop de resultaten van het Center worden gepresenteerd. Doel hiervan is feedback te organiseren en de voortgang van de ontwikkeling van producten te tonen. Succesvolle statistieken worden vervolgens overgezet naar productie.
Welke partijen doen mee met het CBDS?
Een groot aantal nationale en internationale organisaties sluit aan bij het Center for Big Data Statistics. Zij brengen kennis en expertise in die nuttig is om gezamenlijk maatschappelijke doelen te kunnen bereiken. Relevante ervaringen worden hergebruikt en technische oplossingen gedeeld. Eén van de aangesloten partijen is Capgemini Nederland. Pieter Nieuwenboer, Head Insights and Data Netherlands: ‘CBS is in een unieke positie om het big data domein verder te ontwikkelen. Capgemini Nederland draagt daar met haar kennis van big data en thema’s zoals veiligheid en mobiliteit graag aan bij.’ Ook Jeannine Peek, directeur van Dell-EMC, is enthousiast: ‘Wij zijn verheugd met CBS in het Center for Big Data Statistics samen te werken aan nieuwe statistische producten en diensten. Dell-EMC en Pivotal brengen hierbij expertise in op het gebied van datalakes, cloud native platformen en micro-services op basis van gerealiseerde oplossingen in automotive, healthcare, finance en public services.’ Daarnaast neemt Microsoft Nederland deel. Ernst-Jan Stigter, algemeen directeur: ‘Microsoft ziet wereldwijd geweldige kansen voor het inzetten van big data voor maatschappelijke doeleinden. We trekken dan ook graag op met CBS om die kansen in Nederland te omarmen. Het Center for Big Data Statistics zal daarbij een belangrijke rol spelen.’ Humanity X heeft zich eveneens bij het CBS-initiatief aangesloten. Co-founder Humanity X is dr. Ulrich Mans. ‘Humanity X is een gezamenlijk initiatief van het Centre for Innovation van de Universiteit Leiden, de gemeente Den Haag en diverse andere partners, waaronder universiteiten, NGO’s en IT-bedrijven. Wij verlenen ondersteuning aan data-gestuurde innovatie voor mondiale uitdagingen en gaan nauw samenwerken met het nieuwe Center for Big Data Statistics. We sluiten hiermee aan bij een groeiend wereldwijd netwerk van innovatoren die de datarevolutie willen benutten om doelstellingen rond duurzame ontwikkeling – sustainable development goals - te behalen.’ Voor een volledig overzicht van alle bedrijven die zich hebben aangesloten: Center for Big Data Statistics.