Meer rekencapaciteit met Spark voor big data producties
Definitieve keuze voor Spark
CBS werkt met steeds grotere databestanden. Dat vraagt om veel rekencapaciteit. Rekencluster Spark biedt daarvoor een oplossing: een software-laag die ervoor zorgt dat meerdere computers tegelijkertijd aan een opdracht kunnen rekenen. In combinatie met snelle computers en opslag zijn daardoor nauwkeurige berekeningen met grote hoeveelheden data mogelijk. Sinds een jaar heeft CBS een klein Spark-cluster. Daar staat nu een tweede naast dat vier keer zo groot is. Winfried Ypma, manager Procesontwikkeling en Methodologie: ‘CBS kiest hiermee definitief voor Spark. Uit het onderzoek dat we het afgelopen jaar gedaan hebben, blijkt dat we onze big data-ontwikkelingen met dit rekencluster goed kunnen ondersteunen. We hebben meerdere proofs of concept uitgevoerd en die zijn geslaagd. Spark is bovendien relatief goedkoop, omdat het open source software betreft.’
Beheer en beveiliging testen
Om met Spark statistieken te maken, is een nieuwe denk- en werkwijze nodig en een andere inrichting van het statistiekproces. Dat laatste wordt door CBS reeds langere tijd onderzocht. Met Spark kan CBS statistieken maken op basis van verkeerslusdata: de meetinstrumenten van Rijkswaterstaat die miljoenen data per uur vrijgeven. ‘Maar een Spark rekencluster kan bijvoorbeeld ook nuttig zijn bij de productie van de inkomensstatistiek’, zegt John van Rooijen, manager Technisch Beheer ICT Infrastructuur. ‘We onderzoeken welke inspanning nodig is en welke voordelen behaald worden als we een potentieel geschikt productieproces met dit rekencluster uitvoeren. Daarnaast bekijken we welke beheermiddelen nodig zijn en aan welke beveiligingsvoorwaarden we moeten voldoen om de statistiekproductie zo veilig en stabiel mogelijk te maken. De resultaten tot nu toe geven ons vertrouwen dat dat lukt.’
‘We hebben nu een startpunt bereikt waar het in september vorig jaar opgerichte Center for Big Data Statistics mee verder kan’
Snelkookpan van ideeën
Op het gebied van big data werkt CBS nauw samen met de Universiteit van Twente, die ook over een Spark-cluster beschikt. Ypma: ‘We organiseren samen onder meer jaarlijks een DataCamp. Dat zijn bijeenkomsten waar concrete ideeën voor het gebruik van big data ontstaan. Zo’n DataCamp is een heel intensieve sessie, een soort snelkookpan. Het is een groot voordeel dat we de concepten die daar ontstaan nu dankzij onze Spark-installatie ook bij CBS zelf verder kunnen uitwerken.’
Startpunt bereikt
Binnen CBS werken verschillende afdelingen in één projectteam samen aan de ontwikkeling van het rekenprogramma: ICT-ers, methodologen en statistiekmakers. Van Rooijen: ‘Zij hebben allemaal een andere invalshoek. ICT vindt het belangrijk dat het systeem stabiel en veilig is, methodologen willen vrijheid om nieuwe ideeën uit te proberen en statistiekmakers zijn vooral gericht op een snelle statistiekproductie.’ Ypma: ‘Dit projectteam genereert gezamenlijk veel energie. De bijdragen van verschillende afdelingen zorgen voor betrokkenheid, draagvlak en kwaliteit. We hebben nu een startpunt bereikt waar het in september van vorig jaar opgerichte Center for Big Data Statistics mee verder kan.’