Met Twitterdata emoties meten

/ Auteur: Jaap van Sandijk
© Hollandse Hoogte
Hoe meetbaar zijn emoties op Twitter en welke eventuele patronen vertonen die? Taaltechnoloog Florian Kunneman promoveerde onlangs aan de Radboud Universiteit Nijmegen op dit onderwerp. Hij onderzocht miljoenen tweets en stelde vast dat aan de hand van verschillende hashtags emoties op geautomatiseerde wijze herkend kunnen worden.

Hashtag als hulpmiddel

Kunneman verdeelde zijn studie in twee taken: de detectie van gebeurtenissen en de detectie van emoties. Die bracht hij vervolgens samen om de emoties voorafgaand aan een bepaalde gebeurtenis te vergelijken met de emoties na afloop van die gebeurtenis. ‘Ik classificeerde de tweets op de aanwezigheid van emotionele teleurstelling achteraf en op de positieve verwachting vooraf en onderzocht of daar een correlatie tussen was.’ De hashtag (het hekje, gevolgd door één of meer trefwoorden) was hierbij een probaat hulpmiddel. Die biedt immers een bepaalde context. Kunneman stelde vast dat maar een beperkt aantal hashtags gebruikt kan worden voor geautomatiseerd onderzoek naar het herkennen van emoties. #zinin is er daar één van. ‘Die hashtag – vaak gebruikt als aankondiging van een amusementsgebeurtenis – komt inhoudelijk prima overeen met de inhoud van de tweet en bleek zeer geschikt. In tegenstelling tot bijvoorbeeld #omg. ‘Oh My God’ kan over allerlei soorten emoties gaan en is daarom niet bruikbaar.’

Florian Kunneman

Gebruiksvriendelijke resultaten

Kunnemans onderzoek trekt de aandacht omdat er steeds meer belangstelling is voor de inzet van big data bij onderzoekwerk. Grote uitdaging daarbij is hoe de kolossale hoeveelheden data ‘vertaald’ kunnen worden naar betrouwbare en gebruiksvriendelijke onderzoekresultaten. Hoe heeft hij dat aangepakt? ‘Ik heb een filtersysteem ontwikkeld dat mikt op alle tweets die een bepaalde emotie uiten. Dat systeem kun je vergelijken met de manier waarop Google relevantie filtert voor zoekopdrachten. Binnen de honderdduizenden resultaten heb ik een rangschikking gemaakt door berichten kansen mee te geven: van dit type bericht weet ik zeker dat het een positieve verwachting is, van dit type bericht is dat niet echt zeker. Op die manier kwamen we tot een systeem dat behoorlijk goed werkt.’

Belangrijkste hindernis

Belangrijkste hindernis van het filtersysteem is de finetuning, vertelt Kunneman. ‘Je kunt met een smal filter werken waarin de uitkomsten perfect zijn, maar daarmee haal je niet genoeg resultaten op. Aan de andere kant kun je een heel breed filter maken, maar daar sijpelen links en rechts dingen doorheen die je niet wilt hebben.’ Tussen die twee uitersten moet het meest geschikte filter ontwikkeld worden. En dat luistert heel nauw. Een blauwdruk voor zo’n filter is er niet. ‘Maar’, zegt Kunneman’, ‘als je het tóch wilt hebben over een blauwdruk in dit onderzoektraject, kan ik er vanuit mijn ervaring wel eentje geven: richt je eerst op een breed filter, dan zie je beter waar de foute output vandaan komt. Dat kun je dan vervolgens nog bijstellen. Begin je andersom – dus met een smal en heel precies filter – maak je het jezelf veel lastiger. Simpelweg omdat je dan niet weet wat er in je mal zou moeten passen.’

Kunnemans onderzoek trekt de aandacht omdat er steeds meer belangstelling is voor de inzet van big data bij onderzoekwerk

Sociale spanningen indicator CBS

Kunneman ziet de waarde van onderzoek naar emoties op Twitter vooral in de toevoeging op bestaand (statistisch) onderzoek. ‘Het geeft een goede ondersteuning en je leunt niet volledig op surveys. De grote voordelen zijn in elk geval dat je veel meer data verwerkt en dat je het onderzoekwerk continu, door de tijd heen, kunt doen. Zo kun je tendensen misschien beter volgen dan met een survey.’ De onderzoeker volgt met belangstelling de ontwikkelingen rondom de sociale spanningen indicator, een innovatief product van het CBS. Deze meet heel specifiek de spanningen of onrust in de samenleving, en onderscheidt zich daarmee van meer algemene metingen van positief of negatief sentiment via sociale media. Voor de indicator is met kwalitatief onderzoek een gevalideerde lijst woorden samengesteld die specifiek betrekking hebben op (on)veiligheid. ‘Ik weet dat het CBS hieraan werkt. Als taaltechnoloog vind ik dit initiatief van het CBS positief. Met zo’n sociale spanningen indicator leunt het CBS niet volledig op surveys.’

Vaccinaties

Een collega van Kunneman aan de Radboud Universiteit Nijmegen - tevens paranimf tijdens zijn promotie - is Ali Hürriyetoglu. Hij is eveneens werkzaam als methodoloog bij het Center for Big Data Statistics van het CBS. Is samenwerking tussen de Radboud Universiteit en het CBS een optie? ‘Mijn onderzoek is gericht op toepassingen en is eenvoudiger aan te wenden voor het bedrijfsleven dan voor een statistiekbureau, dat veel meer eisen stelt’, zegt hij voorzichtig. ‘Maar’, laat hij daar op volgen, ‘het is wel realistisch. Met een aio of postdoc zouden we met dit systeem ook voor het CBS redelijk snel succes kunnen behalen.’ Voorlopig richt Kunneman zich op zijn volgende project als postdoc bij de Radboud Universiteit: het opsporen van emoties op Twitter over vaccinaties, in opdracht van het Rijksinstituut voor Volksgezondheid en Milieu.