Over het automatisch classificeren van cybercrime cases
Dit document is het resultaat van een analyse van enkele misdrijven zoals gerapporteerd aan de politie en beschikbaar in de vorm van processen‐verbaal. Per geval zijn een aangifte (afkomstig van een slachtoffer) en meestal ook een toelichting daarbij (van de hand van een politiefunctionaris) beschikbaar. Het CBS gebruikt dit materiaal als bron voor statistieken over misdrijven in dit land. In de analyse was de aandacht vooral gericht op cybercrime gevallen.
De interesse gold met name het soort informatie dat beschikbaar is in aangiftes en toelichtingen. Die kan in hoge mate variëren, omdat het om vrije tekst gaat geleverd door een groot aantal personen, zowel aangevers als politiefunctionarissen (i.c. verbalisanten). De auteur heeft een dertigtal cases die op cybercrime betrekking hebben bekeken en een handjevol niet‐cybercrime misdrijven, ter vergelijking. Deze cases kunnen als een aselecte steekproef worden opgevat uit het beschikbaar gestelde bronmateriaal. De auteur heeft gekeken naar deze cases met het oog op automatische classificatie van misdrijven door een systeem dat op trefwoorden afgaat, zoals een semantisch netwerk (of een machine learning applicatie). De conclusie op basis van dit materiaal is dat het automatisch classificeren van wel/geen cybercrime haalbaar lijkt te zijn, maar dat classificren naar type cybercrime een stuk lastiger lijkt te zijn, zeker voor een aantal typen cybercrime. In het stuk wordt ook de aanbeveling gedaan de toelichting te structureren, zodat de benodigde informatie er eenvoudig uit te halen is.