Onderscheidende kenmerken van jonge drugsverdachten

Technische toelichting

Werkwijze bepalen belangrijkste kenmerken

De analyse is uitgevoerd met behulp van de data science tool Cortana, een open source tool ontwikkeld door het Leiden Institute of Advanced Computer Sciences (LIACS). Deze tool maakt het mogelijk om snelle statistische regels te formuleren en bijbehorende aantallen te berekenen. Daaruit volgen groepen in een rangorde op basis van de verhoogde kans. Voor de groepen gebaseerd op associaties op één kenmerk (diepte 1) is een top-10 samengesteld. Daarbij is er rekening mee gehouden of de resulterende groepen (minimum coverage) en het aantal positieve gevallen (minimum support) voldoende groot zijn (minimaal 10 personen), om zo de relevantie van de uitkomsten te borgen. Ook is er gekozen voor een maximum coverage van 0.9, wat inhoudt dat een kenmerk niet meer dan 90 procent van de groep mag beschrijven. Deze instellingen zijn handmatig in Cortana aangepast om te kunnen voldoen aan de onderdrukkingsregels van het CBS en ervoor te zorgen dat de gevonden subgroepen nooit onthullend zijn.

In Cortana kunnen door middel van de zogenoemde quality measure meerdere manieren gekozen worden om de belangrijkste kenmerken te bepalen. In deze analyse is gekozen voor de ‘lift’, omdat hiermee relatief kleine subgroepen met een groot percentage verdachten gevonden kunnen worden. Een bijkomend voordeel is dat de lift relatief makkelijk is uit te leggen en te begrijpen. Met de lift wordt gekeken hoeveel vaker drugsverdachten voorkomen in de groep met het kenmerk in vergelijking met de totale populatie. Dit wordt berekend door het percentage drugsverdachten in de groep met het kenmerk te delen door het percentage drugsverdachten onder alle jongeren. Met een voorbeeld kunnen we de berekening nader toelichten. De lift voor jeugdreclassering wordt als volgt berekent voor jonge drugsverdachten:

\(\LARGE\frac{\left(\frac{Aantal\:jonge\: drugsverdachten\:met\:jeugdreclassering}{Aantal\:jongeren\:in\: Nederland\: met\: jeugdreclassering}\right)}{\left(\frac{Aantal\:jonge\:drugsverdachten}{Aantal\:jongeren\:in\:Nederland}\right)}\)

Op basis van de data krijgen we dan volgende lift-score:

\(\LARGE\frac{\left(\frac{880\:jonge\: drugsverdachten\:met\:jeugdreclassering}{20\:890\:jongeren\:in\: Nederland\: met\: jeugdreclassering}\right)}{\left(\frac{4\:480\:jonge\:drugsverdachten}{2\:879\:290\:jongeren\:in\:Nederland}\right)}\normalsize=27\)

Privacy

Uit oogpunt van privacybescherming publiceert het CBS enkel cijfers op groepsniveau, dus nooit op individueel niveau. Ook wordt in CBS-onderzoek veel aandacht besteed aan het tegengaan van de kans op (groeps-)onthulling. Zo zijn de cijfers in dit rapport afgerond en zijn de cijfers onderdrukt (niet weergegeven) indien de aantallen te beperkt zijn. De privacy van de personen waar dit onderzoek zich op richt heeft gedurende het hele onderzoek centraal gestaan. Zo is het koppelen van bestanden uit meerdere bronnen (bijvoorbeeld van de Basisregistratie Personen en van registratiecijfers over verdachten van criminaliteit) gebeurd door middel van een gepseudonimiseerde koppelsleutel/nummer. De burgerservicenummers van de personen zijn ook voor de onderzoekers nooit zichtbaar geweest. Zie de CBS-website voor meer informatie over hoe het CBS met privacy omgaat: https://www.cbs.nl/nl-nl/over-ons/dit-zijn-wij/onze-organisatie/privacy .