Auteur: Brenda Bos, Sascha de Breij, Naomi Schalken, Sander Scholtus, Jaap Walhout, Jochem Zweerink
Verkenning alternatief verdeelmodel voor voortijdig schoolverlaten

4. Ontwikkeling model voor het mbo

4.1 Inleiding

In dit hoofdstuk bespreken we de totstandkoming van het model waarmee op studentniveau de kans op vsv kan worden geschat voor het mbo volgens de aanpak zoals beschreven in paragraaf 2.7. Net zoals bij het vo, zullen we als eerste stap de selectie van achtergrondkenmerken beschrijven met behulp van beschrijvende en bivariate analyses. In de tweede stap wordt een stepwise selectieprocedure toegepast op het cohort 2018/’19 en op het validatiecohort 2017/’18. Als derde stap bespreken we de resultaten uit de kruisvalidaties. Ook onderzoeken we de toegevoegde waarde van een multilevel component als vierde stap. Tot slot presenteren we in de laatste paragraaf een vergelijking van de modelschattingen op basis van een DUO-cohort en een eerste beeld van de resultaten op RMC-regio niveau. 

4.2 Stap 1: Voorselectie kenmerken

Op basis van beschrijvende statistieken en bivariate analyses hebben we een voorselectie gemaakt van de achtergrondkenmerken uit paragraaf 2.5 voor het mbo. Op basis van deze analyses zijn er keuzes gemaakt in de codering van variabelen, zijn referentiecategorieën bepaald en is een keuze gemaakt bij (inhoudelijk) vergelijkbare kenmerken. 

De belangrijkste wijzigingen zijn hier uitgelicht: 

  • Inkomen onder de lage inkomensgrens: Dit kenmerk overlapt sterk met de welvaartspercentielen, waardoor we hebben gekozen om de welvaartspercentielen mee te nemen in plaats van deze variabele. Dit kenmerk bevat daarnaast alleen inkomen, terwijl de welvaartspercentielen ook rekening houden met het vermogen. Hetzelfde geldt voor het kenmerk op buurtniveau.
  • Lage welvaart in het huishouden: Omdat de welvaartspercentielen in vijf categorieën een vollediger beeld geven dan alleen het laagste percentiel, is er voor gekozen de lage welvaart niet mee te nemen in de verdere analyses.
  • Problematische schulden: Voor het mbo maken we onderscheid in drie categorieën in tegenstelling tot de twee categorieën zoals beschreven bij het vo: geen problematische schulden (0), problematische schulden in het huishouden (1), en problematische schulden op persoonsniveau (2). Omdat studenten op het mbo wel persoonlijke schulden kunnen hebben volgens de definitie van bijlage 3, is hier een aparte categorie toegevoegd voor het mbo.
  • Mbo richting sectorkamer: Dit kenmerk bevatte veel kleine groepen, daarom is er voor gekozen opleidingsrichting volgens ISCED-indeling mee te nemen, zoals beschreven in bijlage 3. Bovendien is de ISCED-indeling stabieler beschikbaar over de tijd. 
  • Aantal jaren op het mbo: Omdat het mbo uit verschillende niveaus bestaat en variatie kent in de duur van de opleiding, is het aantal jaren op het mbo geen duidelijke indicator voor vsv. We nemen dit kenmerk daarom niet mee in de vervolganalyses.

4.3 Stap 2: Stepwise analyse 

Na de voorselectie van kenmerken is er een stepwise procedure toegepast om zo een verdere selectie te maken van de achtergrondkenmerken. Dit is net zoals bij het vo gedaan met een forward, backward, en gecombineerde aanpak. We selecteren uiteindelijk een model dat eenvoudig en transparant is, maar ook voldoende verklaringskracht heeft. Ook bij het mbo komt het meest compacte model uit de forward methode en is er geen tot weinig verschil te zien met de backward methode (forward: BIC = 167450, McKelveyZavoina R2 = 0,28; backward: BIC = 167436, McKelveyZavoina R2 = 0,28). 


De forward analyse resulteerde in de volgende selectie van kenmerken, in volgorde van belang voor het model: 

  1. Mbo-niveau
  2. Leeftijd van de student
  3. Ouderlijke structuur
  4. Verdachte van een misdrijf
  5. Geslacht
  6. Hoogst behaalde opleidingsniveau moeder 
  7. Problematische schulden
  8. Leerweg
  9. Onderwijsrichting volgens ISCED
  10. Welvaart
  11. Psychosociale problemen student
  12. Stedelijkheid van de buurt
  13. Hoogst behaalde opleidingsniveau vader
  14. Niveau van vooropleiding
  15. Herkomstland moeder
  16. Langdurige gezondheidsproblemen
  17. Wanbetaler ZVW-premie (ouders)
  18. Verblijfsduur van moeder in Nederland
  19. Acute gezondheidsproblemen
  20. Psychosociale problemen moeder
  21. Migratieachtergrond vader

Na de selectie van het 21e kenmerk stopte de stepwise procedure, omdat er volgens het model geen extra verklaringskracht meer werd toegevoegd. 

Bij de forward methode wordt er telkens één kenmerk toegevoegd aan het model. Per stap in deze methode is de BIC uitgerekend om te bepalen in hoeverre er nog modelverbetering optreedt. Figuur 4.3.1 laat de ontwikkeling van de BIC-waarde zien gedurende de stepwise procedure. Hierbij geldt dat een lagere BIC-waarde een betere modelkwaliteit betekent. 

4.3.1 BIC-waarden bij het mbo-model naar het aantal achtergrondkenmerken
volgorde volgens stepwise selectieBIC-waarde (BIC-waarde)
0194960,4
1183039,2
2175702,3
3173946,9
4172530,5
5171537,3
6170456,2
7169742,6
8169193,4
9168580,9
10168216,0
11168033,6
12167860,4
13167742,4
14167644,8
15167582,8
16167529,3
17167499,6
18167476,2
19167460,6
20167454,4
21167450,2

In de figuur is te zien dat de BIC daalt wanneer er meer kenmerken worden toegevoegd aan het model. De sterkste daling zit in het begin van de figuur, aan het einde van de figuur vlakt de daling af. De modelkwaliteit neemt na het toevoegen van het twaalfde kenmerk nog nauwelijks toe. In de verdere analyses hebben we kenmerk 21, de migratieachtergrond van de vader, vervangen door die van de moeder. Dit zal in combinatie met kenmerk vijftien, het herkomstland van de moeder, een consistenter beeld geven. 

Daarnaast is de forward stepwise procedure toegepast op het validatiecohort (2017/’18) om de stabiliteit van het model te onderzoeken. Er is dus opnieuw een stepwise procedure toegepast. Hierbij is weer opnieuw bepaald welke modelkenmerken relevant zijn voor dat cohort. Omdat het mbo-model uit de stepwise procedure meer kenmerken heeft in vergelijking met het vo-model, zal het ook lastiger zijn om dezelfde stabiliteit te behouden met zo’n groot model. De resultaten van de vergelijking worden weergegeven in tabel 4.3.2.

4.3.2 Vergelijking stepwise selectie mbo tussen basis- en validatiecohort
VolgordeBasiscohort (2018/’19)Validatiecohort (2017/’18)
1Mbo-niveauMbo-niveau
2Leeftijd van de studentLeeftijd van de student
3Ouderlijke structuurProblematische schulden
4Verdachte van een misdrijfOuderlijke structuur
5GeslachtVerdachte van een misdrijf
6Hoogst behaalde opleidingsniveau moederGeslacht
7Problematische schuldenHoogst behaalde opleidingsniveau moeder
8LeerwegStedelijkheid van de buurt
9Onderwijsrichting volgens ISCEDLeerweg
10WelvaartOnderwijsrichting volgens ISCED
11Psychosociale problemen studentWelvaart
12Stedelijkheid van de buurtPsychosociale problemen student
13Hoogst behaalde opleidingsniveau vaderHerkomstland student
14Niveau van vooropleidingNiveau van vooropleiding
15Herkomstland moederLangdurige gezondheidsproblemen
16Langdurige gezondheidsproblemenHoogst behaalde opleidingsniveau vader
17Wanbetaler ZVW premie (ouders)Psychosociale problemen moeder
18Verblijfsduur van moeder in NederlandWanbetaler ZVW premie (ouders)
19Acute gezondheidsproblemenAcute gezondheidsproblemen
20Psychosociale problemen moeder
21Migratieachtergrond moeder

De kenmerken in de top twaalf zijn hetzelfde voor beide cohorten. Wel verschuiven problematische schulden en stedelijkheid van de buurt naar een andere positie binnen de top twaalf. Vanaf positie twaalf verschillen de kenmerken meer tussen de cohorten, wat het model instabieler maakt. Bovendien zien we in figuur 4.3.1, dat er vanaf twaalf kenmerken weinig extra toegevoegde waarde is in de verklaringskracht van het model. 

Stepwise analyses naar mbo-niveau

In de vorige paragraaf zagen we dat mbo-niveau als eerste werd geselecteerd in de stepwise selectie. Mbo-niveau bestaat uit entreeopleiding en niveau 2, 3 en 4. Uit eerder onderzoek blijkt dat mbo-entree een andere populatiesamenstelling heeft dan de andere mbo-niveaus en ook verschilt op de aanwezigheid van problemen. Ter controle hebben we daarom extra analyses uitgevoerd waarbij vsv op de mbo-entree en mbo niveaus 2-4 als twee aparte modellen worden geschat. De stepwise procedure is daarbij per model opnieuw toegepast. 

Uit die analyse bleek dat de modellen inderdaad tot een verschillende selectie van kenmerken kwamen. Het mbo niveau 2-4 model kwam tot grotendeels dezelfde selectie kenmerken als het totale mbo-model en verschilde bij enkele kenmerken alleen in de volgorde. Het mbo-entreeopleiding model kwam daarentegen wel tot een andere selectie van kenmerken en daarbij ook een andere volgorde. 

Daarnaast zijn de modellen ook weer toegepast op het validatiecohort. De resultaten lieten echter zien, dat voornamelijk bij het mbo-entree model de kenmerken niet stabiel werden geselecteerd tussen de cohorten. Bij de andere mbo-niveaus waren deze verschillen minder aanwezig. Vanwege deze instabiliteit en de voorkeur van het ministerie van OCW om de ontwikkeling van een nieuw verdeelmodel simpel en transparant te houden, is er daarom in overleg met het ministerie voor gekozen om geen aparte modellen te ontwikkelen. Binnen het totale mbo-model wordt er bovendien nog steeds rekening gehouden met de verschillen binnen de entreeopleiding en andere niveaus doordat mbo-niveau als eerste kenmerk in het model is meegenomen. 

4.4 Stap 3: Kruisvalidaties 

Naast de stepwise analyses zijn er als derde stap kruisvalidaties uitgevoerd op het totale mbo-model. Tijdens deze analyse is eerst een leeg model geschat, om te onderzoeken wat de modelkwaliteit is zonder verklarende kenmerken. Daarna is er herhaaldelijk een nieuw model geschat waarbij telkens een extra kenmerk is toegevoegd op basis van de eerder vastgestelde volgorde. Uiteindelijk resulteerde dit in het complete model met de 21 kenmerken uit het laatste model van de vorige stap. 

De kruisvalidaties zijn geëvalueerd met behulp van de fitmaten zoals beschreven in bijlages 4.1.2 en 4.1.3 en weergegeven in tabel 4.4.1. Voor het berekenen van recall-, precision- en F1-waarde zijn studenten ingedeeld in twee categorieën: geen vsv (0), en wel vsv (1). Dit is gedaan met een grenswaarde, zoals beschreven in bijlage 4.1.3. Bij de daadwerkelijke toepassing van het model zullen we niet gaan werken met een classificatie van 0 of 1, maar met de daadwerkelijke kansen per student om vsv’er te worden. Deze fitmaten geven dus vooral een globaal beeld van de modelkwaliteit en dienen gebruikt te worden voor onderlinge modelvergelijkingen. Dit geldt niet voor de (relatieve) entropie en gemiddelde R2.

4.4.1 Resultaten kruisvalidaties mbo
ModelEntropieRelatieve entropie1)Gemiddelde R2 2)RecallPrecisionF1
Intercept3)97 474.....
191 4970,0610,0900,4970,1600,242
287 7780,0990,2100,5860,1670,260
386 8890,1090,2300,6740,1530,250
486 1770,1160,2300,6840,1550,253
585 6740,1210,2400,6790,1610,260
685 1160,1270,2560,7040,1570,257
784 7500,1310,2600,7250,1550,255
884 4640,1330,2600,6800,1670,269
984 1330,1370,2700,6990,1660,269
1083 9240,1390,2700,7250,1610,264
1183 8270,1400,2700,7330,1600,263
1283 7210,1410,2760,7140,1660,269
1383 6470,1420,2800,7290,1630,266
1483 5870,1420,2800,7290,1630,267
1583 5060,1430,2800,7340,1620,266
1683 4740,1440,2800,7370,1620,266
1783 4530,1440,2800,7430,1610,265
1883 4310,1440,2800,7380,1620,266
1983 4180,1440,2800,7410,1620,265
2083 4090,1440,2800,7430,1610,265
2183 4050,1440,2800,7450,1610,265
1) De relatieve entropie staat ook wel bekend als de McFadden (1974) pseudo-R2-waarde en kan daarbij ook vergeleken worden met de gemiddelde R2.
2) We geven de gemiddelde R2 weer, omdat deze per groep in de kruisvalidatie wordt berekend zoals beschreven in Bijlage 4.1.2.
3) Voor het intercept model worden geen fitmaten (excl. de entropie) weergegeven, omdat deze geen informatieve waarde hebben in de vergelijking van de modellen met kenmerken.

In de tabel zien we dat de entropie afneemt, naarmate het model uitgebreider wordt. Het meest uitgebreide model kan de beste schatting maken voor vsv. De relatieve entropie geeft de relatieve verbetering ten opzichte van het lege model weer. Deze fitmaat laat zien dat er niet meer veel verandert vanaf het model met zestien kenmerken en er nog geringe veranderingen zijn in de modellen vanaf tien kenmerken. 

De recall-waarde ligt tussen de 0,50 en 0,75. In het model tot zeven kenmerken neemt de recall telkens toe, vanaf zeven kenmerken zien we wisselingen in de waarde van de recall. De recall blijft echter altijd rond de 0,70 schommelen, wat betekent dat het mbo-model 70 procent van de studenten die werkelijk vsv’er worden vaak als zodanig classificeert. De precision ligt rond de 0,15 en 0,17, wat relatief laag is voor een precision-waarde, maar ook wel volgens verwachting bij een model met een laag aandeel vsv’ers in de populatie (7,9% op het mbo, zie ook paragraaf 2.4). De achtergrondkenmerken voegen echter wel veel toe aan het model in vergelijking met een leeg model. Stel de achtergrondkenmerken worden niet meegenomen en iedereen zou als vsv’er geclassificeerd worden, dan zou de precision gelijk zijn aan het aandeel vsv’ers in de mbo populatie, dus 0,079. Een model met kenmerken laat daarom een vooruitgang zien in de precision. De F1 neemt de bovenstaande resultaten samen. 

De gemiddelde McKelveyZavoina R2 over de kruisvalidaties ligt tussen de 0,09 en 0,28. Hierbij is er een toename te zien tot model dertien, waarna de waarde constant blijft. Volgens deze fitmaat heeft het opnemen van meer dan dertien kenmerken geen toegevoegde waarde voor de verklaringskracht van het model. Deze R2 variant moet wel met voorzichtigheid worden geïnterpreteerd en de grootte van het effect is daarbij ook context-afhankelijk. We gebruiken de R2 in de kruisvalidaties dan ook voornamelijk om modelvergelijkingen te maken. 

4.5 Conclusie modelselectie

Op basis van de eerdere analyses is er een definitief voorkeursmodel voor het mbo gekozen. Het doel was om een eenvoudig, transparant en goed uit te leggen model te maken, met zo veel mogelijk verklaringskracht.  Bij de keuze voor een voorkeursmodel spelen verschillende factoren een rol. Een belangrijke reden is de stabiliteit van het model tussen cohorten. Het is van belang om een generiek model te ontwikkelen, dat ook inzetbaar is in andere cohorten. De resultaten in dit hoofdstuk lieten zien dat het model bij meer dan twaalf kenmerken minder stabiel wordt. Bovendien lieten de modelfitmaten zien dat er vanaf twaalf kenmerken weinig toegevoegde waarde was wat betreft de verklaringskracht van het model. Ook figuur 4.3.1 toonde een afvlakkende daling in de BIC-waarde vanaf twaalf kenmerken. Deze redenen samen leiden tot de conclusie dat een model met twaalf kenmerken de voorkeur heeft. Indien een verdere versimpeling van het model door het ministerie van OCW gewenst is en in fase 2 vergelijkbare resultaten oplevert met het voorkeursmodel zou er in het vervolg ook nog gekozen kunnen worden voor een model met zeven kenmerken (ook wel het “back-up model” genoemd). Al laat dat model wel een geringe achteruitgang in verklaringskracht zien. De coëfficiënten en Odds Ratio’s (OR) behorende bij het model met zeven en twaalf kenmerken worden weergegeven in bijlage 5.

Met behulp van de gegevens in figuur 4.5.1 kan een voorbeeld gegeven worden van de toepassing van de odds ratio’s voor een fictieve student. Deze student heeft bepaalde kenmerken, zoals mbo-niveau en leeftijd van de student. Elke categorie waarin een student valt, heeft een odds ratio ten opzichte van de referentiecategorie. Door vervolgens deze met elkaar te vermenigvuldigen, komen we uit op de odds op vsv van de betreffende student. Zie paragraaf 2.7 voor een uitgebreidere uitleg van odds en odds ratio’s. Volgens de figuur is de kans op vsv voor die student 0,333 keer zo groot als de kans op geen vsv. Bij deze kansverhouding hoort een geschatte kans op vsv van 0,250. De kans dat een student met deze combinatie van achtergrondkenmerken vsv’er wordt is dus 25,0%. 

Kans op vsv berekenen voor een student het hbo: voorbeeld

Omdat het hoogst behaalde opleidingsniveau van de moeder terugkomt in het uiteindelijke model met twaalf kenmerken, is er opnieuw beoordeeld of multipele imputatie nodig was. Dit is onderzocht door de resultaten uit twee imputatieronden met elkaar te vergelijken. Daaruit bleek dat de resultaten van de imputatieronden stabiel waren, waardoor geen multipele imputatie nodig was. De resultaten uit de eerste imputatieronde zijn gebruikt in het uiteindelijke model.

4.6 Stap 4: Uitbreiding met multilevel-component

Studenten zijn geclusterd binnen RMC-regio’s. Om te onderzoeken hoe sterk deze clustering is en of hier in de analyses rekening mee gehouden dient te worden, hebben we een multilevel model geschat. In een model met alleen een random intercept op RMC-regio niveau (dus zonder kenmerken in het model) was de Median Odds Ratio (MOR) 1,19 (95% betrouwbaarheidsinterval (BI): 1,15-1,25). Dat wil zeggen dat wanneer een student verhuist van een RMC-regio met een lagere odds op vsv naar een RMC-regio met een hogere odds op vsv, de mediane odds op vsv 1,19 keer zo groot zijn. Aangezien de MOR een odds ratio is, kan hij ook direct vergeleken worden met de andere odds ratio’s van de variabelen in het model. In verhouding is dit effect van RMC-regio dusdanig klein, dat wij hebben besloten hier in de analyses geen rekening mee te houden. Aanvullend is wel nog onderzocht of deze MOR nog kleiner werd na het toevoegen van de twaalf geselecteerde verklarende variabelen, wat inderdaad het geval was.

In het validatiecohort vonden wij een MOR van eenzelfde grootte (1,21, 95% BI: 1,17-1,28).

Hoewel de gevonden clusteringseffecten klein zijn, zijn ze wel statistisch significant. Hierbij moet worden bedacht dat het bestand een groot aantal waarnemingen bevat waardoor de kans op statistisch significante resultaten wordt vergroot.

4.7 Extra analyses

Tot slot zijn er twee aanvullende analyses uitgevoerd. Ten eerste hebben we, om de resultaten van het model te valideren, ook een vergelijkbare analyse uitgevoerd op basis van DUO-data. Zoals beschreven in paragraaf 2.3 en 2.4 hanteert DUO een andere afbakening van de populatie en een andere definitie voor vsv dan het CBS. We willen deze data daarom vooral gebruiken om te zien of een model op basis van DUO-data vergelijkbare kenmerken selecteert als het model dat is geschat op de CBS-data. Hiervoor is dezelfde forward stepwise procedure toegepast. 

In tabel 4.7.1 worden de resultaten vergeleken. Het model op basis van DUO-data komt uit op 22 kenmerken i.p.v. 21 kenmerken op basis van CBS-data. Hiervan zijn de eerste twaalf kenmerken hetzelfde, waarin wel wat verschillen zitten in de volgorde van de kenmerken. Na de twaalf kenmerken zijn ook veel kenmerken dezelfde, alleen weer in een andere positie. Wel zijn het herkomstland van de student en de migratieachtergrond van de moeder nieuw toegevoegd aan het model van DUO. Daarnaast ontbreken het herkomstland van de moeder en de acute gezondheidsproblemen juist weer in het DUO-model. Dat herkomstland en migratieachtergrond verschillend voorkomen, kan komen doordat beide kenmerken relevant zijn, maar ook veel inhoudelijke overlap hebben. De stepwise procedure selecteert dan vaak één van beide kenmerken. 

In paragraaf 4.5 hebben we geconcludeerd dat het model met twaalf kenmerken het beste als eindmodel gebruikt kan worden. Ook onderstaande resultaten bevestigen dat het model stabiel blijft bij twaalf kenmerken. De resultaten op basis van de CBS-data kunnen dus als valide beschouwd worden. 

4.7.1 Stepwise selectie op basis van CBS- en DUO-data voor het mbo
VolgordeKenmerken (CBS 2018/’19)Kenmerken (DUO 2018/’19)
1Mbo-niveauMbo-niveau
2Leeftijd van de studentLeeftijd van de student
3Ouderlijke structuurOuderlijke structuur
4Verdachte van een misdrijfVerdachte van een misdrijf
5GeslachtProblematische schulden
6Hoogst behaalde opleidingsniveau moederGeslacht
7Problematische schuldenHoogst behaalde opleidingsniveau moeder
8LeerwegWelvaart
9Onderwijsrichting volgens ISCEDLeerweg
10WelvaartOnderwijsrichting volgens ISCED
11Psychosociale problemen studentStedelijkheid van de buurt
12Stedelijkheid van de buurtPsychosociale problemen student
13Hoogst behaalde opleidingsniveau vaderHerkomstland student
14Niveau van vooropleidingHoogst behaalde opleidingsniveau vader
15Herkomstland moederVerblijfsduur van moeder in Nederland
16Langdurige gezondheidsproblemenLangdurige gezondheidsproblemen
17Wanbetaler ZVW premie (ouders)Migratieachtergrond moeder
18Verblijfsduur van moeder in NederlandWanbetaler ZVW premie (ouders)
19Acute gezondheidsproblemenAcute gezondheidsproblemen
20Psychosociale problemen moederMigratieachtergrond vader
21Migratieachtergrond moederPsychosociale problemen moeder
22Niveau van vooropleiding

Daarnaast hebben we op basis van het eindmodel met twaalf kenmerken voor de totale populatie op het mbo een simpele aggregatie uitgevoerd van de geschatte kansen op vsv. Dit betekent dat de geschatte kansen van alle studenten in een bepaalde RMC-regio bij elkaar zijn opgeteld. Hiermee krijgen we al een eerste indicatie van de verschillen tussen het werkelijk en geschatte aantal vsv’ers en hoe dit tussen regio’s verschilt. In fase 2 van dit onderzoek zal deze aggregatie naar RMC-regio niveau uitvoerig onderzocht worden. Hierbij zullen ook verschillende keuzes door het ministerie van OCW gemaakt moeten worden.

Om een eerste indicatie te geven van de samenhang tussen het werkelijke en geschatte aantal vsv’ers per RMC-regio op het mbo, hebben we de Pearson correlatiecoëfficiënt uitgerekend. Deze geeft een sterke samenhang aan tussen het werkelijke en geschatte aantal vsv’ers met \( \rho  \)= 0,995.

Omdat het aantal studenten verschillend is per RMC-regio, geven we in figuur 4.7.2 de resultaten relatief weer t.o.v. het totaal aantal studenten per RMC-regio. Dit totale aantal is gebaseerd op de populatiedefinitie van dit onderzoek, dus studenten zonder startkwalificatie. Daarbij is te zien dat er relatief meer spreiding is in de werkelijke percentages dan in de geschatte percentages. Daarnaast komt zowel onderschatting (onder de blauwe lijn) als overschatting (boven de blauwe lijn) voor bij de regio’s.

Aandeel geschatte en werkelijke vsv'ers t.o.v. het totaal aantal leerlingen op het mbo, per RMC-reg