Versnellingsplan in praktijk: “Met simulatiedata test je de ‘eerlijkheid’ van machine learning”

zone studiedata

Machine learning wordt steeds meer gebruikt om voorspellingen te doen. Maar gebeurt dit wel op een ethische manier? MSc-student Michelle Otten gebruikte de simulatiedataset om dit te testen: “Er zijn veel risico’s op onbewuste discriminatie”.

Voor haar thesis heeft Michelle Otten bestaande modellen binnen machine learning onderzocht in combinatie met ethiek. “Ik ben specifiek ingegaan op het voorspellen van studentsucces. Onderwijsinstellingen kunnen bijvoorbeeld machine learning gebruiken om de kwaliteit van hun onderwijs te verbeteren en op tijd hulp of extra uitdaging te bieden waar nodig. Met gebruik van een simulatiedataset wilde ik testen of gevestigde modellen op een ethische en eerlijke manier werken, zodat er gelijke kansen zijn.”

Naam: Michelle Otten (25)
Functie: MSc Student Business Analytics & Management aan de Erasmus Universiteit Rotterdam (EUR)
Favoriete YouTube-kanaal: ‘Impact Theory’, waarin Tom Bilyeu vele deskundigen interviewt over psychologie, gezondheid, relaties en het waarmaken van je ambities
Als ik morgen minister van OCW zou zijn, zou ik als eerste: de afschaffing van de studiefinanciering terugdraaien, zodat iedereen de mogelijkheid heeft om zorgeloos door te studeren

Machine learning

Michelle licht toe: “Machine learning is een vorm van artificial intelligence. Op basis van bestaande gegevens worden toekomstige gegevens voorspeld, door patronen in data te vinden en deze te reproduceren. Dit geeft redelijk betrouwbare en sterke voorspellingen, maar een model kan niet zomaar in elke situatie gebruikt worden. Door de ingewikkelde algoritmes kunnen er namelijk onbedoeld fouten in sluipen.”

“Soms worden specifieke bevolkingsgroepen benadeeld door onbedoelde fouten.”

Michelle Otten

Sensitieve variabelen

Gelijke kansen worden bepaald vanuit de normen in de discriminatiewet. “De uitdaging ligt vooral in het bewust of onbewust gebruiken van variabelen die potentieel tot discriminatie kunnen leiden. In de AVG-wetgeving worden dit ‘sensitieve variabelen’ genoemd, zoals geslacht, politieke gezindheid of sociaaleconomische achtergrond. In onderzoek wordt ook rekening gehouden met ‘proxy-variabelen’. Dit zijn variabelen die een hoge correlatie hebben met variabelen die tot discriminatie kunnen leiden. De variabelen lijken dus neutraal, maar zijn het eigenlijk niet.”

“Om te beoordelen of een model in de praktijk tot discriminatie leidt moet je heel specifiek naar het doel kijken.”

Michelle Otten

Michelle licht toe: “Het is niet zo dat je deze sensitieve variabelen niet kunt gebruiken bij het doen van voorspellingen, maar je moet wel voorzichtig zijn in welke situatie je ze gebruikt. Dit blijft overigens een subjectieve afweging. Het belangrijkste is om naar het doel te kijken waarvoor je de variabelen gebruikt.”

Gesimuleerde data

Om bestaande modellen te testen op ethische risico’s heeft Michelle twee use cases opgesteld: “Ik heb twee modellen opgesteld die gebruik maken van (examen)cijfers om enerzijds toelatingscriteria vorm te geven en anderzijds te identificeren welke studenten mogelijk zullen onderpresteren.” Door de huidige AVG-wetgeving is het echter lastig voor onderwijsinstellingen om de benodigde data vrij te mogen maken of te mogen delen met externe partijen zoals Michelle.

“Dankzij de simulatiedataset had ik ineens toegang tot data van ruim 20.000 gesimuleerde studenten”

Michelle Otten

“Op aanraden van mijn thesisbegeleider heb ik daarom de simulatiedataset gebruikt. Deze is gecreëerd door de Erasmus Universiteit, de VU Amsterdam en de zone Veilig en betrouwbaar studiedata benutten, en heeft rond de 2.2 miljoen observaties van ruim 20.000 gesimuleerde studenten. Dit houdt in dat er op basis van echte studentdata een fictieve dataset is gecreëerd, waarin dezelfde correlaties van toepassing zijn. Op deze manier is de data niet te herleiden naar bestaande studenten en mogen mijn resultaten ook publiek worden gemaakt.”  

Ethische implicaties

Michelle is de eerste externe onderzoeker die de simulatiedataset heeft gebruikt. Ze had hiervoor contact met Dominique van Deursen van de EUR: “Dominique heeft me geholpen om de dataset te begrijpen, goed te gebruiken en goed te beschrijven in mijn onderzoek. Ik heb een aantal kleine fouten ontdekt die worden aangepakt, er werden bijvoorbeeld meerdere geslachten toegekend aan een studentnummer. Mijn aanbeveling is om mijn onderzoek te reproduceren met echte data om de resultaten te valideren.”

Een van de resultaten vanuit de use case over toelatingscriteria is dat Michelle heeft gekozen om de variabele of ouders hebben gestudeerd aan een universiteit weg te laten uit het voorspellende model: “Door te kijken naar de ouders vergroot je het risico op sociaaleconomische ongelijkheid. Maar je kan deze informatie wél gebruiken om te kijken welke studenten extra hulp nodig hebben, omdat ze bijvoorbeeld niet van huis uit hebben meegekregen hoe je moet leren of hoe je een studieplanning maakt. Dit benadrukt de noodzaak tot een bewuste, ethische overweging van het gebruik van variabelen voor verschillende doeleinden.”

Ook de simulatiedataset gebruiken?

Ben je bezig met onderzoek en wil je weten of je de simulatiedataset hiervoor kunt gebruiken? Of ben je nieuwsgierig naar de achterliggende gedachte van de dataset? Neem dan contact op met Bram Enning (enning.b@hsleiden.nl) of lees verder voor meer informatie.

Tekst: Bianca Oppelaar
Beeld: Hunter Harritt via Unsplash 

Uitgelicht

De volgende publicaties, producten en projecten vind je wellicht ook interessent
Product
Digitale CompetentiePeiler

Digitale Competentiepeiler De Digitale CompetentiePeiler is een toekomstig product van de zone Versterken van digitale human capital. Het product helpt

Project
Ik ben digitaal bekwaam

Het Project Ik ben digitaal bekwaam – een project van de zone Versterken van digitale human capital – is gericht