Taalalgoritmen ontdekken seksisme in het tennis

Tennisfinales van Grand Slams worden altijd op zaterdag gespeeld door de vrouwen en op zondag door de heren. Op het terrein volgen ze allemaal dezelfde regels. Maar zodra ze het tennisplein verlaten, verandert het spel.

Twee jaar geleden vroeg een journalist aan Serena Williams waarom ze niet lachte — een vraag waarvan sommigen dachten dat die nooit aan een man zou worden gesteld:

Na de Australian Open in 2012 kreeg een andere speler deze vraag: “Kun je na de training het tennis wat achter je laten en gaan eten, winkelen en wat plezier maken?” Welk geslacht die speler had, is niet moeilijk te raden.

Liye Fu, Cristian Danescu-Niculescu-Mizil en Lillian Lee, drie computerwetenschappers aan de universiteit van Cornell, bouwden algoritmen om te onderzoeken of deze voorbeelden geïsoleerde voorvallen waren of een algemener patroon vormden. Deze algoritmen verwerkten de taal van tienduizenden vragen over duizenden matches gedurende 15 jaar en onderzochten hoe de inhoud van die vragen tussen de twee geslachten verschilden.

Hun werk is ook interessant als je geen interesse in tennis hebt, en niet alleen omdat het een subtiele maar hardnekkige voorkeur op basis van geslacht in onze samenleving blootlegt. Door te begrijpen hoe ze dit voor mekaar kregen, krijgen we ook een inzicht in hoe algoritmen werken. Hoe kunnen algoritmen een taal — een typisch menselijke activiteit — onderzoeken en patronen ontdekken die verwacht werden maar niet konden worden aangetoond?

Dit is wat ze vorig jaar bemerkten: de vraag over het lachen van mevrouw Williams was verre van een uitzondering. In alle geanalyseerde categorieën en vragen wees het algoritme erop dat vrouwelijke spelers veel vaker een vraag kregen die niets met tennis te maken had. Zodra we de typische vragen over tennis wegnemen, worden ongeveer 70 procent van de niet-relevante vragen aan vrouwelijke spelers gesteld.

Hoe een algoritme 528 vragen classificeerde die aan de spelers van de 2017 US Open werden gesteld. Vrouwelijke spelers kregen vaker vragen die niets met tennis te maken hadden.

We vroegen de onderzoekers om hun algoritme toe te passen op de US Open van dit jaar. Hier zijn enkele typische vragen die aan mannelijke tennisspelers werden gevraagd:

“Wat verwacht je van de match?”

“Hoe voelt het om terug de tweede week van de US Open te halen?”

Hier zijn enkele typische vragen die aan vrouwelijke spelers werden gesteld:

“Wat vindt u van de volgende match?”

“U hebt blessures en enkele moeilijke wedstrijden achter de rug, maar waarom is het zo speciaal om hier op de US Open te spelen?”

Het algoritme van de onderzoekers identificeerde ook de meest ongewone, zelfs bizarre vragen die aan de atleten werden gevraagd.

Werd aan mannen gevraagd:

“Waren er momenten waarop u aan zichzelf twijfelde?”

“Wat betekent het voor u dat u een inspiratie bent voor kleine mensen?”

Werd aan vrouwen gevraagd:

“Kent u spelers die hun nagels ter plaatse laten doen?”

“Dacht u aan iets specifieks toen u aan het winkelen was?”

Hoe wist het algoritme dat het deze vragen eruit moest pikken? Hoe besloot het wat wel en wat niet iets met tennis te maken had?

Om dit te begrijpen, moeten we weten waarom algoritmen nuttig zijn voor het verwerken van taal. In dit geval moesten eerst de individuele onderwerpen of woorden worden gevonden waarvan we menen dat ze niets met tennis te maken hebben. Stel je voor dat je dat zonder een computer zou moeten doen. Precies omdat elke taal rijk is, kunnen vragen op talloze manieren verschillen worden gesteld. Met onze ogen door al deze mogelijkheden worstelen, zou eeuwig duren. Maar een algoritme kan duizenden van die mogelijkheden doorzoeken.

Dit is een opzienbarende vaardigheid. Maar het algoritme heeft begeleiding nodig bij het kiezen van de mogelijkheden. We weten ruwweg wat het moet doen: zoeken naar verschillen in de mate waarin vragen met tennis te maken hebben. Maar hoe weet het algoritme welke woordcombinatie met tennis te maken hebben?

Het antwoord op deze vraag is de reden waarom deze publicatie briljant is. De onderzoekers van Cornell begrepen dat ze hun algoritme konden oefenen op een andere reeks gegevens. We beschikken immers niet alleen over de taal van na de wedstrijd, maar ook over de commentaren tijdens de wedstrijden. Die leveren een gids op voor welke woorden en taal met tennis te maken hebben.

Een algoritme dat met deze gegevens getraind wordt, kan worden toegepast op de vragen na de wedstrijd. Het kan de verwantschap met tennis afleiden van de manier waarop de woorden en taalkundige structuren van de vragen verschillen van die van de commentaar tijdens de wedstrijd.

Dit levert een duidelijk patroon van geslachtsvoorkeur op. Hoewel het algoritme zelf niet weet welk geslacht de speler heeft, kan het resultaat ervan tussen beide geslachten worden vergeleken. Om de voor de hand liggende vragen te verwijderen, werd het typische karakter van die vragen in categorieën geplaatst zodat de aandacht kon worden gevestigd op de atypische. De taak van de onderzoekers is nu eenvoudig: de vragen aan mannen en vrouwen met elkaar vergelijken met betrekking tot de mate waarin ze met tennis te maken hebben.

Er komt een duidelijk patroon van geslachtsvoorkeur naar boven: de vragen die niets met tennis te maken hebben werden hoofdzakelijk aan vrouwen gesteld.

Het algoritme liet ook toe om te kijken in welke mate deze niet-relevante vragen afhingen van diverse andere factoren, zoals de uitslag van de wedstrijd en de ranking van de speler.

Boeiend materiaal en redelijk vernietigend voor de journalisten in kwestie.

(bron: New York Times)

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s