Machinevertaling: sterktes en zwakheden

Met kunstmatige intelligentie worden teksten in hun context begrijpelijk, maar de vertaling kan leiden tot vooroordelen en vertekeningen

Warren Weaver was geen goede voorspeller, maar wel een geniale strateeg. Toen deze Amerikaanse wiskundige in de jaren vijftig voorspelde dat machines binnen de vijf jaar automatisch zouden kunnen vertalen, trokken zijn collega’s de wenkbrauwen op. Maar investeerders trokken wel hun portefeuille open. Weaver was misschien een heethoofd, hij had wel een doel: geld krijgen voor onderzoek dat nu nog steeds wordt geperfectioneerd: machinevertaling.

Afgelopen januari kondigde Google aan dat zijn vertaaldienst, Google Translate, in staat zal zijn om simultaan mondelinge vertalingen uit te voeren. Dankzij deze mijlpaal kunnen twee mensen elkaar in verschillende talen begrijpen zonder te moeten opschrijven wat ze willen vertalen, zoals ze tot dusver deden. De koptelefoons van het bedrijf zullen in staat zijn om ons in onze taal in het oor te fluisteren wat er bijvoorbeeld in een bar in Jakarta wordt gezegd. Van deze technologie wordt in sciencefiction, van Star Trek tot The Hitchhiker’s Guide to the Galaxy, al tientallen jaren gewag gemaakt. Beleggers en kopers zijn bereid geld te investeren, maar deze keer zonder vreemde gelaatstrekken van de experts.

De verklaringen van Weaver waren het startsein, de aankondiging van Google zou de eindsprint kunnen zijn in een marathon die al 80 jaar duurt. Machinevertaling detecteert 180 talen en helpt ons te begrijpen wat er op het internet wordt geschreven (al is de vertaling verre van nauwkeurig), zorgt ervoor dat er enige communicatie mogelijk is waar dat tot dusver niet het geval was en belooft een toekomst waarin taal-, cultuur- en zelfs klassenbarrières vervagen. Maar voordat we naar die mogelijke (!) toekomstige voordelen kijken, is het de moeite waard de huidige risico’s eens onder de loep te leggen.

“Als je niet weet hoe je het moet gebruiken, kan je door Google Translate slechter Engels spreken”, bevestigt Celia Rico, een expert in vertaaltechnologieën aan de Europese Universiteit van Madrid. “Het is gebaseerd op een corpus van woorden en die kunnen beperkt worden, waardoor de taal verslechtert. We mogen ons niet beperken tot het gebruik ervan en denken dat alles wat eruit komt perfect is.” Rico is vertaler, maar haar bewering komt niet voort uit fout begrepen rivaliteit. Ze bestudeert machinevertaling al 30 jaar met passie. “Iedereen beeldt zich een vertaler voor met een pen en een woordenboek, maar vertalen is een zeer technologisch beroep”, legt ze met een glimlach uit. “We gebruiken bijna allemaal automatische vertaalhulpmiddelen. Ze maken ons werk gemakkelijker, maar je moet wel weten hoe je ze moet gebruiken.”

Hoe moeten we Google Translate dan gebruiken? “Als het over een taal gaat die we kennen, kan het dienen als een eerste stap, als een beetje inspiratie,” zegt Rico. “Het kan ons ook helpen als we bepaalde woorden niet kennen”. Maar vervolgens moet de tekst grondig worden herzien, aangepast en bijgeschaafd. En dit, concludeert de vertaler, kan niet door een machine worden gedaan.

De maker van de machine is het daar ironisch genoeg mee eens. Google benadrukt dat zijn tool nooit het werk van een goede vertaler kan vervangen en geeft dit advies aan de gebruikers: “Google Translate werkt het beste voor korte stukken tekst, zoals menu’s, borden of artikelen, en kan zeer nuttig zijn in korte gesprekken wanneer we, bijvoorbeeld, de weg moeten vragen, controleren welke ingrediënten er in een gerecht zitten of de prijs van iets moeten achterhalen. Het is niet bedoeld om een vloeiend gesprek in een andere taal te voeren.”

Als je dit hulpmiddel gebruikt, mag je niet vergeten dat je je anders uitdrukt, afhankelijk van de taal. “De vertaling kan accuraat zijn, maar als je ze leest, besef je vaak dat er iets niet klopt,” zegt Rico. “In het Spaans gaan we bijvoorbeeld dieper in op hetzelfde idee, we draaien meer in het rond, terwijl het Engels kortere en directere zinnen gebruikt. Mensen redeneren anders naar gelang van de taal en dit is merkbaar in de manier waarop teksten zijn gestructureerd.” Dit is waar het werk van een goede vertaler om de hoek komt kijken. Die vertaalt veel minder letterlijk zonder de geest van een tekst te veranderen.

Carmen Torrijos heeft haar hele leven gewijd aan ons elkaar beter te laten begrijpen. Vroeger deed ze dat door te vertalen voor mensen met verschillende talen. Nu doet ze dat door te vertalen tussen mensen en machines. Deze voormalige vertaler heeft zich omgeschoold in de computationele linguïstiek, een job die ze uitoefent aan het Instituto de Ingeniería del Conocimiento. Daardoor heeft ze een meer globale visie op machinevertaling. Haar mening over deze technologie geeft ze aan de hand van een anekdote: “Ik vroeg Google Translate eens naar de exacte vertaling van de Spaanse uitdrukking “trata de personas”, en die antwoordde: “gaat over mensen”. Ik wendde me toen tot de vertaalmachine DeepL, die “mensenhandel” antwoordde. Het verschil was groot, maar strikt genomen waren beide antwoorden juist. Alleen ik kon beslissen welk antwoord juist was, omdat ik de aard van de tekst, de context en de opdrachtgever kende.” Daarom raadt zij aan de tekst grondig te lezen alvorens op de knop te klikken en erop te vertrouwen dat de machines hun werk goed doen.

De bureaucratie is de nieuwe Steen van Rosetta

Deze magie wordt echter steeds gesofisticeerder. In de nieuwste versie wordt bij machinevertaling rekening gehouden met de context alvorens te vertalen. “Ik denk dat de grote verandering in 2014 plaatsvond, toen Google het neurale netwerk begon te gebruiken voor vertaling”, zegt Rico. Tot dan baseerde machinevertaling zich op syntactische en statistische vertaling, waarbij ze afzonderlijke woorden interpreteerde. Met kunstmatige intelligentie kan machinevertaling teksten in hun geheel begrijpen en details in hun context plaatsen.

Om dit te bereiken voeden technologiebedrijven algoritmen met een enorme hoeveelheid teksten die in verschillende talen zijn vertaald. En door de beschikbare databanken te doorzoeken, hebben ze een rijke bron gevonden in de meest onvermoede hoek van het internet: die van de internationale bureaucratie. Handelsverdragen, protocollen van de Verenigde Naties of wetten van de Europese Unie, opgesteld in tientallen talen van de aangesloten landen, zijn het perfecte voedsel voor deze algoritmen. De bureaucratie is de nieuwe Steen van Rosetta. Misschien is dat de reden waarom machinevertalingen veel betrouwbaarder zijn in formele en academische taal, maar zwaar falen als het gaat om het vertalen van minder formele taal, zoals persberichten en marketingcommunicatie. En dan hebben we het nog niet over uitdrukkingen en straattaal, die ook voortdurend in ontwikkeling is.

Als machinevertaling op deze manier wordt gevoed, dan leidt dit tot vertekeningen en vervormingen. “Als je machinevertaling bijvoorbeeld oefent met politieke teksten, dan worden medische teksten vrij slecht vertaald”, verklaart Marta R. Costa-Jussà, onderzoekster aan de Polytechnische Universiteit van Catalonië. “Het kan ook gendervooroordelen versterken”, zegt ze. Een voorbeeld: in het Engels hebben namen geen geslacht, dus beroepen zijn neutraal. Maar bij de vertaling in andere talen, bijvoorbeeld Romaanse talen, moet er een geslacht aan worden toegekend. En dit geeft weer wat je op het internet leest. Dus al jarenlang zijn dokters mannen en verpleegsters vrouwen. In 2018 heeft Google Translate dit probleem gecorrigeerd door een dubbel venster toe te voegen met vertalingen in beide geslachten. Maar Algorithm Watch stelde aan de kaak dat sommige seksistische vooroordelen de verandering hebben overleefd.

De kwaliteit van de machinevertaling hangt in grote mate af van de beschikbaarheid van teksten in de betreffende taal. Het is duidelijk dat er in het Kazachs niet evenveel teksten zijn als in het Japans. Daarom werkt de vertaling in het Kazachs niet zo goed. Dit geldt, in mindere mate, ook voor tussentalen. “Spraakherkenners werken beter in het Duits dan in het Fins. Machinevertaling tussen het Engels en het Portugees is aanzienlijk beter dan tussen het Nederlands en het Spaans”, zegt Costa-Jussà. Zij probeert ervoor te zorgen dat dit niet langer het geval is, niet met woorden maar met cijfers.

Het LUNAR-project, onder leiding van Costa-Jussà, heeft tot doel een soort wiskundig Esperanto te creëren. “We willen zowel gesproken als geschreven taal wiskundig voorstellen”, legt de onderzoeker uit. “De huidige vertaalsystemen gebruiken diep-lerende algoritmen die taal omzetten in een wiskundige voorstelling”. LUNAR wil gebruikmaken van het abstractievermogen van deze algoritmen en komen tot een universele voorstelling van taal, een taal tot een formule herleiden. Met deze voorstelling wordt het mogelijk om de kwaliteit van machinevertaling van minderheidstalen te verbeteren, of zoals Costa-Jussà ze noemt: “talen met weinig bronnen”.

Projecten zoals LUNAR hebben tot doel taalbarrières neer te halen, maar ze willen (en kunnen) het proces van het leren van een taal of menselijk vertaalwerk niet vervangen. De culturele, persoonlijke en taalkundige rijkdom van het leren van een nieuwe taal is uniek. Umberto Eco zei in zijn boek Dire quasi la stessa cosa (Bijna hetzelfde zeggen) dat vertalen een kwestie van onderhandelen is en niet kan worden herleid tot een handvol formules en algoritmen. Maar dat lijkt ook niet de bedoeling te zijn van deze middelen en van de onderzoekers die ze verbeteren. “We willen geen tolken en vertalers vervangen en we willen niemand ervan weerhouden een nieuwe taal te leren”, zegt Google. “We willen de taalbarrières doorbreken en het voor mensen makkelijker maken om te communiceren. Taal is meer dan woorden, en wij steunen en stimuleren van harte het leren van nieuwe talen en andere culturen.”

Warren Weaver was niet alleen een groot strateeg, hij was ook een gulzige verzamelaar. De wiskundige was geobsedeerd door Alice in Wonderland. Hij verzamelde wel 160 versies van het boek van Lewis Carroll in 42 verschillende talen. Hij schreef zelfs een boek, Alice in vele talen, waarin hij de kwaliteit van de versies analyseerde en vooral aandacht besteedde aan wat hij het moeilijkst te vertalen vond: de woordspelingen en logische grappen van de Gekke Hoedenmaker, iets wat een machine volgens hem nooit vloeiend zou kunnen vertalen. Tot nu toe lijkt de realiteit hem gelijk te geven, hoewel we al gezegd hebben dat Weaver als profeet niet bijzonder goed was.

(bron: El País)

Aanvulling:
Al tientallen jaren krijgen vertalers en tolken te horen dat hun rijk uit is en ze spoedig zullen worden vervangen door machines. Machinevertaling wordt dan wel steeds beter, de voorspelling is nog altijd niet uitgekomen. En dat zal ook niet zo snel gebeuren.

Dat komt omdat machinevertaling uitstekend is waarvoor ze bedoeld is: om communicatie tussen mensen gemakkelijker te maken.

Maar wie voor de vertaling van de teksten van zijn of haar bedrijf op machinevertaling wil vertrouwen, zelfs als die door mensen wordt nagelezen (dit zijn overigens nooit professionals, steevast amateurs of studenten), die hecht dan bijzonder weinig belang aan het imago of de reputatie en dus de verkoop van zijn of haar bedrijf.

Wie een échte kwaliteitsvolle, degelijke vertaling wenst, laat machinevertaling beter links liggen en vertrouwt op professionele vertalers.

De Taalfluisteraar

Interessante, leuke, toffe en bijwijlen humoristische stukjes over taal

Machinevertaling: sterktes en zwakheden

De bureaucratie is de nieuwe Steen van Rosetta

Plaats een reactie Reactie annuleren

De bureaucratie is de nieuwe Steen van Rosetta

Dit delen:

Gerelateerd

Plaats een reactie Reactie annuleren