Zeker als je al enige tijd een door mensen aangestuurd vertaalproces hebt, kun je je afvragen of machinevertaling (MT) vergelijkbare resultaten kan opleveren in termen van kwaliteit. Laten we het hebben over de algehele nauwkeurigheid van MT, hoe de kwaliteit van machinevertalingen wordt beoordeeld, en waar MT en de schatting van MT-kwaliteit naartoe gaan.
Wat is de nauwkeurigheid van machinevertaling?
Automatische vertaling is vrij nauwkeurig dankzij de opkomst van neurale netwerken-eenmethode in kunstmatige intelligentie. In plaats van bijna woord-voor-woord te vertalen, houden deze netwerken rekening met de context om nauwkeurigere vertalingen te produceren. Maar komen ze in de buurt van het menselijke equivalent? Het antwoord hangt vaak van verschillende factoren af:
- Uw software voor automatische vertaling. Sommige MT-engines zijn betrouwbaarder dan andere op het gebied van vertaalkwaliteit, dus degene die u kiest is belangrijk.
- Domein. Sommige automatische vertaalsystemen zijn voor algemeen gebruik, terwijl andere zijn getraind in specifieke industrieën. Bij het vertalen van complexe terminologie, zoals voor wetenschappelijke of juridische inhoud, kan het hebben van een MT-engine die op uw domein is getraind het verschil maken.
- Inhoudstype. Machinevertaling is mogelijk niet zo nauwkeurig voor zaken als marketingcampagnes, slogans of slogans. Deze vereisen vaak het vastleggen van de persoonlijkheid of een emotie van een merk in plaats van het weergeven van een exacte vertaling.
- Talencombinatie. Zelfs de kwaliteitsscores van de beste MT-providers zijn afhankelijk van de talencombinatie. Dit kan worden veroorzaakt door verschillende factoren, waaronder een gebrek aan equivalente woorden of zinsdelen in de doel- en brontaal.
Al met al kan machinevertaling u vaak al een heel eind op weg helpen met een vertaling. Menselijke vertalers kunnen dan machine translation post-editing (MTPE) uitvoeren om de nauwkeurigheid te garanderen en de inhoud publiceerbaar te maken.
Wat is evaluatie van machinale vertaalkwaliteit?
MT-kwaliteitsevaluatie is de traditionele manier om te beoordelen of machinaal vertaalde tekst vergelijkbaar is met hoe een mens brontekst zou vertalen. Er zijn verschillende evaluatiemaatstaven, waaronder BLEU, NIST en TER. Deze worden gebruikt om machinaal vertaalde segmenten te scoren op basis van hun gelijkenis met referentievertalingen.
Referentievertalingen zijn vertalingen van hoge kwaliteit van de brontekst die door menselijke vertalers worden gegenereerd. Deze verwijzingen zijn natuurlijk nuttig. Ze zijn echter niet altijd beschikbaar - het is niet ideaal om erop te vertrouwen tijdens vertaalprojecten. Wat is dan de meest effectieve manier om kwaliteit te beoordelen? Bij Smartling gebruiken we een combinatie van twee werkwijzen.
De eerste is een maandelijkse multidimensionale kwaliteitsbeoordeling (MQM) door een derde partij op acht locaties. Deze beoordelingen zijn de gouden standaard in de branche voor het evalueren van HT, MT en MTPE. Om de juiste kwaliteitsscores toe te kennen, kijkt MQM naar het type en de ernst van de fouten die in de vertaalde tekst worden aangetroffen.
Ten tweede maken we gebruik van doorlopende, realtime, geautomatiseerde kwaliteitsbeoordelingen. Deze meten de eindafstand of het vertaalfoutpercentage voor HT, MT en MTPE. Uiteindelijk stellen deze twee soorten evaluaties ons in staat om een gegarandeerde vertaalkwaliteit te bieden.
Wat is het belang van evaluatie van automatische vertalingen?
De evaluatie is bedoeld om te bepalen of een vertaling aan de volgende criteria voldoet:
- Nauwkeurig. De inhoud moet de boodschap en het sentiment van de originele tekst in de doeltaal getrouw overbrengen.
- Duidelijk. De boodschap moet gemakkelijk te begrijpen zijn en eventuele instructies moeten uitvoerbaar en gemakkelijk te volgen zijn.
- Passend. Bepaalde doelgroepen vereisen bijvoorbeeld een bepaalde mate van formaliteit. Het is van cruciaal belang ervoor te zorgen dat vertaalde segmenten het publiek het nodige respect tonen en hen niet vervreemden of beledigen.
Een vertaald segment dat op een van deze gebieden tekortschiet, moet achteraf worden bewerkt door een menselijke vertaler.
Wat betreft de voordelen van MT-evaluatie, er zijn er verschillende. U kunt het gebruiken om de vertaalkosten en besparingen te schatten en om een passende vergoeding voor taalkundigen te bepalen. Vertalers kunnen ook in één oogopslag zien hoeveel inspanning na het bewerken van een stuk inhoud nodig is.
Twee methoden om de kwaliteit van machinevertalingen te beoordelen
Er zijn twee opties voor het evalueren van machinevertaling:
- Handmatige evaluatie: Menselijke vertalers kijken naar factoren zoals vloeiendheid, geschiktheid en vertaalfouten, zoals ontbrekende woorden en onjuiste woordvolgorde. Het nadeel van deze methode is dat elke taalkundige "kwaliteit" subjectief kan definiëren.
- Automatische evaluatie: Bij deze methode wordt er gescoord via algoritmen. De algoritmen gebruiken menselijke referentievertalingen en automatische metrieken zoals BLEU en METEOR om de kwaliteit te beoordelen. Hoewel menselijke evaluatie nauwkeuriger is op zinsniveau, geeft deze methode een overzicht in vogelvlucht en is het schaalbaarder en kosteneffectiever.
De verschillen: schatting van de kwaliteit van machinevertaling versus evaluatie
In tegenstelling tot kwaliteitsevaluatie, is de schatting van machinale vertaalkwaliteit (MTQE) niet afhankelijk van menselijke referentievertalingen. Het gebruikt machine learning (ML)-methoden om te leren van correlaties tussen bron- en doelsegmenten. Deze correlaties vormen de informatie voor de schattingen, die kunnen worden gemaakt op woord-, zins-, zins- of documentniveau.
Waarvoor gebruikt u MT-kwaliteitsschatting?
In onze Reality Series-aflevering over kwaliteitsschatting van machinevertalingen gaf Mei Zheng, Senior Data Scientist bij Smartling, het volgende advies:
"Als je de middelen hebt om al je inhoud automatisch te scoren, doe dat dan zeker. Bemonstert vervolgens enkele van die tekenreeksen voor evaluatie door mensen. Op deze manier krijg je een basislijn van waar die automatische score mee overeenkomt als een taalkundige het ziet."
Wat is de waarde van het vaststellen van deze basislijnen op basis van kwaliteitsschattingen voor een breed scala aan inhoud? Wanneer u ook patronen identificeert in onjuist vertaalde tekenreeksen, kunt u snel en betrouwbaar beoordelen of machinaal vertaalde inhoud kan worden gepubliceerd zoals deze is.
Factoren die van invloed zijn op de schattingsscores van MT-kwaliteit
Automatische kwaliteitsschatting is snel en kosteneffectief. Echter, zoals Alex Yanishevsky, Smartling's Director of MT and AI Solutions zegt: "Het zal je niet hetzelfde inzicht geven als een mens zou doen." Zoals besproken in het MTQE-webinar, zijn hier verschillende redenen voor.
De bron en de kwaliteit ervan
Er zijn verschillende algoritmen voor het schatten van kwaliteit, maar de meeste houden geen rekening met de omringende context, zoals geslacht. Denk bijvoorbeeld aan de volgende tekst: "Dr. Smith werd schuldig bevonden aan het houden van een beschermd dier in het Atherton Magistrates Court nadat hij was beschuldigd van het verwijderen van een scrubpython van het eigendom van een bewoner. Vervolgens doorliep ze de juridische procedure om in beroep te gaan tegen de uitspraak van de rechtbank."
Voor de nauwkeurigheid zou in een taal als Spaans "Doctor" in de vrouwelijke vorm moeten worden vertaald (d.w.z. "Doctora"). De meeste MT-engines zijn echter niet getraind om dit soort gendervooroordelen te detecteren. Zonder prompt engineering toegepast op de brontaal, kan de uitvoer onjuist zijn en van invloed zijn op de kwaliteitsscore.
Beschrijving van de afbeelding: Bronoverwegingen voor het schatten van MT-kwaliteit
Een andere factor die van invloed kan zijn op kwaliteitsschattingen is een gebrek aan duidelijkheid of de mogelijkheid van meerdere interpretaties van de brontekst. Mei verwoordde het eenvoudig: "Als de bron dubbelzinnig is, en wij als mensen niet weten hoe we die moeten interpreteren, kunnen we niet verwachten dat machinevertaling het beter doet dan wij."
Omdat MTQE-modellen zijn getraind op schone datasets, gaan ze bovendien niet altijd goed om met rommeligere gegevens. Godslastering is een goed voorbeeld. Mei legde uit: "Als je godslastering gebruikt, geven [kwaliteitsschatting] modellen een zeer hoge straf. Ze zeggen tegen je: 'Hé, dit is een slechte vertaling; Dit moet je niet publiceren.' Als je use cases hebt voor [godslastering], kun je deze automatische scoremechanismen daar niet voor gebruiken."
Uw domein of branche
Verschillende scorealgoritmen kunnen verschillende schattingen geven op basis van hun bekendheid met de terminologie van een branche. Alex benadrukte dus dat "er niet één scoringsalgoritme is dat allesomvattend is". Hij vervolgde: "Om een algoritme effectief te laten zijn, hebben we specifieke gegevens nodig voor dat domein of die branche." Net zoals MT-systemen kunnen worden aangepast aan een bepaalde branche om nauwkeurigere vertalingen op te leveren, kunnen scoringsalgoritmen ook worden getraind op specifieke domeinen.
Deze domeinspecifieke gegevens kunnen vaak van cruciaal belang zijn. Alex legde uit: "Als je een gereguleerde industrie hebt, zoals biowetenschappen, medisch of farmaceutisch, is 90% [nauwkeurigheid] in de meeste gevallen waarschijnlijk niet goed genoeg. Als de komma bijvoorbeeld op de verkeerde plaats staat en we hebben het over het gebruik van een chirurgisch mes, kan dat letterlijk het verschil zijn tussen leven of dood." Er staat ook veel op het spel in andere sectoren, zoals de financiële en juridische sector.
Het beoogde publiek
Schattingen kunnen ook variëren op basis van het begrip van een algoritme van kwaliteitsdrempels voor een bepaalde taal. Mei zei: "Formaliteit - de woordkeuze en stem van je inhoud - valt onder je stilistische voorkeuren. Maar soms is het meer dan voorkeur. Het is als: 'Ik moet dit formeel overbrengen; anders ben ik mijn cliënt kwijt.'" Vandaar dat handmatige evaluatie zo gunstig kan zijn voor de kwaliteitsborging.
Mei vervolgt: "In het geval van Spaans, waar het niet alleen formeel of informeel is, hangt de woordkeuze echt af van de mate van respect die u moet tonen aan de persoon met wie u spreekt. En dat hangt af van de relatie die u met die persoon hebt - of die persoon een hogere rang heeft dan u, of een lagere rang heeft dan u."
De toekomst van machinevertaling, kwaliteit en MTQE
De kwaliteit van machinevertalingen zal blijven verbeteren, vooral omdat meer mensen grote taalmodellen (LLM's) zoals GPT-4 gebruiken om het aan te vullen. Mei merkte op dat "deze LLM's zeer krachtig zijn in het aanbrengen van correcties aan MT's, zoals [het waarborgen van] de nauwkeurigheid van geslacht, formaliteit, stijlgidsen, enz." Ze hebben echter tekortkomingen waardoor taalkundigen de speling moeten oppikken. LLM-hallucinaties - waarbij modellen onnauwkeurige informatie als feit presenteren - zijn hier een goed voorbeeld van.
Uiteindelijk zullen MT en LLM's het mogelijk maken om vertaalprojecten sneller en nauwkeuriger af te ronden. Maar taalkundigen blijven aan het stuur zitten en passen zo nodig aan om de vertalingen te verbeteren. Alex deelde een soortgelijk gevoel en voorspelde dat vertalers uiteindelijk meer van de taken van een prompt-engineer op zich zouden kunnen nemen. "Ze zullen beginnen te leren hoe ze daadwerkelijk prompts kunnen schrijven op zo'n manier dat de LLM in staat zal zijn om de output te corrigeren en glad te strijken tot een bepaalde stijl die ze nodig hebben - of het nu geslacht is, of het nu formaliteit is."
En hoe zit het met de toekomst van het schatten van machinale vertaalkwaliteit? Een grote sprong voorwaarts zal het maken van algoritmen zijn die rekening houden met de bron en het doel. In het ideale geval kunnen ze de scores op de juiste manier wegen om rekening te houden met factoren zoals dubbelzinnigheid en complexiteit van het onderwerp. Of op zijn minst het proces verbeteren voor het signaleren van problemen die het doelwit negatief kunnen beïnvloeden.
In de tussentijd hebt u echter al toegang tot geavanceerde automatische vertaalmachines via de Neural Machine Translation Hub van Smartling. Er zijn zelfs ingebouwde functies voor kwaliteitsbeoordeling, zoals Smartling Auto-Select. (Auto-Select houdt rekening met de laatste bewerkingen van elke beschikbare machinevertaalmachine en identificeert de huidige beste leverancier voor een specifiek talenpaar).
Beschrijving van de afbeelding: MT-motoren geïntegreerd in Smartling NMT-naaf
Wat zijn de resultaten van deze op kwaliteitsschattingen gebaseerde multi-MT engine-aanpak? Tot 350% hogere kwaliteit machinevertalingen en een verminderde behoefte aan nabewerking, wat lagere kosten en een snellere time-to-market betekent.
Voor meer informatie over hoe Smartling u kan helpen deze resultaten te bereiken, bekijkt u onze Neural Machine Translation Hub-demo. We beantwoorden daarna graag al je vragen!