Duik in de mythen en realiteiten van de schatting en verzekering van vertaalkwaliteit, gezien door de lens van de MQM-methodologie (Multidimensional Quality Metrics). MQM is een uitgebreid systeem dat ontworpen is om de kwaliteit van vertaalde inhoud te beoordelen en te controleren. MQM dient als een gestandaardiseerd kader voor Linguistic Quality Assurance (LQA) om de kwaliteit van vertalingen in verschillende categorieën te evalueren. Het beoordelen van vertalingen volgens het MQM-kader kan helpen bij het identificeren van sterke punten in uw lokalisatieproces en kansen om te verbeteren.
In deze chat bij het haardvuur verkennen we de veelgemaakte fouten en best practices die worden gebruikt om taalkundige kwaliteit van het hoogste niveau te garanderen. Ontdek hoe de MQM-methodologie zowel lokalisatiemanagers als taalkundigen in staat kan stellen om fouten te minimaliseren, subjectiviteit te elimineren en hun vertaaloutput te verbeteren.
Onze experts voor deze sessie zijn:
- Olga Beregovaja - Nederland | VP van AI en machinevertaling
- Valerie Dehant | Senior Directeur, Taaldiensten
- Alex Yanishevsky | Directeur van AI en Machine Translation implementaties
Vertaalkwaliteit: inzicht in de MQM-methodologie
De vertaalindustrie gedijt, net als elke andere, op kwaliteit. Maar hoe evalueer je de kwaliteit van vertalingen? Aflevering zeven van Smartlings 'Reality Series' leverde waardevolle inzichten op over de kwaliteit van vertalingen. Essentiële aspecten, variërend van machinevertaling (MT), menselijke vertaling (HT) en MQM (Multidimensional Quality Metrics) raamwerk, worden gebruikt om licht te werpen op dit complexe probleem.
Mythe: Een native speaker kan kwaliteit beoordelen De sprekers begonnen met het ontkrachten van de hardnekkige mythe dat elke moedertaalspreker de vertaalkwaliteit kan beoordelen. Het meten van 'vertaalkwaliteit' is inderdaad veel complexer. In feite is kwaliteitsevaluatie vrij subjectief en vereist het een goed begrip van de context en nuances van zowel de bron- als de doeltaal.
MQM-raamwerk Het belangrijkste onderwerp van de sessie was de introductie van het MQM-raamwerk (multidimensional quality metrics). Dit model stapt af van de traditionele adequaatheids- en vloeiendheidsevaluaties en biedt een objectievere methode voor het beoordelen van de vertaalkwaliteit. Het houdt rekening met factoren als geschiktheid, vloeiendheid en bruikbaarheid, terwijl het ook blinde evaluatie aanmoedigt. De sprekers benadrukten het belang van blinde evaluatie in MQM, waarbij beoordelaars niet weten of de vertaling door een mens of een machine is uitgevoerd. Ze onderstreepten de vitale rol van deze techniek bij het elimineren van elke vooringenomenheid uit de evaluatie.
Waarin verschilt MQM van conventionele methoden? Olga Beregovaya stelde dat het allemaal draait om de classificatie en kwantificering van 'vertaalfouten'. In het MQM-model worden fouten gecategoriseerd en worden ernstgewichten toegekend om een algemene kwaliteitsscore te berekenen. Deze methodologie stelt ons in staat om het concept van vertaalkwaliteit te kwantificeren en om te zetten in een numerieke waarde die kan worden gebruikt voor verbetering.
De sprekers gingen in op andere relevante evaluatiemaatstaven voor de industrie, zoals BLEU, TER en kwaliteitsschatting met grote taalmodellen (LLM's). Deze tools, gecombineerd met voortdurende experimenten met LLM's voor kwaliteitsschatting en semantische evaluatie, vergroten ons begrip van motorgedrag aanzienlijk.
Olga Beregovaya bracht het verschil tussen tekstuele en semantische scoring aan het licht. Tekstuele scoring houdt vooral rekening met het verschil in tekens of woorden die nodig zijn om een verandering aan te brengen, terwijl semantische scoring de associaties tussen woorden en concepten in zinnen onderzoekt. Ze benadrukte ook het belang van menselijke betrokkenheid bij het identificeren van statistische uitschieters en uitzonderingen bij het scoren.
Alex Yanishevsky stelde de kwestie van gegevenskwaliteit aan de orde in de context van de inzet van Large Language Models (LLM's). Hij beweerde dat gegevens van hoge kwaliteit van fundamenteel belang zijn en onderstreepte de noodzaak om hallucinaties vast te leggen wanneer het model aanzienlijk afwijkt van de werkelijke betekenis.
Arbitrage en KPI's Valérie Dehant benadrukte de rol van arbitrage bij het oplossen van meningsverschillen tussen taalkundigen en het bereiken van een consistente etikettering van fouten. Ze benadrukte de cruciale rol van de MQM-methodologie bij het faciliteren van arbitrage in scenario's waarin tegenstrijdige labels van foutcategorieën het modelleren schaden. De unieke arbitragemogelijkheid van de MQM biedt een duidelijk onderscheid tussen fouten, waardoor een naadloos modeltrainingsproces mogelijk is.
Alex Yanishevsky merkte op dat Key Performance Indicators (KPI's) voor machinevertaling en menselijke vertaling specifiek zijn voor het doel van de inhoud. Hij wekte interesse door emotionele betrokkenheid, gebruikerstevredenheid, conversies en het oplossen van supporttickets te noemen als potentiële KPI's, afhankelijk van het type inhoud en de manier waarop deze werd onderhouden (MT of HT).
Valérie Dehant introduceerde de toolkit van Smartling die het maken van schema's stroomlijnt, fouten registreert en de samenwerking tussen beoordelaars bevordert via een dashboard, uitgerust met MQM-scores, dat gedetailleerd inzicht geeft in fouten en mogelijke verbeterpunten. Deze gedetailleerde analyse van fouten vergemakkelijkt het opstellen van actieplannen voor kwaliteitsverbetering.
Het Verdict Door de wetenschap achter vertaalkwaliteit te begrijpen en door het MQM-raamwerk te implementeren, kunnen we de evaluatie van kwaliteit benaderen met een gestandaardiseerde, betrouwbare methode. Bovendien benadrukt aflevering zeven dat de combinatie van automatisering en menselijke analyse essentieel is voor het verbeteren van modellen, het identificeren van anomalieën en het bevorderen van de schaalbaarheid van het evaluatieproces. Bekijk de volledige aflevering hierboven!