Vanwege onze centrale rol in de lokalisatie-infrastructuur is Smartling goed gepositioneerd om op macroniveau analyses uit te voeren op gebruikspatronen en algemene trends in de wereld van webcontent.
En onlangs vonden we iets interessants in die gegevens.
We hebben gemerkt dat LLM-bots gelokaliseerde sites scannen. Vermoedelijk is dit om ze te ontginnen voor inhoud om hun eigen fundamentele modellen verder te verbeteren.
Het is een trend over de hele linie, waarbij elk type en elke grootte van het bedrijf wordt beïnvloed. Zonder in te gaan op de legaliteit, ethiek of eigendom van die inhoud, worden we onmiddellijk getroffen door het potentieel om een internetechokamer te creëren als gevolg van deze crawls.
Vervuiling en gevolgen van trainingsgegevens
Met de toename van bedrijven die een MT-first- of MT-fallback-benadering van hun webcontent gebruiken, plus de recente beschikbaarheid van LLM's als vertaalprovider, kunnen LLM's zich binnenkort in de positie bevinden om onbewust "hun eigen hondenvoer te eten".
Wat is de impact op de kwaliteit en effectiviteit van LLM's wanneer hun trainingsdatasets verweven zijn met vertaalde inhoud die afkomstig is van LLM's?
LLM's vertrouwen op het enorme scala aan vrij beschikbare digitale inhoud op internet, of het nu in een krantenartikel, academisch tijdschrift, blogpost of gescande boeken is, om voldoende inhoud te verzamelen om de omvang en complexiteit van een vooraf getraind model te vergroten en zo mensachtige generatieve mogelijkheden te bieden. Als een aanzienlijk deel van de inhoud die wordt opgenomen echter uitsluitend door LLM's is gemaakt zonder enige versterking van het leren van menselijke feedback, zullen ze dan beginnen af te drijven in termen van de kwaliteit en nauwkeurigheid van hun output? Zal de feedbacklus een soort AI'isme creëren dat zich uiteindelijk verspreidt en de structuur en toon van taal in het algemeen wijzigt?
Het is moeilijk om de impact in te schatten, maar aangezien we aan het begin van deze generatieve AI-revolutie staan, zien we de potentiële valkuilen in het gegevensverzamelingsproces dat door LLM-providers wordt gebruikt.
Intellectueel eigendom en waardekwesties
Het is onmogelijk om al het inkomende verkeer van bots te identificeren, omdat we afhankelijk zijn van hun correcte gebruik van User-Agent headers die hun oorsprong en doel aangeven. Veel scrapende bots zonder scrupules verbergen niet alleen hun doel; ze proberen zich actief te vermommen en op te gaan in de algemene verkeersstroom die elke openbare website ziet.
Een mogelijke toekomstige aanpak om dit "echokamer"-effect te filteren, is dat LLM's samenwerken met aanbieders van inhoud om een soort watermerk te ontwikkelen dat inhoud identificeert die is gegenereerd door een LLM, zodat deze op de juiste manier kan worden gecategoriseerd en behandeld. Er zal waarschijnlijk vraag zijn naar dit soort watermerken om de effecten van desinformatie, IP-diefstal en ander asociaal gedrag van slechte actoren te beperken.
Bovendien kunnen bedrijven die het niet erg vinden of geïnteresseerd zijn in het feit dat LLM's hun gegevens crawlen, er op een dag voor kiezen om geld te verdienen met hun inhoud door toegang te verkopen aan LLM-crawlers. Dit zou een lucratieve nevenactiviteit kunnen blijken te zijn die een onderhandelde waarde betaalt voor door mensen gegenereerde inhoud. Producenten van inhoud hebben al lopende rechtszaken aangespannen tegen LLM's in een poging om de controle over hun auteursrechtelijk beschermde materiaal terug te krijgen.
Wat kunnen we eraan doen?
LLM scraping van websites voor inhoud is geen geheim. Toch zullen veel bedrijven misschien verrast zijn om te horen dat het hen overkomt, en ze kunnen onwetende deelnemers zijn aan activiteiten die hen weinig voordeel opleveren terwijl ze eindeloze waarde genereren voor LLM's.
In de wereld van machinevertaling is "AI gebruiken om AI te helpen" geen nieuw idee. Wanneer klantspecifieke, domein- of long-tail taalgegevens schaars zijn, is het niet ongebruikelijk om toevlucht te nemen tot gegevensvergrotingstechnieken zoals webcrawling van vergelijkbare websites, terugvertaling of gegevensproductie door iets andere bron- en doeltaalvarianten te creëren.
Toch is het van vitaal belang dat iedereen die op de uitvoer van het model vertrouwt, de voor- en nadelen van dergelijke benaderingen begrijpt. In de meeste gevallen kunnen dergelijke technieken de kwaliteit van het model slechts stapsgewijs verbeteren. Uiteindelijk vervangen ze niet het onderliggende motto van machinaal leren - de behoefte aan goed gelabelde en relevante gegevens.