Geplaatst door Het Afrikaanse Talen Lab

Afrikaanse talen vormen bijna een derde van alle talen wereldwijd. Van de meer dan 2.000 talen die op het continent worden gesproken, zijn er echter slechts 49 beschikbaar op vertaalplatforms zoals Google Translate. Erger nog, maar liefst 88% van de Afrikaanse talen is "ernstig ondervertegenwoordigd" of "volledig genegeerd" in de computationele taalkunde (Joshi et al., 2020).

Kunstmatige intelligentie (AI) biedt een kans om ondervertegenwoordigde talen te beschermen, maar begeleiding en waarborgen zijn van cruciaal belang. Zonder hen lopen grote taalmodellen (LLM's) het risico institutionele talen te versterken en de achteruitgang van andere talen te versnellen. De gevolgen zijn verschrikkelijk: 40% van de talen wereldwijd wordt met uitsterven bedreigd, waarvan er honderden in Afrika worden gesproken. (UNESCO, 2022).

Het African Languages Lab (All Lab) is een door jongeren geleid samenwerkingsverband dat zich inzet voor het behoud van Afrikaanse talen door ze te documenteren, digitaliseren, vertalen en versterken door middel van geavanceerde AI- en natuurlijke taalverwerkingssystemen (NLP). Samen met partners als Smartling zetten we grote stappen in het dichten van de digitale kloof voor Afrikaanse talen. Hier is hoe.

 

De behoefte aan taaldocumentatie in Afrika

Taaldiversiteit is een van de grootste troeven van het Afrikaanse continent, maar brengt ook enorme uitdagingen met zich mee. Velen, vooral kleinere gemeenschappen, spreken unieke talen die niet goed gedocumenteerd zijn. Deze "low-resource" talen missen de benodigde datasets die nodig zijn voor computationeel gebruik, waardoor machinevertaling (MT), spraakverwerking, geautomatiseerde transcriptie en andere NLP-toepassingen moeilijk, zo niet onmogelijk zijn.

De uitdaging is alomtegenwoordig: minder dan 5% van de Afrikaanse talen beschikt over aanzienlijke digitale bronnen. (Vereniging voor Computationele Linguïstiek, 2019) Het is duidelijk dat we deze talen beter moeten documenteren, maar het proces is geen geringe opgave. Statistieken van het Afrikaanse Talen Lab

 

De uitdaging om Afrikaanse talen met weinig middelen te documenteren (Issaka et la., 2024)

  • Schaarste aan gegevens: De meeste Afrikaanse culturen hebben van oudsher een sterke nadruk gelegd op orale tradities. Als gevolg hiervan bestaan velen voornamelijk in mondelinge vorm en is schriftelijke documentatie vaak schaars of onbestaande. Zonder geschreven taal wordt het samenstellen van corpusgegevens, een verzameling geschreven en gesproken taal die nodig is om machine learning-modellen te trainen, ingewikkeld.
  • Overheidsbeleid en beperkte financiering voor onderzoek: De meeste Afrikaanse regeringen hebben prioriteit gegeven aan officiële talen zoals Engels en Frans - vaak overblijfselen van de koloniale overheersing - terwijl ze weinig institutionele steun bieden voor het documenteren, behouden en ontwikkelen van inheemse talen. Onvoldoende academische financiering als gevolg van lage belangstelling beperkt ook het onderzoek naar en de ontwikkeling van inheemse taaltechnologieën.
  • Voorschools onderwijs: Sommige Afrikaanse landen streven ernaar inheemse talen in het onderwijs te behouden, maar de inspanningen schieten vaak tekort. In Ghana bijvoorbeeld schrijft een beleid instructie in de eerste taal van een kind voor vanaf de kleuterschool tot groep 3 voordat het overgaat op Engels. Het beperkt de instructie echter tot 11 door de overheid gesponsorde talen, wat resulteert in nog minder middelen, aandacht en sprekers voor de overige talen. Zelfs met dit beleid vertrouwen opvoeders vaak op Engels als hun primaire voertaal vanwege beperkte middelen en training.
  • Gebrek aan gestandaardiseerde spellingen: Het verzamelen van gegevens voor veel Afrikaanse talen met weinig middelen, zoals Hausa en Fulani, is een grote uitdaging vanwege hun brede geografische verspreiding en aanzienlijke dialectische variaties. Daarom vereist het creëren van uniforme digitale bronnen voor deze talen een zorgvuldige en grote coördinatie en standaardisatie.
  • Barrières voor het verzamelen van gegevens: In sommige regio's heeft actieve conflictvorming of marginalisering van bepaalde taalgroepen een negatieve invloed op het verzamelen van gegevens en initiatieven voor taalontwikkeling. Bovendien wonen veel sprekers van talen met weinig middelen in landelijke of afgelegen gemeenschappen met beperkte toegang tot internet en digitale technologieën, waardoor het verzamelen van taalkundige gegevens nog moeilijker wordt.

 

Innoveren voor taalgelijkheid

Bij het African Languages Lab gebruiken we AI- en NLP-systemen om Afrikaanse talen te digitaliseren, vertalen en bewaren om positieve resultaten te creëren voor mensen over het hele continent. Onze aanpak met vier pijlers ondersteunt momenteel 40 talen, van gesproken Bantu tot minder bekende Khoisan, die verschillende culturen, regio's en taalfamilies over het hele continent vertegenwoordigen.

 

Hoe het African Languages Lab talen met weinig middelen ondersteunt

  1. Gegevensverzameling, -extractie, -opschoning en -opslag: Wij verzamelen linguïstische gegevens uit verschillende bronnen, verzamelen deze, standaardiseren ze door inconsistenties te verwijderen en slaan ze veilig op voor gebruik door AI-modellen.
  2. Onderzoek en modelontwikkeling: Wij doen onderzoek om AI-modellen te bouwen die het begrip en de toepassing van Afrikaanse talen verbeteren.
  3. Betrokkenheid van de gemeenschap en crowdsourcing: We werken samen met instellingen, gemeenschappen en moedertaalsprekers om gegevens te verzamelen en te vertalen, waarbij we zorgen voor een authentieke weergave en duurzaamheid op de lange termijn door middel van onze innovatieve, AI-gestuurde technologieën.
  4. Inzet van technologie: In samenwerking met marktleiders en academische instellingen gebruiken we AI- en NLP-systemen om onze gegevens te vertalen naar bruikbare taaluitvoer die platforms zoals onze All Voices-app en een meertalige chatbot aandrijft, die is geïntegreerd in de mobiele Base-applicatie.

Landen die lokale talen integreren in onderwijs en digitale inhoud hebben vaak een hogere alfabetiseringsgraad en een sterker cultureel behoud.

De technologie die ons werk mogelijk maakt

Het uitvoeren van onze vier pijlers vereist de juiste technologie en samenwerkingspartners. Daarom zijn we een strategisch partnerschap aangegaan met Smartling, een leider op het gebied van vertaal- en lokaliseringstechnologie. Deze samenwerking stelt ons in staat om gebruik te maken van de geavanceerde tools van Smartling voor taalvertaling, -beheer en contextuele nauwkeurigheid, waardoor de manier waarop talen met weinig middelen digitaal worden gedocumenteerd en gedeeld, wordt getransformeerd.

Dit is hoe technologie onze vooruitgang in de digitalisering en vertaling van Afrikaanse talen stimuleert.

 

Samenstellen van bestaande gegevens: Corpus-aggregatie

Voor veel Afrikaanse talen ontbreken gecentraliseerde taalgegevens. We verzamelen en standaardiseren gegevens uit verschillende bronnen, waarbij we gebruik maken van Python-scripts om de gegevens op te schonen, te standaardiseren en om te zetten in een gemeenschappelijk formaat met als doel een gecentraliseerd corpus te creëren voor breed gebruik. Het consolideren en verfijnen van taalgegevens zorgt voor consistentie en toegankelijkheid, waardoor gemeenschappen uiteindelijk in staat worden gesteld om leermiddelen, vertaaltools en digitale inhoud te creëren.

Het African Languages Lab heeft meer dan 400 GB aan spraak- en tekstgegevens verzameld voor 40 Afrikaanse talen met weinig middelen, waardoor hun documentatie en digitale beschikbaarheid zijn verbeterd.

Een nieuwe kijk op crowdsourcing: All Voices

Zoals eerder vermeld, zijn onvolledige gegevens een kritieke leemte voor taalbehoud die in sommige Afrikaanse gemeenschappen moeilijk op te vullen kan zijn. Met onze innovatieve app voor gegevensverzameling, All Voices, kunnen instellingen, gemeenschappen en moedertaalsprekers hun lokale taal documenteren en digitaliseren. Deelnemers kunnen spraak opnemen voor 40 Afrikaanse talen, ter ondersteuning van onze collectieve behoefte om gegevens vast te leggen voor talen met weinig hulpbronnen.

In de toekomst zal All Voices communicatiekloven in gemeenschappen overbruggen en lokale talen voor iedereen toegankelijk maken. Het zal ook vertalen tussen Afrikaanse talen en populaire talen zoals Engels en Frans. Met naadloze en nauwkeurige vertalingen in een breed scala aan talen wil All Voices een diepere culturele uitwisseling bevorderen en tegelijkertijd bijdragen aan een groeiende dataset van taalgegevens met weinig middelen.

 

Gegevens beheren: van opslag tot vertaling

Samenvoeging en organisatie van taalkundige gegevens, naast de beschikbaarheid van de gemeenschap, zijn van cruciaal belang voor ons werk bij The All Lab. Smartling speelt een cruciale rol in ons hele gegevensbeheerproces, van gegevensverzameling tot opslag en vertaling. Met Smartling kunnen we gegevens van meerdere projecten uploaden, ordenen en opslaan in een veilig, gecentraliseerd systeem.

De API van Smartling stelt ons niet alleen in staat om onze gegevens breed te delen op meerdere platforms, maar ook om updates in realtime uit te voeren, zodat elk lid van onze gemeenschap toegang heeft tot het meest accurate en complete digitale corpus.

We hebben vertrouwd op het vertaalgeheugen van Smartling, AI-aangedreven vertalingen en bekwame vertalers om consistente en nauwkeurige inhoud in verschillende Afrikaanse talen te ondersteunen. Onze resulterende gestructureerde en toegankelijke taalrepository is essentieel voor het uitbreiden van de inspanningen op het gebied van digitale toegankelijkheid en behoud in de taalkundige diversiteit van Afrika.

 

Onze data goed gebruiken

Ons werk in het All Lab - ondersteund door de bovenstaande technologieën - genereert gestructureerde Afrikaanse taalkundige datasets, die een cruciale rol spelen bij het digitaliseren van talen met weinig middelen. Deze datasets spelen een belangrijke rol bij de ontwikkeling van nieuwe tools voor machinevertaling, spraakherkenning en taalbehoud. Uiteindelijk helpen onze gegevens het Afrikaans taalkundig onderzoek vooruit en ondersteunen ze de ontwikkeling van nauwkeurigere en cultureel relevantere taalmodellen.

We stellen onze datasets ook beschikbaar via open access platforms zoals Huggingface. Ons werk bevordert de ontwikkeling van AI in de gemeenschap en moedigt meer investeringen in Afrikaanse taaltechnologieën aan.

 

Stappen maken en naar de toekomst kijken

Bij het African Languages Lab hebben we aanzienlijke vooruitgang geboekt bij het aanpakken van de digitale kloof voor Afrikaanse talen door middel van gegevensverzameling, aggregatie, standaardisatie, crowdsourcing en modelontwikkeling en -implementatie. We zijn trots op ons groeiende, robuuste corpus van taalkundige gegevens, dat ongeveer een halve terabyte groot is, geavanceerde vertaaltools en de succesvolle uitbreiding van de toegang tot taalbronnen.

Tot op heden hebben we meer dan 400 GB aan spraak- en tekstdatasets verzameld voor 40 Afrikaanse talen met weinig middelen, ter ondersteuning van hun documentatie en technologische vooruitgang. Door middel van partnerschappen met academische instellingen zoals het UCLA MARS Lab en marktleiders zoals Smartling, maken we gebruik van geavanceerd onderzoek en technologie om onze missie vooruit te helpen. We zijn ook actief bezig met het vergroten van het bewustzijn over het Afrikaanse taallandschap door middel van seminars, conferenties en technische papers.

Als we naar de toekomst kijken, zullen we werken aan het behoud van meer Afrikaanse talen met weinig middelen, naast onze huidige 40. We streven er ook naar om de beschikbaarheid van onze datasets en tools te verbreden. En we zetten ons in voor verdere innovatie op het gebied van machinevertaling, taalbehoud en AI-gestuurd taalkundig onderzoek in heel Afrika. Samen zullen we ervoor zorgen dat het taalkundige erfgoed van Afrika niet alleen overleeft, maar ook gedijt in het digitale tijdperk.

Waarom wachten met slimmer vertalen?

Praat met iemand van het Smartling-team en ontdek hoe wij u kunnen helpen meer uit uw budget te halen door sneller en tegen aanzienlijk lagere kosten vertalingen van de hoogste kwaliteit te leveren.
Cta-Card-Side-Image