Tekencoderingsindelingen: een handleiding voor tekencodering voor meertalige inhoud

Digitale inhoud ziet er niet altijd hetzelfde uit wanneer deze in verschillende talen wordt weergegeven. Zonder de juiste codering kunnen tekens er vervormd uitzien, wat leidt tot verwarring, gegevensbeschadiging of zelfs sitestoringen op de wereldmarkten.

Of u nu een meertalige app bouwt of uw website lokaliseert, tekencodering is een van de processen die u helpen nauwkeurige tekst en naadloze gebruikerservaringen te leveren. Als u het belang ervan en de verschillende indelingen begrijpt, zoals ASCII- en Unicode-codering, kunt u uw berichten eenvoudig vertalen en weergeven voor een meertalig publiek.

In deze gids leggen we uit wat tekencodering is, welke standaarden tegenwoordig de belangrijkste standaarden zijn en waarom codering cruciaal is voor internationalisering.

Wat is tekencodering en hoe beïnvloedt het een succesvolle websitelokalisatie?

Tekencodering omvat het omzetten van tekst in cijfers of symbolen, zodat machines tekst kunnen verwerken en weergeven op websites, apps en besturingssystemen. Aangezien computers werken met binaire cijfers (0's en 1's), biedt tekencodering een manier om tekst uit verschillende talen te vertalen naar een digitaal formaat dat machines gemakkelijk kunnen interpreteren.

Hier is een eenvoudig voorbeeld van codering: in de ene coderingsstandaard kan "A" worden weergegeven door de binaire reeks "01000001". De computer leest deze binaire gegevens en de coderingsstandaard vertaalt deze terug naar het corresponderende door mensen leesbare teken: "A".

Tekencodering speelt een cruciale rol bij lokalisatie voor internationale bedrijven , omdat ze hiermee een breed scala aan tekens uit verschillende schrijfsystemen, waaronder Chinees, Arabisch en Cyrillisch, nauwkeurig kunnen weergeven. Dit leidt tot een nauwkeurigere, snellere vertaling.

Bedrijven kunnen ook gebruik maken van Smartling's Global Delivery Network (GDN), een webproxy voor vertalingen, om snel vertalingen voor websites en apps te starten. Eenmaal ingesteld, kan inhoud soepel van uw website naar Smartling stromen voor vertaling. Smartling biedt zelfs een menu met speciale tekens voor verschillende talen en opmaakopties die u eenvoudig in uw vertalingen kunt invoegen.

Wat zijn de belangrijkste soorten tekencodering?

Elke tekencoderingsindeling ondersteunt verschillende talen en technische behoeften voor inhoudslokalisatie.

Type codering	Belangrijkste kenmerken	Ondersteunde talen	Gebruiksscenario's
ASCII	7-bit, vertegenwoordigt 128 tekens, inclusief Engelse letters, cijfers en basissymbolen	Engels	Vroeg computergebruik, eenvoudige tekstbestanden, verouderde systemen
ISO-8859-1	8-bit, vertegenwoordigt verschillende West-/Oost-Europese karakters	West-Europese talen, zoals Duits, Frans en Spaans	Legacy webcontent, internationale documenten
UTF-8	Variabele lengte (1-4 bytes), achterwaarts compatibel met ASCII, verwerkt alle Unicode-tekens, geen stuklijst vereist	Bijna alle talen	Webcontent, moderne applicaties, platformonafhankelijke gegevensuitwisseling
UTF-16	Een of twee 16-bits code-eenheden	Bijna alle talen, plus speciale tekens zoals emoji's	Web- en internationale inhoud, moderne tekstbestanden met speciale tekens
Windows-1252	8-bit, inclusief West-Europese karakters; superset van ASCII	Oost-Europese talen zoals Pools en Tsjechisch	Verouderde Windows-toepassingen

Hier volgt een nadere blik op de meest voorkomende soorten tekencodering, inclusief hoe ze werken en voorbeelden van hoe ze worden gebruikt in gelokaliseerde apps en websites.

ASCII

De American Standard Code for Information Interchange (ASCII) is een van de eerste en eenvoudigste tekencoderingssystemen. ASCII gebruikt 7 bits om 128 tekens te coderen, voor eenvoudige Engelse letters, cijfers en leestekens.

Met ASCII wordt elk teken toegewezen aan een unieke numerieke code. De hoofdletter "A" wordt bijvoorbeeld weergegeven als 65 en het uitroepteken "!" is 33. In binair wordt "A" "01000001". ASCII is fundamenteel voor moderne coderingsschema's, maar is beperkt tot het Engels en biedt geen ondersteuning voor tekens met accenten of niet-Latijnse tekens.

ISO-8859-1

ISO-8859-1 is een 8-bits coderingsformaat met één byte teken dat is ontwikkeld door de International Organization for Standardization (ISO) om de mogelijkheden van ASCII uit te breiden naar West-Europese talen.

ISO-8859-1 codeert 256 tekens, inclusief extra letters met accenten zoals "é" en "ö", en een groot aantal speciale interpunctie- en symbooltekens. Het teken "é" wordt bijvoorbeeld weergegeven door de code 233 en "ñ" is 241. ISO-8859-1 kan echter geen tekens coderen buiten de West-Europese set, waardoor het gebruik ervan voor internationale toepassingen wordt beperkt.

UTF-8

Unicode Transformation Format – 8 bit (UTF-8) is een tekencoderingsformaat met variabele lengte dat is ontworpen voor efficiënte, wereldwijde taalcompatibiliteit. Met UTF-8 worden alle ASCII-tekens gecodeerd met behulp van één byte en behouden ze dezelfde binaire waarden. Niet-ASCII-tekens, zoals "€", gebruiken multi-byte sequenties, zoals "11100010 10000010 10101100" voor "€" in binair.

UTF-8 kan elk teken in de Unicode-standaard coderen voor naadloze meertalige ondersteuning. Het is het dominante coderingsformaat geworden voor het web en moderne applicaties vanwege het vermogen om enorme taalsets te verwerken.

UTF-16

UTF-16 vertegenwoordigt elk teken in de Unicode-standaard met behulp van een of twee 16-bits code-eenheden. Tekens in gewone scripts worden opgeslagen als een enkele 16-bits eenheid en andere tekens (zoals emoji's en zeldzame historische scripts) worden weergegeven als surrogaatparen, die twee gecombineerde 16-bits code-eenheden zijn.

"A" (U+0041) in UTF-16 is bijvoorbeeld 0x0041, terwijl de emoji met het lachende gezicht "😊" (U+1F60A) wordt opgeslagen als het surrogaatpaar 0xD83D 0xDE0A. Hierdoor kan UTF-16 meer dan een miljoen verschillende tekens coderen, hoewel het voor sommige tekst meer ruimte gebruikt dan UTF-8.

Windows-1252

Windows-1252 is een 8-bits tekencoderingstype dat door Microsoft is ontwikkeld voor West-Europese talen, gewoonlijk "ANSI"-codering genoemd in Windows-omgevingen. Het is vergelijkbaar met ISO-8859-1, maar bevat extra tekens zoals gekrulde aanhalingstekens ("") en het euroteken (€).

Windows-1252 werd veel gebruikt in oudere Windows-documenten en -toepassingen, maar is grotendeels vervangen door UTF-8, vooral voor internationale compatibiliteit.

Uitdagingen op het gebied van tekencodering oplossen in een meertalige wereld: 5 uitdagingen en best practices

Tekencodering is technisch en genuanceerd en brengt bepaalde uitdagingen met zich mee voor bedrijven die een meertalig publiek proberen te bereiken. Houd bij het lokaliseren van content op schaal rekening met deze veelvoorkomende coderingsproblemen en best practices om deze aan te pakken:

1. Verminkte tekst

Wanneer software tekst interpreteert met behulp van de verkeerde tekencodering, kan dit resulteren in vervormde, onleesbare tekens zoals vraagtekens of willekeurige symbolen. Dit gebeurt meestal wanneer tekst die in het ene formaat is gecodeerd (zoals UTF-8) wordt geopend of gerenderd met een andere codering (zoals ISO-8859-1), wat leidt tot niet-overeenkomende byte-interpretaties. Verminkte tekst zorgt voor verwarring bij gebruikers en kan de geloofwaardigheid van een site verminderen.

Beste praktijk: Streef naar consistente codering voor alle inhoud. U kunt dit doen door HTML-tags zoals <meta charset="UTF-8"> te gebruiken om ervoor te zorgen dat browsers tekst verwerken zoals bedoeld.

2. Gegevensverlies tijdens conversie

Bij het converteren van inhoud tussen verschillende coderingen, zoals van Windows-1252 naar UTF-8, kunnen sommige tekens verloren gaan of onjuist worden vervangen. Dit kan ernstige gevolgen hebben voor de leesbaarheid van meertalige en gelokaliseerde inhoud, en als u het niet vroegtijdig opmerkt, kan dit leiden tot gegevensbeschadiging.

Beste praktijk: Gebruik Unicode-compatibele vertaaltools die de conversie tussen coderingsindelingen stroomlijnen. Maak ook altijd een back-up van gegevens voordat u coderingswijzigingen uitvoert en testresultaten op nauwkeurigheid.

3. Gebrek aan ondersteuning voor meertalige lettertypen of glyphs

Zelfs met de juiste tekencoderingsindeling kan tekst worden weergegeven als lege vierkanten als de benodigde lettertypen of glyphs niet beschikbaar zijn op het apparaat van de gebruiker. Dit probleem komt vooral vaak voor bij het gebruik van letters met accenten of emoji's die oudere of eenvoudige lettertypesets mogelijk niet ondersteunen.

Beste praktijk: Gebruik webveilige lettertypen die een breed scala aan tekens in verschillende talen ondersteunen. Maak een lettertypestapel met terugvaltekens die het systeem indien nodig automatisch in de tekst kan invoegen.

4. Bidirectionele tekst

Talen zoals Arabisch en Hebreeuws gebruiken een rechts-naar-links (RTL) schrijfsysteem, wat kan leiden tot lay-out- en uitlijningsproblemen, vooral wanneer het wordt gemengd met links-naar-rechts (LTR) scripts zoals Engels. Als deze talen niet goed zijn gecodeerd, kunnen ze de leesstroom verstoren of de opmaak helemaal verbreken.

Beste praktijk: Pas de juiste taal- en richtingsspecifieke markeringen toe, zoals dir="rtl" en lang="ar" in HTML, zodat browsers de tekst nauwkeurig kunnen weergeven. Kies frameworks die RTL-lay-outs ondersteunen en test content om er zeker van te zijn dat deze correct wordt weergegeven voor alle doelgroepen.

5. Problemen met byte ordermarkeringen

Een Byte Order Mark (BOM) is een speciale markering aan het begin van een tekstbestand die de bytevolgorde en codering aangeeft. BOM's kunnen problemen veroorzaken zoals:

Onverwachte onzichtbare tekens aan het begin van bestanden (bijv. "ï»¿")
Incompatibiliteit met sommige systemen, zoals oudere webbrowsers
Interoperabiliteit tussen applicaties

Beste praktijk: Gebruik bij het verwerken van tekstbestanden tools die stuklijsten automatisch kunnen detecteren en op de juiste manier kunnen verwerken. Laat voor webinhoud de stuklijst in UTF-8 weg om weergaveproblemen te voorkomen.

Maak codering eenvoudig met de lokalisatietools van Smartling

Tekencodering is vaak onzichtbaar voor gebruikers, maar het is essentieel voor hoe zij content ervaren op verschillende apparaten en in talen—van gelokaliseerde apps tot meertalige websites. Door de basis van codering, vertaling en ontwikkeling te begrijpen, kunnen teams kostbare fouten voorkomen en een soepelere ervaring bieden voor wereldwijde doelgroepen.

Smartling is gebouwd om bedrijven te helpen wereldwijd te groeien en tegelijkertijd de vertaling voor ontwikkelaars te vereenvoudigen met een krachtige webproxy en robuuste API. Smartling integreert rechtstreeks met uw bestaande technische stacks, waardoor handmatige taken worden geëlimineerd en het vertaalproces wordt gestroomlijnd. Met Smartling kunt u zelfs nieuwe talen toevoegen en vertaalworkflows activeren bij elke codepush, zodat u internationaal kunt uitbreiden zonder iets te missen.

British Airways maakte bijvoorbeeld gebruik van de webvertaalproxy van Smartling om zijn website te lokaliseren voor Koreaanse klanten. Met het gecentraliseerde platform van Smartling kon British Airways meer dan 500.000 woorden vertalen en twee keer zo snel lanceren als normaal. Lees de casestudy om te zien hoe zij dit voor elkaar hebben gekregen.