In de wereld van kunstmatige intelligentie hebben taalmodellen nogal wat stof doen opwaaien. Grote taalmodellen (LLM's), zoals OpenAI GPT, hebben veel aandacht gekregen in de gemeenschappen voor machinaal leren en natuurlijke taalverwerking. Hun gebruik is echter niet beperkt tot het Engels; ze kunnen ook andere talen begrijpen en uitvoeren. Dit gaat echter gepaard met een aantal cruciale limitations.
Translaite is gemaakt met niet-Engelse gebruikers in gedachten. Het vertaalt eerst niet-Engelse prompts naar het Engels, vraagt OpenAI en vertaalt vervolgens de output terug naar de invoertaal. Dit proces zorgt ervoor dat gebruikers de geavanceerde AI-modellen in hun eigen taal kunnen gebruiken, waardoor het toegankelijker en gebruiksvriendelijker wordt.
ChatGPT-3, en waarschijnlijk zijn opvolger, werd getraind op een enorme hoeveelheid gegevens. Een belangrijk punt van zorg is echter de taalverdeling in het trainingsmateriaal. Engels domineert overweldigend de dataset, goed voor 92,1% van het totale aantal tekens (zie Training data). De op één na meest gebruikte taal, Frans, is slechts goed voor 1,78%, op de voet gevolgd door Duits met 1,68%. Spaans, Italiaans en Portugees komen ook voor, maar vertegenwoordigen elk minder dan 1% van het totale aantal tekens. Zelfs Japans, een veel gesproken taal, vertegenwoordigt slechts 0,16% van het totale aantal tekens. Deze onevenredige vertegenwoordiging van het Engels in de trainingsgegevens beïnvloedt de prestaties van ChatGPT-3 onvermijdelijk in de richting van het Engels, wat de prestaties in niet-Engelse taken mogelijk beïnvloedt.
Tokenization, het proces van het opsplitsen van ingevoerde tekst in stukjes of tokens, is een cruciale stap in hoe LLM's werken. De GPT-modellen kunnen niet-Engelse tekst verwerken omdat ze een flexibele tokenizer, tiktoken, gebruiken. Het tokenisatieproces is echter bevooroordeeld ten opzichte van het Engels, omdat er meer tokens nodig zijn om niet-Engelse tekst weer te geven.
Tokenization behandelt vaak elk woord of deel van een woord als een apart token. Dit werkt goed voor Engels en andere talen die spaties gebruiken om woorden te scheiden. Talen zoals Japans of Chinees, die geen spaties gebruiken, worden echter met uitdagingen geconfronteerd. In deze talen kan een enkel teken een heel woord of concept vertegenwoordigen, en deze tekens vereisen vaak meer bytes om in digitale vorm weer te geven dan Engelse woorden, waardoor het gebruik langzamer en duurder is.
Ondanks de onevenwichtigheden in de training en de tokenization bias, presteren GPT-modellen goed in bijvoorbeeld Japans. Ze kunnen Japanse instructies begrijpen, vloeiend en natuurlijk in het Japans antwoorden en ongepaste verzoeken afwijzen. Ze zijn echter langzamer in het Japans door de suboptimale tokenisatie en een gebrek aan kennis door minder trainingsmateriaal. Translaite verzacht dit door niet-Engelse prompts in het Engels te vertalen en het antwoord terug in de invoertaal, waardoor de prestaties verbeteren.
Translaite biedt aanzienlijke voordelen, vooral voor niet-Engelse gebruikers. Het zorgt voor efficiënte tokenisatie, overwint taalvooroordelen en verbetert de prestaties. Bovendien maakt het geavanceerde AI-modellen toegankelijker en gebruiksvriendelijker, wat een meer inclusieve AI-omgeving bevordert.