Inden for kunstig intelligens har sprogmodeller fået en del opmærksomhed. Store sprogmodeller (LLM), såsom OpenAI GPT, har fået stor opmærksomhed inden for maskinlæring og naturlig sprogbehandling. Deres brug er dog ikke begrænset til engelsk; de kan også forstå og producere på andre sprog. Dette kommer dog med nogle afgørende limitations.
Translaite er lavet med ikke-engelske brugere i tankerne. Den oversætter først ikke-engelske prompts til engelsk, prompter OpenAI og oversætter derefter outputtet tilbage til inputsproget. Denne proces giver brugerne mulighed for at interagere med de avancerede AI-modeller på deres eget sprog, hvilket gør det mere tilgængeligt og brugervenligt.
ChatGPT-3, og sandsynligvis dens efterfølger, blev trænet på en stor mængde data. En væsentlig bekymring er dog sprogfordelingen i træningsmaterialet. Engelsk dominerer overvældende datasættet og tegner sig for 92,1% af de samlede tegn (se Training data). Det næstmest almindelige sprog, fransk, udgør kun 1,78 %, tæt fulgt af tysk med 1,68 %. Spansk, italiensk og portugisisk er også med, men de repræsenterer hver især mindre end 1% af det samlede antal tegn. Selv japansk, som er et meget udbredt sprog, udgør kun 0,16 % af det samlede antal tegn. Denne uforholdsmæssigt store repræsentation af engelsk i træningsdataene forvrider uundgåeligt præstationen af ChatGPT-3 mod engelsk, hvilket potentielt kan påvirke dens præstation i ikke-engelske opgaver.
Tokenisering, processen med at opdele inputtekst i stykker eller tokens, er et afgørende trin i, hvordan LLM'er fungerer. GPT-modellerne kan behandle ikke-engelsk tekst, fordi de bruger en fleksibel tokenizer, tiktoken. Tokeniseringsprocessen er dog forudindtaget mod engelsk, fordi det kræver flere tokens at repræsentere ikke-engelsk tekst.
Tokenisering behandler ofte hvert ord eller en del af et ord som et separat token. Det fungerer godt for engelsk og andre sprog, der bruger mellemrum til at adskille ord. Men sprog som japansk eller kinesisk, der ikke bruger mellemrum, står over for udfordringer. På disse sprog kan et enkelt tegn repræsentere et helt ord eller koncept, og disse tegn kræver ofte flere bytes at repræsentere i digital form end engelske ord, hvilket gør brugen langsommere og dyrere.
På trods af træningsubalancer og tokeniseringsbias klarer GPT-modeller sig godt på f.eks. japansk. De kan forstå japanske instruktioner, svare flydende og naturligt på japansk og afvise upassende forespørgsler. Men de er langsommere på japansk på grund af den suboptimale tokenisering og manglende viden på grund af mindre træningsmateriale. Translaite afhjælper dette ved at oversætte ikke-engelske prompts til engelsk og svaret tilbage til inputsproget, hvilket forbedrer præstationen.
Translaite giver betydelige fordele, især for ikke-engelske brugere. Det sikrer effektiv tokenisering, overvinder sproglige skævheder og forbedrer ydeevnen. Desuden gør den avancerede AI-modeller mere tilgængelige og brugervenlige, hvilket fremmer et mere inkluderende AI-miljø.