I världen av artificiell intelligens har språkmodeller gjort en hel del stänk. Stora språkmodeller (LLM), som OpenAI GPT, har fått stor uppmärksamhet inom maskininlärning och naturlig språkbehandling. Deras användning är dock inte begränsad till engelska; de kan också förstå och producera på andra språk. Detta kommer dock med några avgörande limitations.
Translaite är gjord med icke-engelska användare i åtanke. Den översätter först icke-engelska uppmaningar till engelska, uppmanar OpenAI och översätter sedan tillbaka utdata till ingångsspråket. Denna process gör det möjligt för användarna att interagera med de avancerade AI-modellerna på sitt eget språk, vilket gör det mer tillgängligt och användarvänligt.
ChatGPT-3, och sannolikt dess efterföljare, tränades på en enorm mängd data. Ett stort problem är dock språkfördelningen i utbildningsmaterialet. Engelska dominerar överlägset i datasetet och står för 92,1 % av det totala antalet tecken (se Training data). Det näst vanligaste språket, franska, utgör endast 1,78 %, tätt följt av tyska på 1,68 %. Spanska, italienska och portugisiska förekommer också, men utgör vardera mindre än 1 % av det totala antalet tecken. Även japanska, som är ett mycket talat språk, står bara för 0,16 % av det totala antalet tecken. Denna oproportionerliga representation av engelska i träningsdata gör att prestandan för ChatGPT-3 oundvikligen snedvrids mot engelska, vilket kan påverka dess prestanda i icke-engelska uppgifter.
Tokenisering, processen att dela upp inmatad text i bitar eller tokens, är ett avgörande steg i hur LLM fungerar. GPT-modellerna kan bearbeta icke-engelsk text eftersom de använder en flexibel tokenizer, tiktoken. Tokeniseringsprocessen är dock partisk mot engelska, eftersom det krävs fler tokens för att representera icke-engelsk text.
Tokenisering behandlar ofta varje ord eller del av ett ord som en separat token. Detta fungerar bra för engelska och andra språk som använder mellanslag för att separera ord. Språk som japanska eller kinesiska, som inte använder mellanslag, står dock inför utmaningar. På dessa språk kan ett enda tecken representera ett helt ord eller koncept, och dessa tecken kräver ofta fler bytes för att representeras i digital form än engelska ord, vilket gör användningen långsammare och dyrare.
Trots obalanserna i träningen och bias i tokeniseringen fungerar GPT-modellerna bra på t.ex. japanska. De kan förstå japanska instruktioner, svara flytande och naturligt på japanska och avvisa olämpliga förfrågningar. De är dock långsammare på japanska på grund av suboptimal tokenisering och brist på kunskap på grund av mindre utbildningsmaterial. Translaite mildrar detta genom att översätta icke-engelska uppmaningar till engelska, och svaret tillbaka till ingångsspråket, vilket förbättrar prestandan.
Translaite erbjuder betydande fördelar, särskilt för icke-engelska användare. Den säkerställer effektiv tokenisering, övervinner språkfördomar och förbättrar prestandan. Dessutom blir avancerade AI-modeller mer tillgängliga och användarvänliga, vilket främjar en mer inkluderande AI-miljö.