Vo svete umelej inteligencie sú jazykové modely veľmi populárne. Veľké jazykové modely (LLM), ako napríklad OpenAI GPT, si získali značnú pozornosť v komunitách strojového učenia a spracovania prirodzeného jazyka. Ich použitie sa však neobmedzuje len na angličtinu, ale dokážu porozumieť a vytvárať výstupy aj v iných jazykoch. To však so sebou prináša niektoré zásadné limitations.
Translaite je vytvorený s ohľadom na používateľov, ktorí nie sú anglicky hovoriaci. Najprv preloží neanglické výzvy do angličtiny, vyzve OpenAI a potom výstup preloží späť do vstupného jazyka. Tento proces umožňuje používateľom pracovať s pokročilými modelmi umelej inteligencie v ich jazyku, vďaka čomu je prístupnejšia a používateľsky prívetivejšia.
ChatGPT-3 a pravdepodobne aj jeho nástupca boli vyškolení na obrovskom množstve údajov. Významným problémom je však rozloženie jazykov v tréningovom materiáli. V súbore údajov drvivo dominuje angličtina, ktorá predstavuje 92,1 % všetkých znakov (pozri Training data). Druhý najrozšírenejší jazyk, francúzština, tvorí len 1,78 %, tesne za ním nasleduje nemčina s 1,68 %. Španielčina, taliančina a portugalčina sa tiež vyskytujú, ale každý z nich predstavuje menej ako 1 % všetkých znakov. Dokonca aj japončina, ktorá je veľmi rozšíreným jazykom, predstavuje len 0,16 % všetkých znakov. Toto neúmerné zastúpenie angličtiny v trénovaných údajoch nevyhnutne skresľuje výkon ChatGPT-3 smerom k angličtine, čo môže ovplyvniť jeho výkon v neanglických úlohách.
Tokenizácia, proces rozdelenia vstupného textu na časti alebo tokeny, je kľúčovým krokom pri fungovaní LLM. Modely GPT dokážu spracovať neanglický text, pretože používajú flexibilný tokenizér tiktoken. Proces tokenizácie je však zaujatý voči angličtine, pretože na reprezentáciu neanglického textu je potrebných viac tokenov.
Tokenizácia často považuje každé slovo alebo časť slova za samostatný token. To funguje dobre pre angličtinu a iné jazyky, ktoré používajú na oddelenie slov medzery. Jazyky ako japončina alebo čínština, ktoré medzery nepoužívajú, však čelia problémom. V týchto jazykoch môže jeden znak predstavovať celé slovo alebo pojem a tieto znaky si často vyžadujú viac bajtov na reprezentáciu v digitálnej forme ako anglické slová, čo spôsobuje, že ich používanie je pomalšie a nákladnejšie.
Napriek nevyváženosti tréningu a skresleniu tokenizácie modely GPT fungujú dobre napr. v japončine. Rozumejú japonským pokynom, odpovedajú plynule a prirodzene v japončine a odmietajú nevhodné požiadavky. V japončine sú však pomalšie v dôsledku neoptimálnej tokenizácie a nedostatočných znalostí v dôsledku menšieho množstva tréningového materiálu. Translaite zmierňuje tento problém tým, že prekladá neanglické výzvy do angličtiny a odpoveď späť do vstupného jazyka, čím zvyšuje výkon.
Translaite ponúka významné výhody najmä pre používateľov, ktorí neovládajú angličtinu. Zabezpečuje účinnú tokenizáciu, prekonáva jazykové odchýlky a zvyšuje výkon. Okrem toho robí pokročilé modely umelej inteligencie prístupnejšími a používateľsky prívetivejšími, čím podporuje inkluzívnejšie prostredie umelej inteligencie.