Kohta Translaite

Keelemudelid on tehisintellekti maailmas teinud üsna suurt häält. Suured keelemudelid (LLM), nagu näiteks OpenAI GPT, on pälvinud masinõppe ja loomuliku keele töötlemise kogukondades märkimisväärset tähelepanu. Nende kasutamine ei piirdu siiski ainult inglise keelega; nad suudavad mõista ja väljastada ka teisi keeli. Sellega kaasneb aga mõningaid otsustavaid limitations.

Translaite on tehtud mitte-inglise keele kasutajaid silmas pidades. See tõlgib esmalt mitte-inglise keelest lähtuvad käsklused inglise keelde, küsib OpenAI ja tõlgib seejärel väljundi tagasi sisendkeelde. See protsess võimaldab kasutajatel suhelda täiustatud tehisintellekti mudelitega oma keeles, muutes selle kättesaadavamaks ja kasutajasõbralikumaks.


Miks Translaite?


Keelekoolitus

ChatGPT-3 ja tõenäoliselt ka selle järeltulija on koolitatud tohutu hulga andmete põhjal. Oluline mure on aga keelejaotus treeningmaterjalis. Andmekogumis domineerib ülekaalukalt inglise keel, mis moodustab 92,1% kõigist tähemärkidest (vt Training data). Teiseks levinuim keel, prantsuse keel, moodustab vaid 1,78%, millele järgneb saksa keel 1,68%-ga. Hispaania, itaalia ja portugali keel on samuti esindatud, kuid igaüks neist moodustab vähem kui 1% kõigist tähemärkidest. Isegi jaapani keel, mis on laialt levinud keel, moodustab ainult 0,16% kõigist tähemärkidest. Selline inglise keele ebaproportsionaalne esindatus treeninguandmetes moonutab paratamatult ChatGPT-3 tulemuslikkust inglise keele suunas, mis võib mõjutada selle tulemuslikkust mitteinglise keelega seotud ülesannetes.

Tokeniseerimine

Tokeniseerimine, st sisendteksti jagamine tükkideks või märgideks, on LLMi töö seisukohalt oluline samm. GPT-mudelid suudavad töödelda mitteingliskeelset teksti, sest nad kasutavad paindlikku tokeniseerija tiktoken. Siiski on tokeniseerimisprotsess kallutatud inglise keele suhtes, sest mitteingliskeelse teksti esitamiseks on vaja rohkem märgendeid.

Tokeniseerimine käsitleb sageli iga sõna või sõnaosa eraldi tokenina. See toimib hästi inglise keele ja teiste keelte puhul, mis kasutavad sõnade eraldamiseks tühikuid. Keeled nagu jaapani või hiina keel, mis ei kasuta tühikuid, seisavad aga silmitsi probleemidega. Nendes keeltes võib üks märk esindada tervet sõna või mõistet ning nende märkide digitaalseks esitamiseks on sageli vaja rohkem baite kui inglise keele sõnade esitamiseks, mis muudab kasutamise aeglasemaks ja kallimaks.

Jõudluse suurendamine

Vaatamata koolituse tasakaalustamatusele ja tokeniseerimise kallutatusele, toimivad GPT mudelid hästi näiteks jaapani keeles. Nad mõistavad jaapani keele juhiseid, vastavad jaapani keeles sujuvalt ja loomulikult ning lükkavad tagasi ebasobivad päringud. Jaapani keeles on nad siiski aeglasemad, mis on tingitud suboptimaalsest tokeniseerimisest ja vähesest õppematerjalist tingitud teadmiste puudumisest. Translaite leevendab seda, tõlkides mitte-inglise keelest lähtuvad üleskutsed inglise keelde ja vastuse tagasi sisendkeelde, parandades seeläbi jõudlust.

Translaite pakub märkimisväärset kasu, eriti mitte-inglise keele kasutajatele. See tagab tõhusa tokeniseerimise, kaotab keelelised eelarvamused ja parandab jõudlust. Lisaks muudab see täiustatud tehisintellekti mudelid kättesaadavamaks ja kasutajasõbralikumaks, edendades kaasavamat tehisintellekti keskkonda.