Dirbtinio intelekto pasaulyje kalbos modeliai yra labai populiarūs. Dideli kalbos modeliai (LLM), tokie kaip OpenAI GPT, susilaukė didelio mašininio mokymosi ir natūralios kalbos apdorojimo bendruomenių dėmesio. Tačiau jie naudojami ne tik anglų kalba; jie gali suprasti ir pateikti rezultatus ir kitomis kalbomis. Tačiau tai susiję su kai kuriais esminiais limitations.
Translaite sukurta atsižvelgiant į ne anglų kalbos vartotojus. Pirmiausia ji išverčia neangliškus užklausimus į anglų kalbą, užklausas OpenAI, o tada išvestį išverčia atgal į įvesties kalbą. Šis procesas leidžia naudotojams bendrauti su pažangiais dirbtinio intelekto modeliais jų kalba, todėl jie tampa prieinamesni ir patogesni.
ChatGPT-3 ir, tikėtina, jo įpėdinis, buvo apmokytas pagal didžiulį duomenų kiekį. Tačiau didelį susirūpinimą kelia kalbų pasiskirstymas mokymo medžiagoje. Duomenų rinkinyje dominuoja anglų kalba, kuriai tenka 92,1 % visų ženklų (žr. Training data). Antra pagal paplitimą kalba, prancūzų, sudaro tik 1,78 %, po jos seka vokiečių kalba - 1,68 %. Ispanų, italų ir portugalų kalbos taip pat yra svarbios, tačiau kiekviena iš jų sudaro mažiau nei 1 % visų ženklų. Net japonų kalba, kuria plačiai kalbama, sudaro tik 0,16 % visų ženklų. Toks neproporcingai didelis anglų kalbos atstovavimas mokomuosiuose duomenyse neišvengiamai pakreipia ChatGPT-3 veikimą link anglų kalbos, o tai gali turėti įtakos jo veikimui atliekant ne anglų kalbos užduotis.
Tokenizacija, įvesties teksto skaidymo į dalis arba žetonus procesas, yra esminis LLM veikimo etapas. GPT modeliai gali apdoroti ne anglišką tekstą, nes juose naudojamas lankstus tokenizatorius tiktoken. Tačiau tokenizavimo procesas yra šališkas anglų kalbos atžvilgiu, nes neangliškam tekstui atvaizduoti reikia daugiau tokenų.
Tokenizavimas dažnai kiekvieną žodį ar žodžio dalį traktuoja kaip atskirą žetoną. Tai gerai tinka anglų ir kitoms kalboms, kuriose žodžiams atskirti naudojami tarpai. Tačiau tokioms kalboms kaip japonų ar kinų, kuriose tarpai nenaudojami, kyla sunkumų. Šiose kalbose vienas simbolis gali reikšti visą žodį ar sąvoką, o šiems simboliams atvaizduoti skaitmenine forma dažnai reikia daugiau baitų nei angliškiems žodžiams, todėl naudojimas yra lėtesnis ir brangesnis.
Nepaisant mokymo disbalanso ir tokenizavimo šališkumo, GPT modeliai gerai veikia, pavyzdžiui, japonų kalba. Jie gali suprasti japonų kalbos nurodymus, sklandžiai ir natūraliai atsakyti japoniškai ir atmesti netinkamas užklausas. Tačiau japonų kalbą jie moka lėčiau dėl neoptimalios tokenizacijos ir žinių trūkumo, kurį lemia mažesnis mokymo medžiagos kiekis. Translaite sušvelnina šią problemą verčiant neangliškus raginimus į anglų kalbą, o atsakymą atgal į įvesties kalbą, taip pagerindamas našumą.
Translaite teikia daug naudos, ypač ne anglų kalbos vartotojams. Ji užtikrina veiksmingą žymėjimą, įveikia kalbos šališkumą ir padidina našumą. Be to, dėl jos pažangūs dirbtinio intelekto modeliai tampa prieinamesni ir patogesni naudotojams, taip skatinant platesnę dirbtinio intelekto aplinką.