Par Translaite

Mākslīgā intelekta pasaulē valodas modeļi ir kļuvuši par lielisku parādību. Lieli valodas modeļi (LLM), piemēram, OpenAI GPT, ir guvuši ievērojamu mašīnmācīšanās un dabiskās valodas apstrādes kopienu uzmanību. Tomēr to izmantošana neaprobežojas tikai ar angļu valodu; tie spēj saprast un radīt rezultātus arī citās valodās. Tomēr tas ir saistīts ar dažiem būtiskiem limitations.

Translaite ir veidota, domājot par lietotājiem, kas nav angļu valodas lietotāji. Tā vispirms pārtulko neangļu valodas norādījumus angļu valodā, izsaka norādījumus OpenAI un pēc tam pārtulko atpakaļ izvades rezultātus ievades valodā. Šis process ļauj lietotājiem sadarboties ar uzlaboto mākslīgā intelekta modeļiem savā valodā, padarot to pieejamāku un lietotājam draudzīgāku.


Kāpēc Translaite?


Valodas apmācība

ChatGPT-3 un, visticamāk, tā pēctece tika apmācīta, izmantojot milzīgu datu apjomu. Tomēr būtisku problēmu rada valodu sadalījums mācību materiālos. Datu kopumā dominē angļu valoda, kas veido 92,1 % no kopējā rakstzīmju skaita (sk. Training data). Otrā izplatītākā valoda, franču valoda, veido tikai 1,78 %, tai cieši seko vācu valoda ar 1,68 %. Arī spāņu, itāļu un portugāļu valodas ir iekļautas datubāzē, bet katra no tām veido mazāk nekā 1 % no kopskaita rakstzīmēm. Pat japāņu valoda, kas ir plaši izplatīta valoda, veido tikai 0,16 % no kopējā rakstzīmju skaita. Šī neproporcionāli lielā angļu valodas pārstāvība mācību datos neizbēgami novirza ChatGPT-3 veiktspēju angļu valodas virzienā, potenciāli ietekmējot tās veiktspēju uzdevumos, kas nav saistīti ar angļu valodu.

Tokenizācija

Tokenizācija - ievadītā teksta sadalīšana daļās jeb žetonos - ir būtisks solis LLM darbībā. GPT modeļi var apstrādāt tekstu, kas nav angļu valodā, jo tie izmanto elastīgu tokenizatoru tiktoken. Tomēr tokenizācijas process ir tendenciozi orientēts uz angļu valodu, jo neangļu valodas teksta attēlošanai ir nepieciešams vairāk žetonu.

Tokenizācijā katrs vārds vai vārda daļa bieži tiek uzskatīta par atsevišķu žetonu. Tas labi darbojas angļu valodā un citās valodās, kurās vārdu atdalīšanai tiek izmantotas atstarpes. Tomēr tādās valodās kā japāņu vai ķīniešu, kurās neizmanto atstarpes, rodas problēmas. Šajās valodās viena rakstzīme var apzīmēt veselu vārdu vai jēdzienu, un šo rakstzīmju attēlošanai ciparu formātā bieži vien ir nepieciešams vairāk baitu nekā angļu valodas vārdiem, tāpēc to izmantošana ir lēnāka un dārgāka.

Veiktspējas uzlabošana

Neraugoties uz apmācības nelīdzsvarotību un tokenizācijas novirzi, GPT modeļi labi darbojas, piemēram, japāņu valodā. Tie spēj saprast japāņu instrukcijas, brīvi un dabiski atbildēt japāņu valodā un noraidīt neatbilstošus pieprasījumus. Tomēr japāņu valodā tie darbojas lēnāk neoptimālas tokenizācijas un zināšanu trūkuma dēļ, jo mācību materiāla ir mazāk. Translaite mazina šo problēmu, tulkojot neangļu valodas pamācības angļu valodā un atbildes atpakaļ ieejas valodā, tādējādi uzlabojot veiktspēju.

Translaite piedāvā ievērojamas priekšrocības, jo īpaši lietotājiem, kas nav angļu valodas lietotāji. Tā nodrošina efektīvu tokenizāciju, novērš valodas aizspriedumus un uzlabo veiktspēju. Turklāt tā padara uzlabotos mākslīgā intelekta modeļus pieejamākus un lietotājam draudzīgākus, veicinot iekļaujošāku mākslīgā intelekta vidi.