Large Lanugage Models tulkošana

Ekskursija par to, kā Generative AI Models, piemēram, ChatGPT, ir angļu valodas aizspriedumi

Autors stephens on 9 Aug 2023

Amazing Times

Mākslīgā intelekta pasaulē valodas modeļi ir kļuvuši ļoti populāri. Lieli valodas modeļi (LLM), piemēram, OpenAI GPT ģimene, ir guvuši ievērojamu mašīnmācīšanās un dabiskās valodas apstrādes kopienu uzmanību. Tomēr to izmantošana neaprobežojas tikai ar angļu valodu; tie spēj saprast un radīt rezultātus arī citās valodās, tostarp latviešu valoda. Šī emuāra ieraksta mērķis ir izcelt priekšrocības, ko sniedz lietojumprogrammas, piemēram, Translaite, izmantošana ģeneratīvo mākslīgā intelekta palīgrīku vajadzībām.

Translaite vispirms pārtulko citvalodu pamācības angļu valodā (izmantojot DeepL, veic pamācību OpenAI, un pēc tam pārtulko atpakaļ izejas datus ievades valodā. Šis process ļauj lietotājiem sadarboties ar uzlabotajiem mākslīgā intelekta modeļiem savā valodā, padarot to pieejamāku un lietotājam draudzīgāku. Bet kāpēc to vajadzētu darīt?

Izpratne par tokenizāciju valodas modeļiem

Tokenizācija - ievadītā teksta sadalīšana daļās jeb žetonos - ir būtisks solis LLM darbībā. GPT modeļi var apstrādāt, piemēram, japāņu tekstu, jo tie izmanto elastīgu tokenizatoru tiktoken. Tiktoken ir rīks, ko izmanto, lai saskaitītu žetonu skaitu dotajā teksta gabalā. Tas izmanto tos pašus tokenizācijas noteikumus kā Hugging Face bibliotēka Transformers, kas galvenokārt paredzēta darbam ar angļu valodas tekstu.

Tokenizācijas process ietver teksta fragmenta sadalīšanu mazākās vienībās jeb žetonos, kas var būt atsevišķi vārdi, frāzes vai pat atsevišķas rakstzīmes. Šis process ir atkarīgs no valodas, jo dažādās valodās ir atšķirīgi noteikumi par to, kā tiek veidoti un strukturēti vārdi un teikumi.

tokenization.png

Tā kā tiktoken izmanto noteikumus, kas ir pielāgoti angļu valodai, tas var neprecīzi tokenizēt tekstu citās valodās. Piemēram, tas var nepareizi apstrādāt īpašās rakstzīmes, akcentus vai valodai raksturīgo interpunkciju valodās, kas nav angļu valoda. Tokenizācijā bieži katrs vārds vai vārda daļa tiek uzskatīta par atsevišķu žetonu. Tas labi darbojas angļu valodā un citās valodās, kurās vārdu atdalīšanai izmanto atstarpes. Tomēr tādās valodās kā japāņu vai ķīniešu valoda, kurās neizmanto atstarpes, rodas problēmas. Šajās valodās viena rakstzīme var apzīmēt veselu vārdu vai jēdzienu, un šo rakstzīmju attēlošanai ciparu formātā bieži vien ir nepieciešams vairāk baitu nekā angļu valodas vārdiem.

Piemēram, japāņu valodas rakstzīmei, kas apzīmē vārdu "suns", GPT modeļos ir vajadzīgi trīs žetoni, bet angļu valodas vārdam "dog" - tikai viens žetons. Tas nozīmē, ka japāņu teksta apstrādei ir nepieciešams vairāk žetonu nekā līdzvērtīga angļu teksta apstrādei (sīkāku informāciju skatiet šajā lieliskajā rakstā).

Kāpēc tas ir svarīgi? OpenAI iekasē maksu par savu modeļu izmantošanu par žetonu. Tāpēc citu valodu, piemēram, latviešu valoda, apstrāde var būt ievērojami dārgāka nekā angļu valodas apstrāde. Šis nevienlīdzīgais tokenizācijas process, kas dod priekšroku angļu valodai un nostāda neizdevīgākā situācijā citas valodas, veicina augstākas izmaksas par mākslīgā intelekta modeļu izmantošanu valodās, kas nav angļu valoda.

Tas nozīmē arī to, ka, piemēram, teksta latviešu valoda attēlošanai ir nepieciešams vairāk žetonu. Translaite novērš šo plaisu, tulkojot citvalodu uzvednes angļu valodā, nodrošinot efektīvu tokenizāciju.

Neobjektīvi mācību dati mākslīgajā intelektā

ChatGPT-3, tāpat kā tā priekšgājēji, tika apmācīts, izmantojot lielu datu apjomu. Tomēr būtisku problēmu rada valodu sadalījums mācību materiālos. Datu kopa pārsvarā dominē angļu valoda, kas veido 92,1 % no kopējā zīmju skaita. Otrā izplatītākā valoda, franču valoda, veido tikai 1,78 %, tai cieši seko vācu valoda ar 1,68 %. Arī spāņu, itāļu un portugāļu valodas ir sastopamas, bet katra no tām veido mazāk nekā 1 % no kopskaita rakstzīmēm. Pat japāņu valoda, kas ir plaši izplatīta, veido tikai 0,16 % no kopējā rakstzīmju skaita. Šī neproporcionāli lielā angļu valodas pārstāvība mācību datos neizbēgami novirza ChatGPT darbību angļu valodas virzienā, potenciāli ietekmējot tās darbību uzdevumos, kas nav saistīti ar angļu valodu. Šī novirze uzsver nepieciešamību pēc līdzsvarotākiem un daudzveidīgākiem mācību datiem, lai nodrošinātu mākslīgā intelekta modeļu vienlīdzīgu veiktspēju dažādās valodās. Valodas novirze tādos AI modeļos kā ChatGPT-3 var būt problemātiska vairāku iemeslu dēļ.

black_and_white.png

Veiktspējas atšķirības Modelim būs labāki rezultāti angļu valodas uzdevumos nekā citās valodās. Tas nozīmē, ka lietotājiem, kuru dzimtā valoda nav angļu, būs mazāk efektīva un, iespējams, apgrūtinoša pieredze.

Kultūras neobjektivitāte Valoda ir cieši saistīta ar kultūru. Apmācot galvenokārt ar angļu valodas tekstu, modelis var netīši nostiprināt angļu valodas materiāliem raksturīgos aizspriedumus un neizprast vai neievērot citās valodās esošās kultūras nianses.

Pieejamība un iekļautība Mākslīgajam intelektam ir potenciāls kļūt par universālu rīku, kas ir pieejams un noderīgs cilvēkiem neatkarīgi no viņu valodas vai atrašanās vietas. Tomēr aizspriedumi par labu angļu valodai ierobežo šo potenciālu un izslēdz ievērojamu daļu pasaules iedzīvotāju.

Nepareiza interpretācija un nepareiza saziņa Valodās, kas mācību datos ir nepietiekami pārstāvētas, modelis var nepareizi saprast vai interpretēt ievadīto tekstu, kā rezultātā var rasties nepareizas vai neatbilstošas atbildes. Tas var izraisīt arī nepareizu saziņu kritiskās situācijās.

Etiskie apsvērumi No ētiskā viedokļa ir svarīgi, lai mākslīgā intelekta sistēmas būtu taisnīgas un vienlīdzīgas. Sistēma, kas ir tendenciozi orientēta uz vienu valodu salīdzinājumā ar citām, rada jautājumus par taisnīgumu un pārstāvību.

Ierobežojumi globālai pieņemšanai Lai mākslīgais intelekts patiešām tiktu pieņemts un būtu efektīvs visā pasaulē, tam ir precīzi jāsaprot un jārada visas valodas. Pašreizējā neobjektivitāte var ierobežot tā pieņemšanu reģionos vai lietojumprogrammās, kas nav angliski runājošas.

Tāpēc ir ļoti svarīgi strādāt pie līdzsvarotākas pārstāvniecības mācību datos, ne tikai attiecībā uz valodu, bet arī uz kultūras, sociālajiem un demogrāfiskajiem aspektiem, ko valoda nes līdzi.

Veiktspējas uzlabošana

Neraugoties uz tokenizācijas aizspriedumiem un apmācības nelīdzsvarotību, GPT modeļi latviešu valoda darbojas labi. Tie spēj saprast jūsu norādījumus, tekoši un dabiski atbildēt latviešu valoda valodā un noraidīt neatbilstošus pieprasījumus. Tomēr tie ir lēnāki latviešu valoda, jo tokenizācija nav optimāla. Translaite mazina šo problēmu, tulkojot pamācības angļu valodā, tādējādi uzlabojot veiktspēju.

Nobeigumā jāsecina, ka valodas modeļu izmantošana mākslīgajā intelektā ir revolucionizējusi mašīnmācīšanās un dabiskās valodas apstrādes jomu. Tomēr to pielietošana valodās, kas nav angļu valodas, ir saskārusies ar grūtībām, ko rada tokenizācijas novirzes un mācību datu nelīdzsvarotība. Tokenizācija, teksta sadalīšana mazākās vienībās, var būt problemātiska tādās valodās kā latviešu valoda, kurām ir atšķirīga lingvistiskā struktūra. Šis nevienlīdzīgais tokenizācijas process rada lielākas izmaksas un lēnāku veiktspēju valodām, kas nav angļu valoda, salīdzinājumā ar angļu valodu. Turklāt neobjektīvi mācību dati, kuros dominē angļu valoda, ietekmē mākslīgā intelekta modeļu veiktspēju uzdevumos, kas nav saistīti ar angļu valodu, un nostiprina kultūras aizspriedumus.

all_inclusive.png

Lai risinātu šīs problēmas, Translaite piedāvā risinājumu, tulkojot citvalodu pamācības angļu valodā, ļaujot lietotājiem efektīvi sadarboties ar uzlabotiem mākslīgā intelekta modeļiem savā valodā. Šī pieeja uzlabo veiktspēju un mazina tokenizācijas aizspriedumus, padarot mākslīgo intelektu pieejamāku, iekļaujošāku un vienlīdzīgāku visu valodu lietotājiem. Tā arī uzsver, cik svarīga ir līdzsvarota pārstāvība mācību datos ne tikai valodas, bet arī kultūras un demogrāfisko aspektu ziņā. Strādājot pie daudzveidīgākiem un reprezentatīvākiem mācību datiem, mēs varam nodrošināt godīgu un efektīvu AI modeļu ieviešanu visā pasaulē, sniedzot labumu lietotājiem latviešu valoda un citur.

Vai vēlaties uzzināt, kā darbojas Translaite? Dodieties uz priekšu un izmēģiniet to.