Large Lanugage Models vertimas

Ekskursija apie tai, kaip Generative AI Models, tokie kaip ChatGPT, turi anglų kalbos šališkumą

Parašė stephens on 9 Aug 2023

Nuostabūs laikai

Dirbtinio intelekto pasaulyje kalbos modeliai kelia didelį susidomėjimą. Dideli kalbos modeliai (LLM), pavyzdžiui, "OpenAI" GPT šeimos modeliai, sulaukė didelio mašininio mokymosi ir natūralios kalbos apdorojimo bendruomenių dėmesio. Tačiau jie naudojami ne tik anglų kalba; jie taip pat gali suprasti ir pateikti rezultatus kitomis kalbomis, įskaitant lietuvių kalba. Šiuo tinklaraščio įrašu siekiama pabrėžti generatyvinių dirbtinio intelekto užuominų programos, pavyzdžiui, "Translaite", naudojimo privalumus.

Translaite pirmiausia išverčia neangliškas užuominas į anglų kalbą (per DeepL, užuominas OpenAI, o tada išvestį išverčia atgal į įvesties kalbą. Šis procesas leidžia naudotojams bendrauti su pažangiais dirbtinio intelekto modeliais jų kalba, todėl jie tampa prieinamesni ir patogesni. Tačiau kodėl reikėtų tai daryti?

Supratimas apie kalbos modeliams skirtą tokenizavimą

Tokenizavimas, įvesties teksto skaidymo į dalis arba žetonus procesas, yra labai svarbus žingsnis LLM veikloje. GPT modeliai gali apdoroti, pavyzdžiui, japonišką tekstą, nes juose naudojamas lankstus tokenizatorius tiktoken. Tiktoken - tai priemonė, kuri naudojama skaičiuoti ženklų skaičių tam tikrame teksto gabale. Ji naudoja tas pačias tokenizavimo taisykles kaip ir Hugging Face biblioteka "Transformers", kuri pirmiausia skirta darbui su angliškais tekstais.

Tokenizavimo procesas apima teksto fragmento skaidymą į mažesnius vienetus, arba žetonus, kurie gali būti atskiri žodžiai, frazės ar net pavieniai simboliai. Šis procesas priklauso nuo kalbos, nes skirtingose kalbose galioja skirtingos žodžių ir sakinių sudarymo ir struktūros taisyklės.

tokenization.png

Kadangi "tiktoken" naudoja taisykles, pritaikytas anglų kalbai, ji gali netiksliai tokenizuoti tekstą kitomis kalbomis. Pavyzdžiui, jis gali neteisingai apdoroti specialiuosius simbolius, akcentus ar kalbai būdingus skyrybos ženklus ne anglų kalba. Tokenizavimas dažnai kiekvieną žodį ar žodžio dalį traktuoja kaip atskirą simbolį. Tai gerai tinka anglų ir kitoms kalboms, kuriose žodžiams atskirti naudojami tarpai. Tačiau tokiose kalbose kaip japonų ar kinų, kuriose tarpai nenaudojami, susiduriama su sunkumais. Šiose kalbose vienas simbolis gali reikšti visą žodį ar sąvoką, o šiems simboliams atvaizduoti skaitmenine forma dažnai reikia daugiau baitų nei angliškiems žodžiams.

Pavyzdžiui, japonų kalbos simboliui, reiškiančiam šunį, GPT modeliuose reikia trijų žetonų, o angliškam žodžiui "dog" - tik vieno žetono. Tai reiškia, kad japoniškam tekstui apdoroti reikia daugiau žetonų nei analogiškam angliškam tekstui apdoroti (daugiau informacijos rasite šiame puikiame straipsnyje).

Kodėl tai svarbu? "OpenAI" už savo modelių naudojimą ima mokestį už kiekvieną simbolį. Todėl ne anglų kalbų, tokių kaip lietuvių kalba, apdorojimas gali būti gerokai brangesnis nei apdorojimas anglų kalba. Šis nevienodas simbolių nustatymo procesas, palankus anglų kalbai ir nepalankus kitoms kalboms, prisideda prie didesnių AI modelių naudojimo ne anglų kalboms sąnaudų.

Tai taip pat reiškia, kad, pavyzdžiui, lietuvių kalba tekstui atvaizduoti reikia daugiau tokenų. Translaite užpildo šią spragą verčiant ne anglų kalbos užuominas į anglų kalbą ir taip užtikrinant veiksmingą žetonizaciją.

Šališki mokymo duomenys dirbtiniame intelekte

ChatGPT-3, kaip ir jo pirmtakai, buvo apmokytas naudojant didelį kiekį duomenų. Tačiau didelį susirūpinimą kelia kalbų pasiskirstymas mokymo medžiagoje. Duomenų rinkinyje dominuoja anglų kalba, kuriai tenka 92,1 % visų ženklų. Antra pagal paplitimą kalba, prancūzų, sudaro tik 1,78 %, po jos seka vokiečių kalba - 1,68 %. Ispanų, italų ir portugalų kalbos taip pat yra svarbios, tačiau kiekviena iš jų sudaro mažiau nei 1 % visų ženklų. Net japonų kalba, kuria plačiai kalbama, sudaro tik 0,16 % visų ženklų. Toks neproporcingai didelis anglų kalbos atstovavimas mokomuosiuose duomenyse neišvengiamai iškreipia ChatGPT veikimą anglų kalbos atžvilgiu, o tai gali turėti įtakos jos veikimui atliekant ne anglų kalbos užduotis. Šis šališkumas rodo, kad reikia subalansuotesnių ir įvairesnių mokymo duomenų, kad būtų užtikrintas vienodas dirbtinio intelekto modelių veikimas įvairiomis kalbomis. Tokių dirbtinio intelekto modelių, kaip ChatGPT-3, kalbinis šališkumas gali būti problemiškas dėl kelių priežasčių

black_and_white.png

Vykdymo skirtumai Modelis geriau atliks anglų kalbos užduotis nei kitų kalbų. Tai reiškia, kad naudotojams, kuriems anglų kalba nėra gimtoji, bus mažiau veiksminga ir gali sukelti nusivylimą.

Kultūrinis šališkumas Kalba yra glaudžiai susijusi su kultūra. Kadangi modelis daugiausia mokomas pagal anglišką tekstą, jis gali netyčia įtvirtinti šališkumą, būdingą angliškam tekstui, ir nesuprasti ar nepaisyti kultūrinių niuansų, esančių kitose kalbose.

Prieinamumas ir įtraukumas AI gali būti universalus įrankis, prieinamas ir naudingas žmonėms nepriklausomai nuo jų kalbos ar vietos. Tačiau šališkumas anglų kalbos atžvilgiu riboja šį potencialą ir atriboja didelę pasaulio gyventojų dalį.

Neteisingas aiškinimas ir neteisingas bendravimas Kalbų, kurioms mokymo duomenyse atstovaujama nepakankamai, atveju modelis gali neteisingai suprasti arba interpretuoti įvestą tekstą, todėl atsakymai gali būti neteisingi arba netinkami. Dėl to kritinėse situacijose taip pat gali būti neteisingai bendraujama.

Etiniai aspektai Etikos požiūriu svarbu, kad dirbtinio intelekto sistemos būtų sąžiningos ir teisingos. Sistema, kuri yra šališka vienai kalbai, o ne kitoms, kelia klausimų dėl teisingumo ir atstovavimo.

Visuotinio pritaikymo apribojimai Kad dirbtinis intelektas būtų tikrai visuotinai pritaikytas ir veiksmingas, jis turi tiksliai suprasti ir generuoti visas kalbas. Dabartinis šališkumas gali apriboti jo pritaikymą ne angliškai kalbančiuose regionuose ar taikomosiose programose.

Todėl labai svarbu siekti tolygesnio atstovavimo mokymo duomenyse ne tik kalbos, bet ir kultūrinių, socialinių ir demografinių aspektų, kuriuos su savimi neša kalba, požiūriu.

Veiklos gerinimas

Nepaisant tokenizavimo šališkumo ir mokymo disbalanso, GPT modeliai gerai veikia lietuvių kalba. Jie gali suprasti jūsų nurodymus, sklandžiai ir natūraliai atsakyti lietuvių kalba ir atmesti netinkamas užklausas. Tačiau dėl neoptimalaus simbolizavimo lietuvių kalba jie veikia lėčiau. Translaite sušvelnina šią problemą verčiant užklausas į anglų kalbą ir taip padidinant našumą.

Apibendrinant galima teigti, kad kalbos modelių naudojimas dirbtiniame intelekte sukėlė revoliuciją mašininio mokymosi ir natūralios kalbos apdorojimo srityje. Tačiau jų taikymas ne anglų kalboms susidūrė su sunkumais dėl tokenizavimo šališkumo ir mokymo duomenų disbalanso. Tokenizacija, teksto skaidymo į mažesnius vienetus procesas, gali būti problemiškas tokioms kalboms, kaip lietuvių kalba, kurios turi skirtingas kalbines struktūras. Dėl šio nevienodo tokenizavimo proceso ne anglų kalboms tenka didesnės išlaidos ir lėtesnis našumas, palyginti su anglų kalba. Be to, neobjektyvūs mokymo duomenys, kai duomenų rinkinyje dominuoja anglų kalba, daro įtaką dirbtinio intelekto modelių veikimui sprendžiant ne anglų kalbos užduotis ir įtvirtina kultūrinius šališkumus.

all_inclusive.png

Siekiant išspręsti šias problemas, Translaite pateikiamas sprendimas - ne angliški raginimai verčiami į anglų kalbą, todėl naudotojai gali veiksmingai bendrauti su pažangiais AI modeliais savo kalba. Šis metodas pagerina našumą ir sumažina tokenizavimo šališkumą, todėl dirbtinis intelektas tampa prieinamesnis, įtraukesnis ir teisingesnis visų kalbų naudotojams. Taip pat pabrėžiama subalansuoto atstovavimo mokymo duomenyse svarba ne tik kalbos, bet ir kultūrinių bei demografinių aspektų požiūriu. Siekdami įvairesnių ir reprezentatyvesnių mokymo duomenų, galime užtikrinti sąžiningą ir veiksmingą dirbtinio intelekto modelių pritaikymą visame pasaulyje, o tai bus naudinga lietuvių kalba ir kitų šalių naudotojams.

Smalsu, kaip veikia Translaite? Pirmyn ir išbandykite