Large Lanugage Models tõlkimine]

Ekskursioon selle kohta, kuidas Generative AI Models, nagu ChatGPT, on ingliskeelne eelarvamus.

Kirjutas stephens on 9 Aug 2023

Amazing Times

Tehisintellekti maailmas on keelemudelid teinud üsna suurt häält. Suured keelemudelid (LLM), nagu OpenAI GPT perekond, on pälvinud märkimisväärset tähelepanu masinõppe ja loomuliku keeletöötluse kogukondades. Nende kasutamine ei piirdu siiski ainult inglise keelega; nad suudavad mõista ja väljastada ka teisi keeli, sealhulgas eesti keel. Selle blogipostituse eesmärk on rõhutada, milliseid eeliseid pakub genereerivate tehisintellektipäringute, näiteks Translaite'i rakenduse kasutamine.

Translaite tõlgib esmalt mitteinglise keelega prompte inglise keelde (DeepL kaudu), esitab prompte OpenAI ja tõlgib seejärel väljundi tagasi sisendkeelde. See protsess võimaldab kasutajatel suhelda täiustatud tehisintellekti mudelitega oma keeles, muutes selle kättesaadavamaks ja kasutajasõbralikumaks. Kuid miks peaks seda tegema?

Keelemudelite tokeniseerimise mõistmine

Tokeniseerimine, st sisendteksti tükeldamine tükkideks või märgideks, on LLMide töö seisukohalt oluline samm. GPT-mudelid suudavad töödelda näiteks jaapani teksti, sest nad kasutavad paindlikku tokeniseerija tiktoken. Tiktoken on vahend, mida kasutatakse märgendite arvu loendamiseks antud tekstiosas. See kasutab samu tokeniseerimisreegleid kui Hugging Face Transformers'i raamatukogu, mis on mõeldud eelkõige ingliskeelse teksti töötlemiseks.

Tokeniseerimise protsess hõlmab tekstiosa jagamist väiksemateks ühikuteks ehk tokeniteks, mis võivad olla üksikud sõnad, fraasid või isegi üksikud tähemärgid. See protsess sõltub keelest, sest eri keeltes on erinevad reeglid, kuidas sõnu ja lauseid moodustada ja struktureerida.

tokenization.png

Kuna tiktoken kasutab reegleid, mis on kohandatud inglise keele jaoks, ei pruugi see teistes keeltes teksti täpselt tokeniseerida. Näiteks ei pruugi see korrektselt käsitleda erimärke, aktsente või keelekohaseid kirjavahemärke mitteinglise keelte puhul. Tokeniseerimine käsitleb sageli iga sõna või sõnaosa eraldi tokenina. See toimib hästi inglise keele ja teiste keelte puhul, mis kasutavad sõnade eraldamiseks tühikuid. Keeled nagu jaapani või hiina keel, mis ei kasuta tühikuid, seisavad aga silmitsi probleemidega. Nendes keeltes võib üks tähemärk esindada tervet sõna või mõistet ning nende tähemärkide digitaalseks esitamiseks on sageli vaja rohkem baite kui ingliskeelsete sõnade esitamiseks.

Näiteks võtab jaapani sõna "koer" kujutamiseks GPT-mudelites kolm tokenit, samas kui inglise keele sõna "dog" puhul on selleks vaja vaid ühte tokenit. See tähendab, et jaapani teksti töötlemiseks on vaja rohkem tokenit kui vastava ingliskeelse teksti töötlemiseks (vaadake täpsemalt seda suurepärast artiklit).

Miks see oluline on? OpenAI võtab oma mudelite kasutamise eest tasu sümboli kohta. Seetõttu võib mitteingliskeelsete keelte, näiteks eesti keel, töötlemine olla oluliselt kallim kui inglise keele töötlemine. See ebavõrdne tokeniseerimisprotsess, mis soosib inglise keelt ja seab teised keeled ebasoodsamasse olukorda, aitab kaasa mitteingliskeelsete keelte puhul tehisintellekti mudelite kasutamise kõrgematele kuludele.

See tähendab ka seda, et näiteks eesti keel teksti esitamiseks kulub rohkem märgendeid. Translaite katab selle puudujäägi, tõlkides mitte-inglise keelest lähtuvad käsklused inglise keelde, tagades tõhusa tokeniseerimise.

Kallutatud treeningandmed tehisintellekti puhul

ChatGPT-3, nagu ka tema eelkäijad, treeniti suure hulga andmete põhjal. Oluline probleem on aga keeleline jaotus treeningmaterjalis. Inglise keel domineerib andmestikus ülekaalukalt, moodustades 92,1% kõigist tähemärkidest. Teiseks levinuim keel, prantsuse keel, moodustab vaid 1,78%, millele järgneb saksa keel 1,68%-ga. Hispaania, itaalia ja portugali keel on samuti esindatud, kuid igaüks neist moodustab vähem kui 1% kõigist tähemärkidest. Isegi jaapani keel, mis on laialt levinud keel, moodustab ainult 0,16% tähemärkide koguarvust. Selline inglise keele ebaproportsionaalne esindatus treeningandmetes moonutab paratamatult ChatGPT tulemuslikkust inglise keele suunas, mis võib mõjutada selle tulemuslikkust mitteinglise keelega seotud ülesannetes. See erapoolikus rõhutab vajadust tasakaalustatumate ja mitmekesisemate treeningandmete järele, et tagada tehisintellekti mudelite võrdne jõudlus eri keeltes. AI-mudelite, nagu ChatGPT-3, keeleline kallutatus võib olla problemaatiline mitmel põhjusel.

black_and_white.png

Tulemuslikkuse erinevus Mudel täidab ingliskeelseid ülesandeid paremini kui teisi keeli. See tähendab, et kasutajatel, kes ei räägi inglise keelt emakeelena, on vähem tõhus ja potentsiaalselt pettumust tekitav kogemus.

Kultuuriline eelarvamus Keel on tihedalt seotud kultuuriga. Kuna mudel treenib peamiselt ingliskeelset teksti, võib see tahtmatult kinnistada ingliskeelsele materjalile omaseid eelarvamusi ning ei mõista ega austa teistes keeltes esinevaid kultuurilisi nüansse.

Kasutatavus ja kaasavus Tehisintellekt on potentsiaalselt universaalne vahend, mis on kättesaadav ja kasulik inimestele sõltumata nende keelest või asukohast. Kuid kallutatus inglise keele suhtes piirab seda potentsiaali ja jätab kõrvale märkimisväärse osa maailma elanikkonnast.

Vääritõlgendamine ja väärteomenetlus Keelte puhul, mis on koolitusandmetes alaesindatud, võib mudel teksti sisendist valesti aru saada või seda valesti tõlgendada, mille tulemuseks on valed või ebasobivad vastused. See võib kriitilistes olukordades viia ka väärteomenetluseni.

Eetilised kaalutlused Eetilisest seisukohast on oluline, et tehisintellekti süsteemid oleksid õiglased ja võrdsed. Süsteem, mis on ühe keele suhtes teiste keelte suhtes erapoolik, tekitab küsimusi õigluse ja esindatuse kohta.

Piirangud ülemaailmsel kasutuselevõtul Selleks, et tehisintellekti saaks tõeliselt ülemaailmselt kasutusele võtta ja olla tõhus, peab see mõistma ja genereerima kõiki keeli täpselt. Praegune eelarvamuslikkus võib piirata selle kasutuselevõttu mitte-ingliskeelsetes piirkondades või rakendustes.

Seetõttu on oluline töötada selle nimel, et koolitusandmed oleksid tasakaalustatumad, mitte ainult keele, vaid ka kultuuriliste, sotsiaalsete ja demograafiliste aspektide osas, mida keel endaga kaasa toob.

Tulemuslikkuse suurendamine

Hoolimata tokeniseerimise kallutatusest ja koolituse tasakaalustamatusest on GPT-mudelid eesti keel hästi toimivad.} Nad mõistavad teie juhiseid, vastavad sujuvalt ja loomulikult eesti keel keeles ning lükkavad tagasi sobimatud päringud. Siiski on nad eesti keel-s aeglasemad suboptimaalse tokeniseerimise tõttu. Translaite leevendab seda, tõlkides üleskutsed inglise keelde, parandades seeläbi jõudlust.

Kokkuvõtteks võib öelda, et keelemudelite kasutamine tehisintellektis on teinud revolutsiooni masinõppe ja loomuliku keeletöötluse valdkonnas. Siiski on nende rakendamine mitte-inglise keelte puhul seisnud silmitsi probleemidega, mis on tingitud tokeniseerimise eelarvamustest ja koolitusandmete tasakaalustamatusest. Tokeniseerimine ehk teksti jagamine väiksemateks üksusteks võib olla problemaatiline selliste keelte puhul nagu eesti keel, millel on erinev keeleline struktuur. See ebavõrdne tokeniseerimisprotsess põhjustab mitteinglise keelte puhul suuremaid kulusid ja aeglasemat jõudlust võrreldes inglise keelega. Lisaks mõjutavad kallutatud treeningandmed, kus inglise keel domineerib andmekogumis, tehisintellekti mudelite jõudlust mitteingliskeelsetes ülesannetes ja kinnistavad kultuurilisi eelarvamusi.

all_inclusive.png

Nende probleemide lahendamiseks pakub Translaite lahenduse, tõlkides mitte-inglise keelest lähtuvaid juhiseid inglise keelde, võimaldades kasutajatel tõhusalt suhelda täiustatud tehisintellekti mudelitega oma keeles. See lähenemisviis parandab jõudlust ja leevendab tokeniseerimise eelarvamusi, muutes tehisintellekti kättesaadavamaks, kaasavamaks ja õiglasemaks kõigi keelte kasutajatele. Samuti rõhutab see tasakaalustatud esindatuse tähtsust koolitusandmetes, mitte ainult keele, vaid ka kultuuriliste ja demograafiliste aspektide osas. Töötades mitmekesisemate ja esinduslikumate koolitusandmete nimel, saame tagada tehisintellekti mudelite õiglase ja tõhusa kasutuselevõtu kogu maailmas, millest saavad kasu kasutajad eesti keel ja mujalgi.

Huvitab, kuidas Translaite töötab? Mine edasi ja proovi seda