Traducerea Large Lanugage Models

O excursie în modul în care modelele Generative AI Models, cum ar fi ChatGPT, au o prejudecată în limba engleză

Scris de stephens on 9 Aug 2023

Amazing Times

În lumea inteligenței artificiale, modelele lingvistice au făcut furori. Modelele lingvistice mari (LLM), cum ar fi familia GPT de la OpenAI, au atras o atenție considerabilă în comunitățile de învățare automată și de procesare a limbajului natural. Cu toate acestea, utilizarea lor nu se limitează la limba engleză; acestea pot, de asemenea, să înțeleagă și să producă rezultate în alte limbi, inclusiv în limba română. Această postare pe blog își propune să evidențieze beneficiile utilizării unei aplicații pentru indicații generative de inteligență artificială, cum ar fi Translaite.

Translaite traduce mai întâi prompturile care nu sunt în limba engleză în limba engleză (prin intermediul DeepL, solicită OpenAI și apoi traduce înapoi rezultatul în limba de intrare. Acest proces le permite utilizatorilor să se angajeze cu modelele avansate de inteligență artificială în limba lor, făcându-le mai accesibile și mai ușor de utilizat. Dar de ce ar trebui să se facă acest lucru?

Înțelegerea tokenizării pentru modelele lingvistice

Tokenizarea, procesul de divizare a textului de intrare în bucăți sau token-uri, este un pas crucial în modul în care funcționează LLM-urile. Modelele GPT pot procesa, de exemplu, textul japonez, deoarece utilizează un tokenizator flexibil, tiktoken. Tiktoken este un instrument care este utilizat pentru a număra numărul de token-uri dintr-o anumită bucată de text. Utilizează aceleași reguli de tokenizare ca și biblioteca Transformers de la Hugging Face, care este concepută în principal pentru a lucra cu text în limba engleză.

Procesul de tokenizare implică împărțirea unui text în unități mai mici, sau token-uri, care pot fi cuvinte individuale, fraze sau chiar caractere unice. Acest proces este dependent de limbă, deoarece diferite limbi au reguli diferite pentru modul în care sunt formate și structurate cuvintele și propozițiile.

tokenization.png

Deoarece tiktoken utilizează reguli adaptate pentru limba engleză, este posibil să nu tokenizeze cu acuratețe textul în alte limbi. De exemplu, este posibil să nu gestioneze corect caracterele speciale, accentele sau punctuația specifică limbii în limbile altele decât engleza. Tokenizarea tratează adesea fiecare cuvânt sau parte a unui cuvânt ca un token separat. Acest lucru funcționează bine în cazul limbii engleze și al altor limbi care utilizează spații pentru a separa cuvintele. Cu toate acestea, limbi precum japoneza sau chineza, care nu utilizează spații, se confruntă cu provocări. În aceste limbi, un singur caracter poate reprezenta un cuvânt sau un concept întreg, iar aceste caractere necesită adesea mai mulți octeți pentru a fi reprezentate în formă digitală decât cuvintele în limba engleză.

De exemplu, caracterul japonez pentru "câine" necesită trei token-uri pentru a fi reprezentat în modelele GPT, în comparație cu un singur token pentru cuvântul englezesc "dog". Acest lucru înseamnă că procesarea textului japonez necesită mai mulți tokeni decât procesarea textului englezesc echivalent (consultați acest articol pentru mai multe detalii).

De ce este important acest lucru? OpenAI taxează utilizarea modelelor sale pe token. Prin urmare, procesarea limbilor non-englezești, cum ar fi limba română, poate fi semnificativ mai costisitoare decât procesarea limbii engleze. Acest proces inegal de tokenizare, care favorizează limba engleză și dezavantajează alte limbi, contribuie la costul mai ridicat al utilizării modelelor AI pentru limbile non-engleze.

Acest lucru înseamnă, de asemenea, că, de exemplu, este nevoie de mai multe token-uri pentru a reprezenta textul limba română. Translaite acoperă acest decalaj prin traducerea în limba engleză a indicațiilor din alte limbi decât engleza, asigurând o tokenizare eficientă.

Date de instruire părtinitoare în IA

ChatGPT-3, ca și predecesorii săi, a fost antrenat pe o cantitate mare de date. Cu toate acestea, o preocupare semnificativă este distribuția limbilor în materialul de instruire. Engleza domină în mod covârșitor setul de date, reprezentând 92,1% din totalul caracterelor. A doua cea mai răspândită limbă, franceza, reprezintă doar 1,78%, urmată îndeaproape de germană, cu 1,68%. Spaniola, italiana și portugheza sunt, de asemenea, prezente, dar fiecare reprezintă mai puțin de 1% din totalul caracterelor. Chiar și japoneza, o limbă vorbită pe scară largă, reprezintă doar 0,16% din totalul caracterelor. Această reprezentare disproporționată a limbii engleze în datele de instruire influențează în mod inevitabil performanța ChatGPT în favoarea limbii engleze, ceea ce ar putea afecta performanța sa în sarcinile care nu sunt în limba engleză. Această distorsiune subliniază necesitatea unor date de instruire mai echilibrate și mai diverse pentru a asigura o performanță echitabilă a modelelor de inteligență artificială în diferite limbi. Înclinarea lingvistică a modelelor de inteligență artificială precum ChatGPT-3 poate fi problematică din mai multe motive

black_and_white.png

Disparitate de performanță Modelul va avea performanțe mai bune în sarcinile în limba engleză decât în alte limbi. Acest lucru înseamnă că utilizatorii care nu vorbesc engleza ca primă limbă vor avea o experiență mai puțin eficientă și potențial frustrantă.

Biasare culturală Limba este strâns legată de cultură. Prin faptul că se antrenează în principal pe texte în limba engleză, modelul poate perpetua în mod neintenționat prejudecățile inerente materialelor în limba engleză și nu înțelege sau nu respectă nuanțele culturale prezente în alte limbi.

Accesibilitate și incluziune Inteligența artificială are potențialul de a fi un instrument universal, accesibil și util pentru oameni indiferent de limba sau de locul în care se află. Cu toate acestea, o prejudecată față de limba engleză limitează acest potențial și exclude o parte semnificativă a populației globale.

Interpretare și comunicare eronată În cazul limbilor care sunt subreprezentate în datele de instruire, modelul poate înțelege sau interpreta greșit intrările de text, ceea ce poate duce la răspunsuri incorecte sau necorespunzătoare. Acest lucru poate duce, de asemenea, la erori de comunicare în situații critice.

Considerații etice Din punct de vedere etic, este important ca sistemele de inteligență artificială să fie corecte și echitabile. Un sistem care favorizează o limbă în detrimentul altora ridică întrebări legate de corectitudine și reprezentare.

Limitare în adoptarea globală Pentru ca IA să fie cu adevărat adoptată și eficientă la nivel global, trebuie să înțeleagă și să genereze toate limbile cu acuratețe. Prejudiciul actual ar putea limita adoptarea sa în regiunile sau aplicațiile în care nu se vorbește limba engleză.

Prin urmare, este esențial să se depună eforturi pentru o reprezentare mai echilibrată în datele de instruire, nu doar în ceea ce privește limba, ci și în ceea ce privește aspectele culturale, sociale și demografice pe care limba le implică.

Îmbunătățirea performanței

În ciuda prejudecăților de tokenizare și a dezechilibrelor de formare, modelele GPT au performanțe bune în limba română. Acestea pot înțelege instrucțiunile dumneavoastră, pot răspunde în limba română în mod fluent și natural și pot respinge cererile nepotrivite. Cu toate acestea, ele sunt mai lente în limba română din cauza tokenizării suboptime. Translaite atenuează acest aspect prin traducerea solicitărilor în limba engleză, îmbunătățind astfel performanța.

În concluzie, utilizarea modelelor lingvistice în inteligența artificială a revoluționat domeniul învățării automate și al procesării limbajului natural. Cu toate acestea, aplicarea lor în limbile non-engleze s-a confruntat cu provocări din cauza prejudecăților de tokenizare și a dezechilibrelor datelor de instruire. Tokenizarea, procesul de divizare a textului în unități mai mici, poate fi problematică pentru limbi precum limba română, care au structuri lingvistice diferite. Acest proces inegal de tokenizare duce la costuri mai mari și la o performanță mai lentă pentru limbile non-englezești în comparație cu engleza. În plus, datele de instruire tendențioase, în care engleza domină setul de date, afectează performanța modelelor de inteligență artificială în sarcini care nu sunt în limba engleză și perpetuează prejudecățile culturale.

all_inclusive.png

Pentru a aborda aceste probleme, Translaite oferă o soluție prin traducerea în limba engleză a indicațiilor care nu sunt în limba engleză, permițând utilizatorilor să se angajeze în mod eficient cu modelele avansate de inteligență artificială în limba lor. Această abordare îmbunătățește performanța și atenuează prejudecățile de tokenizare, făcând IA mai accesibilă, incluzivă și echitabilă pentru utilizatorii din toate limbile. De asemenea, evidențiază importanța unei reprezentări echilibrate în datele de instruire, nu numai în ceea ce privește limba, ci și în ceea ce privește aspectele culturale și demografice. Lucrând pentru obținerea unor date de instruire mai diverse și mai reprezentative, putem asigura adoptarea echitabilă și eficientă a modelelor de inteligență artificială la nivel global, în beneficiul utilizatorilor din limba română și nu numai.

Sunteți curioși să aflați cum funcționează Translaite? Mergeți mai departe și încercați-l