Preklad Large Lanugage Models

Exkurzia do toho, ako Generative AI Models, ako napríklad ChatGPT, majú anglickú predpojatosť

Napísal stephens on 9 Aug 2023

Amazing Times

Vo svete umelej inteligencie robia jazykové modely veľký rozruch. Veľké jazykové modely (LLM), ako napríklad rodina GPT spoločnosti OpenAI, si získali značnú pozornosť v komunitách strojového učenia a spracovania prirodzeného jazyka. Ich použitie sa však neobmedzuje len na angličtinu; dokážu porozumieť a vytvárať výstupy aj v iných jazykoch vrátane slovenčina. Cieľom tohto príspevku na blogu je poukázať na výhody používania aplikácie na generatívne výzvy umelej inteligencie, ako je Translaite.

Translaite najprv preloží neanglické podnety do angličtiny (prostredníctvom DeepL, podnety OpenAI a potom výstup preloží späť do vstupného jazyka. Tento proces umožňuje používateľom pracovať s pokročilými modelmi umelej inteligencie v ich jazyku, čím sa stáva prístupnejším a používateľsky prívetivejším. Ale prečo by to mal človek robiť?

Porozumenie tokenizácii pre jazykové modely

Tokenizácia, proces rozdelenia vstupného textu na časti alebo tokeny, je kľúčovým krokom pri fungovaní modelov LLM. Modely GPT dokážu spracovať napr. japonský text, pretože používajú flexibilný tokenizátor tiktoken. Tiktoken je nástroj, ktorý sa používa na počítanie počtu tokenov v danej časti textu. Používa rovnaké pravidlá tokenizácie ako knižnica Hugging Face Transformers, ktorá je primárne určená na prácu s textom v anglickom jazyku.

Proces tokenizácie zahŕňa rozdelenie časti textu na menšie jednotky alebo tokeny, ktorými môžu byť jednotlivé slová, frázy alebo dokonca jednotlivé znaky. Tento proces je závislý od jazyka, pretože rôzne jazyky majú rôzne pravidlá pre tvorbu a štruktúru slov a viet.

tokenization.png

Keďže tiktoken používa pravidlá, ktoré sú prispôsobené pre angličtinu, nemusí presne tokenizovať text v iných jazykoch. Napríklad nemusí správne spracovať špeciálne znaky, diakritiku alebo interpunkčné znamienka špecifické pre iný jazyk ako angličtinu. Tokenizácia často považuje každé slovo alebo časť slova za samostatný token. To dobre funguje v prípade angličtiny a iných jazykov, ktoré používajú na oddelenie slov medzery. Jazyky ako japončina alebo čínština, ktoré medzery nepoužívajú, však čelia problémom. V týchto jazykoch môže jeden znak predstavovať celé slovo alebo pojem a tieto znaky si často vyžadujú viac bajtov na reprezentáciu v digitálnej podobe ako anglické slová.

Napríklad japonský znak pre slovo "dog" potrebuje na reprezentáciu v modeloch GPT tri tokeny v porovnaní s jedným tokenom pre anglické slovo "dog". To znamená, že spracovanie japonského textu si vyžaduje viac tokenov ako spracovanie ekvivalentného anglického textu (podrobnejšie informácie nájdete v tomto skvelom článku).

Prečo je to dôležité? OpenAI si účtuje používanie svojich modelov za každý token. Preto môže byť spracovanie neanglických jazykov, ako napríklad slovenčina, podstatne drahšie ako spracovanie angličtiny. Tento nerovnaký proces tokenizácie, ktorý zvýhodňuje angličtinu a znevýhodňuje ostatné jazyky, prispieva k vyšším nákladom na používanie modelov AI pre neanglické jazyky.

Znamená to tiež, že napr. na reprezentáciu textu slovenčina je potrebných viac tokenov. Translaite preklenuje túto medzeru tým, že prekladá neanglické podnety do angličtiny, čím zabezpečuje efektívnu tokenizáciu.

Neobjektívne tréningové údaje v umelej inteligencii

ChatGPT-3, podobne ako jeho predchodcovia, bol vycvičený na obrovskom množstve údajov. Významným problémom je však rozloženie jazykov v tréningovom materiáli. V datasete drvivo dominuje angličtina, ktorá predstavuje 92,1 % všetkých znakov. Druhý najrozšírenejší jazyk, francúzština, tvorí len 1,78 %, tesne za ním nasleduje nemčina s 1,68 %. Španielčina, taliančina a portugalčina sa tiež vyskytujú, ale každý z nich predstavuje menej ako 1 % všetkých znakov. Dokonca aj japončina, ktorá je veľmi rozšíreným jazykom, predstavuje len 0,16 % všetkých znakov. Toto neúmerné zastúpenie angličtiny v trénovaných údajoch nevyhnutne skresľuje výkon ChatGPT smerom k angličtine, čo môže ovplyvniť jeho výkon v neanglických úlohách. Toto skreslenie zdôrazňuje potrebu vyváženejších a rozmanitejších tréningových údajov, aby sa zabezpečila rovnaká výkonnosť modelov AI v rôznych jazykoch. Jazykové skreslenie modelov AI, ako je ChatGPT-3, môže byť problematické z niekoľkých dôvodov

black_and_white.png

Rozdielnosť výkonu Model bude dosahovať lepšie výsledky v úlohách v angličtine ako v iných jazykoch. To znamená, že používatelia, pre ktorých angličtina nie je materinským jazykom, budú mať menej efektívne a potenciálne frustrujúce skúsenosti.

Kultúrne skreslenie Jazyk je úzko spätý s kultúrou. Tým, že sa model primárne trénuje na texte v anglickom jazyku, môže neúmyselne zachovať predsudky vlastné materiálu v anglickom jazyku a nepochopiť alebo nerešpektovať kultúrne nuansy prítomné v iných jazykoch.

Dostupnosť a inkluzívnosť Umelá inteligencia má potenciál stať sa univerzálnym nástrojom, ktorý je prístupný a užitočný pre ľudí bez ohľadu na ich jazyk alebo lokalitu. Príklon k angličtine však tento potenciál obmedzuje a vylučuje značnú časť svetovej populácie.

Nesprávna interpretácia a nesprávna komunikácia V prípade jazykov, ktoré sú v tréningových údajoch nedostatočne zastúpené, môže model nesprávne pochopiť alebo interpretovať textové vstupy, čo môže viesť k nesprávnym alebo nevhodným odpovediam. To môže viesť aj k nesprávnej komunikácii v kritických situáciách.

Etické aspekty Z etického hľadiska je dôležité, aby boli systémy umelej inteligencie spravodlivé a nestranné. Systém, ktorý je zaujatý voči jednému jazyku na úkor iných, vyvoláva otázky o spravodlivosti a zastúpení.

Obmedzenia pri globálnom prijatí Aby bola AI skutočne globálne prijatá a efektívna, musí presne rozumieť a generovať všetky jazyky. Súčasná zaujatosť by mohla obmedziť jej prijatie v neanglicky hovoriacich regiónoch alebo aplikáciách.

Preto je nevyhnutné pracovať na vyváženejšom zastúpení v tréningových údajoch, a to nielen z hľadiska jazyka, ale aj z hľadiska kultúrnych, sociálnych a demografických aspektov, ktoré so sebou jazyk nesie.

Zvyšovanie výkonnosti

Napriek skresleniu pri tokenizácii a nevyváženosti pri trénovaní dosahujú modely GPT v slovenčina dobré výsledky. Dokážu porozumieť vašim pokynom, plynulo a prirodzene odpovedajú v slovenčina a odmietajú nevhodné požiadavky. V slovenčina sú však pomalšie kvôli neoptimálnej tokenizácii. Funkcia Translaite tento problém zmierňuje prekladom výziev do slovenčiny, čím zvyšuje výkon.

Na záver možno konštatovať, že používanie jazykových modelov v umelej inteligencii spôsobilo revolúciu v oblasti strojového učenia a spracovania prirodzeného jazyka. Ich aplikácia v neanglických jazykoch však naráža na problémy spôsobené skreslením tokenizácie a nevyváženosťou trénovacích údajov. Tokenizácia, proces rozdelenia textu na menšie jednotky, môže byť problematická v prípade jazykov, ako je slovenčina, ktoré majú odlišnú jazykovú štruktúru. Tento nerovnomerný proces tokenizácie vedie k vyšším nákladom a pomalšiemu výkonu v prípade neanglických jazykov v porovnaní s angličtinou. Okrem toho neobjektívne tréningové údaje, v ktorých dominuje angličtina, ovplyvňujú výkon modelov umelej inteligencie v neanglických úlohách a upevňujú kultúrne predsudky.

all_inclusive.png

Na riešenie týchto problémov poskytuje Translaite riešenie prostredníctvom prekladu neanglických výziev do angličtiny, čo používateľom umožňuje efektívne pracovať s pokročilými modelmi umelej inteligencie v ich jazyku. Tento prístup zvyšuje výkonnosť a zmierňuje tendencie pri tokenizácii, vďaka čomu je AI prístupnejšia, inkluzívnejšia a spravodlivejšia pre používateľov všetkých jazykov. Zdôrazňuje tiež dôležitosť vyváženého zastúpenia v tréningových údajoch, a to nielen z hľadiska jazyka, ale aj z hľadiska kultúrnych a demografických aspektov. Prácou na rozmanitejších a reprezentatívnejších tréningových údajoch môžeme zabezpečiť spravodlivé a efektívne prijatie modelov umelej inteligencie na celom svete, z čoho budú mať prospech používatelia v slovenčina a ďalších jazykoch.

Ste zvedaví, ako funguje Translaite? Pokračujte a vyskúšajte si to.