Překlad Large Language Models

Exkurze do problematiky předpojatosti Generative AI Models, jako je ChatGPT, vůči angličtině

Napsal stephens on 9 Aug 2023

Amazing Times

Ve světě umělé inteligence se jazykové modely staly velkým hitem. Velké jazykové modely (LLM), jako je například rodina GPT společnosti OpenAI, si získaly značnou pozornost v komunitách zabývajících se strojovým učením a zpracováním přirozeného jazyka. Jejich použití se však neomezuje pouze na angličtinu, ale dokáží porozumět i dalším jazykům, včetně čeština. Cílem tohoto příspěvku na blogu je upozornit na výhody používání aplikace pro generativní výzvy umělé inteligence, jako je Translaite.

Translaite nejprve přeloží neanglické podněty do češtiny (prostřednictvím DeepL, podněty OpenAI a poté výstup přeloží zpět do vstupního jazyka. Tento proces umožňuje uživatelům pracovat s pokročilými modely umělé inteligence v jejich jazyce, čímž se stává přístupnější a uživatelsky přívětivější. Proč by to však člověk měl dělat?

Porozumění tokenizaci pro jazykové modely

Tokenizace, proces rozdělení vstupního textu na části neboli tokeny, je klíčovým krokem při fungování modelů LLM. Modely GPT mohou zpracovávat např. japonský text, protože používají flexibilní tokenizér tiktoken. Tiktoken je nástroj, který se používá k počítání počtu tokenů v daném kusu textu. Používá stejná pravidla tokenizace jako knihovna Hugging Face Transformers, která je primárně určena pro práci s anglicky psaným textem.

Proces tokenizace spočívá v rozdělení části textu na menší jednotky neboli tokeny, což mohou být jednotlivá slova, fráze nebo dokonce jednotlivé znaky. Tento proces je závislý na jazyce, protože různé jazyky mají různá pravidla pro tvorbu a strukturu slov a vět.

tokenization.png

Vzhledem k tomu, že tiktoken používá pravidla přizpůsobená pro angličtinu, nemusí přesně tokenizovat text v jiných jazycích. Například nemusí správně zpracovávat speciální znaky, akcenty nebo interpunkční znaménka specifická pro jiný jazyk než angličtinu. Tokenizace často považuje každé slovo nebo jeho část za samostatný token. To dobře funguje v angličtině a dalších jazycích, které používají pro oddělení slov mezery. V jazycích, jako je japonština nebo čínština, které mezery nepoužívají, se však setkáváme s problémy. V těchto jazycích může jediný znak představovat celé slovo nebo pojem a tyto znaky často vyžadují k reprezentaci v digitální podobě více bajtů než anglická slova.

Například japonský znak pro slovo "dog" vyžaduje k reprezentaci v modelech GPT tři tokeny, zatímco pro anglické slovo "dog" stačí jeden token. To znamená, že zpracování japonského textu vyžaduje více tokenů než zpracování ekvivalentního anglického textu (více podrobností najdete v tomto skvělém článku).

Proč je to důležité? Společnost OpenAI si účtuje za použití svých modelů za každý token. Proto může být zpracování neanglických jazyků, jako je čeština, výrazně dražší než zpracování angličtiny. Tento nerovný proces tokenizace, který zvýhodňuje angličtinu a znevýhodňuje ostatní jazyky, přispívá k vyšším nákladům na používání modelů AI pro neanglické jazyky.

To také znamená, že např. k reprezentaci čeština textu je potřeba více tokenů. Translaite tuto mezeru překlenuje tím, že překládá neanglické výzvy do češtiny, čímž zajišťuje efektivní tokenizaci.

Neobjektivní tréninková data v umělé inteligenci

ChatGPT-3 byl stejně jako jeho předchůdci vycvičen na obrovském množství dat. Významným problémem je však jazykové rozložení tréninkového materiálu. V datové sadě drtivě dominuje angličtina, která tvoří 92,1 % všech znaků. Druhý nejčastější jazyk, francouzština, tvoří pouze 1,78 %, těsně následovaná němčinou s 1,68 %. Španělština, italština a portugalština se také vyskytují, ale každá z nich představuje méně než 1 % z celkového počtu znaků. Dokonce i japonština, která je velmi rozšířeným jazykem, představuje pouze 0,16 % z celkového počtu znaků. Toto neúměrné zastoupení angličtiny v trénovacích datech nevyhnutelně zkresluje výkon ChatGPT směrem k angličtině, což může ovlivnit jeho výkon v neanglických úlohách. Toto zkreslení podtrhuje potřebu vyváženějších a rozmanitějších tréninkových dat, aby se zajistila rovnoměrná výkonnost modelů umělé inteligence v různých jazycích. Jazykové zkreslení modelů AI, jako je ChatGPT-3, může být problematické z několika důvodů

black_and_white.png

Rozdílnost výkonu Model bude mít lepší výkon v úlohách v angličtině než v jiných jazycích. To znamená, že uživatelé, pro které není angličtina mateřským jazykem, budou mít méně efektivní a potenciálně frustrující zážitek.

Kulturní předpojatost Jazyk je úzce spjat s kulturou. Tím, že se model primárně trénuje na anglicky psaném textu, může neúmyslně udržovat předsudky vlastní anglicky psanému materiálu a nepochopit nebo nerespektovat kulturní nuance přítomné v jiných jazycích.

Dostupnost a inkluzivita Umělá inteligence má potenciál stát se univerzálním nástrojem, který je přístupný a užitečný lidem bez ohledu na jejich jazyk nebo místo pobytu. Příklon k angličtině však tento potenciál omezuje a vylučuje značnou část světové populace.

Nesprávná interpretace a nesprávná komunikace U jazyků, které jsou v trénovacích datech nedostatečně zastoupeny, může model nesprávně pochopit nebo interpretovat textové vstupy, což vede k nesprávným nebo nevhodným odpovědím. To může vést i k chybné komunikaci v kritických situacích.

Etické aspekty Z etického hlediska je důležité, aby systémy umělé inteligence byly spravedlivé a nestranné. Systém, který je zaujatý vůči jednomu jazyku na úkor jiných, vyvolává otázky ohledně spravedlnosti a reprezentace.

Omezení v globálním přijetí Aby byla umělá inteligence skutečně globálně přijata a efektivní, musí přesně rozumět všem jazykům a generovat je. Současná zaujatost by mohla omezit její přijetí v neanglicky mluvících oblastech nebo aplikacích.

Proto je nezbytné usilovat o vyváženější zastoupení v trénovacích datech, a to nejen z hlediska jazyka, ale také z hlediska kulturních, sociálních a demografických aspektů, které s sebou jazyk nese.

Zvyšování výkonu

Navzdory zkreslení tokenizace a nevyváženosti tréninkových dat jsou modely GPT v čeština dobře výkonné. Rozumějí vašim pokynům, odpovídají plynule a přirozeně v čeština a odmítají nevhodné požadavky. V čeština jsou však pomalejší kvůli neoptimální tokenizaci. Funkce Translaite tento problém zmírňuje tím, že překládá výzvy do češtiny, čímž zvyšuje výkon.

Závěrem lze říci, že používání jazykových modelů v umělé inteligenci způsobilo revoluci v oblasti strojového učení a zpracování přirozeného jazyka. Jejich použití v neanglických jazycích však naráží na problémy způsobené zkreslením tokenizace a nevyvážeností trénovacích dat. Tokenizace, proces rozdělení textu na menší jednotky, může být problematická u jazyků, jako je čeština, které mají odlišnou jazykovou strukturu. Tento nerovnoměrný proces tokenizace vede u neanglických jazyků ve srovnání s angličtinou k vyšším nákladům a pomalejšímu výkonu. Navíc zkreslená trénovací data, kdy v souboru dat převažuje angličtina, ovlivňují výkon modelů umělé inteligence v neanglických úlohách a udržují kulturní předsudky.

all_inclusive.png

Řešení těchto problémů nabízí Translaite, který překládá neanglické výzvy do angličtiny, což uživatelům umožňuje efektivně pracovat s pokročilými modely AI v jejich jazyce. Tento přístup zvyšuje výkonnost a zmírňuje zkreslení způsobená tokenizací, díky čemuž je AI přístupnější, inkluzivnější a spravedlivější pro uživatele všech jazyků. Zdůrazňuje také důležitost vyváženého zastoupení v trénovacích datech, a to nejen z hlediska jazyka, ale také z hlediska kulturních a demografických aspektů. Snahou o rozmanitější a reprezentativnější tréninková data můžeme zajistit spravedlivé a efektivní zavádění modelů AI na celém světě, z čehož budou mít prospěch uživatelé v čeština i jinde.

Zajímá vás, jak Translaite funguje? Neváhejte a vyzkoušejte.