O Translaite

Ve světě umělé inteligence jsou jazykové modely velmi populární. Velké jazykové modely (LLM), jako například OpenAI GPT, si získaly značnou pozornost v komunitách zabývajících se strojovým učením a zpracováním přirozeného jazyka. Jejich použití se však neomezuje pouze na angličtinu, ale dokáží porozumět i jiným jazykům a vytvářet v nich výstupy. To však s sebou nese některé zásadní limitations.

Translaite je vytvořen s ohledem na uživatele, kteří nejsou angličtináři. Nejprve přeloží neanglické výzvy do angličtiny, zadá výzvu OpenAI a poté výstup přeloží zpět do vstupního jazyka. Tento proces umožňuje uživatelům pracovat s pokročilými modely umělé inteligence v jejich jazyce, čímž se stává přístupnější a uživatelsky přívětivější.


Proč právě Translaite?


Výuka jazyků

ChatGPT-3 a pravděpodobně i jeho nástupce byl vycvičen na obrovském množství dat. Významným problémem je však rozložení jazyků v tréninkovém materiálu. V souboru dat drtivě dominuje angličtina, která tvoří 92,1 % všech znaků (viz Training data). Druhý nejčastější jazyk, francouzština, tvoří pouze 1,78 %, těsně následovaná němčinou s 1,68 %. Španělština, italština a portugalština se také vyskytují, ale každá z nich představuje méně než 1 % z celkového počtu znaků. Dokonce i japonština, hojně používaný jazyk, představuje pouze 0,16 % z celkového počtu znaků. Toto neúměrné zastoupení angličtiny v trénovacích datech nevyhnutelně zkresluje výkonnost ChatGPT-3 směrem k angličtině, což může ovlivnit jeho výkonnost v neanglických úlohách.

Tokenizace

Tokenizace, proces rozdělení vstupního textu na části neboli tokeny, je klíčovým krokem v tom, jak LLM fungují. Modely GPT mohou zpracovávat neanglický text, protože používají flexibilní tokenizér tiktoken. Proces tokenizace je však zaujatý vůči angličtině, protože k reprezentaci neanglického textu je potřeba více tokenů.

Tokenizace často považuje každé slovo nebo jeho část za samostatný token. To dobře funguje pro angličtinu a další jazyky, které používají k oddělení slov mezery. Jazyky jako japonština nebo čínština, které mezery nepoužívají, se však potýkají s problémy. V těchto jazycích může jediný znak představovat celé slovo nebo pojem a tyto znaky často vyžadují k reprezentaci v digitální podobě více bajtů než anglická slova, což zpomaluje a prodražuje jejich používání.

Zvyšování výkonu

Navzdory nevyváženosti tréninku a zkreslení tokenizace mají modely GPT dobrý výkon např. v japonštině. Rozumějí japonským pokynům, odpovídají plynule a přirozeně v japonštině a odmítají nevhodné požadavky. V japonštině jsou však pomalejší kvůli neoptimální tokenizaci a nedostatečným znalostem v důsledku menšího množství tréninkového materiálu. Translaite tento problém zmírňuje tím, že překládá neanglické pokyny do angličtiny a odpověď zpět do vstupního jazyka, čímž zvyšuje výkon.

Translaite nabízí významné výhody, zejména pro uživatele, kteří neovládají angličtinu. Zajišťuje účinnou tokenizaci, překonává jazykové zkreslení a zvyšuje výkon. Navíc zpřístupňuje pokročilé modely AI a činí je uživatelsky přívětivějšími, čímž podporuje inkluzivnější prostředí AI.