W świecie sztucznej inteligencji modele językowe robią coraz większą furorę. Duże modele językowe (LLM), takie jak OpenAI GPT, przyciągnęły znaczną uwagę w społecznościach zajmujących się uczeniem maszynowym i przetwarzaniem języka naturalnego. Jednak ich zastosowanie nie ogranicza się do języka angielskiego; mogą one również rozumieć i generować wyniki w innych językach. Wiąże się to jednak z pewnymi kluczowymi limitations.
Translaite został stworzony z myślą o użytkownikach nieanglojęzycznych. Najpierw tłumaczy nieanglojęzyczne monity na angielski, monituje OpenAI, a następnie tłumaczy dane wyjściowe na język wejściowy. Proces ten pozwala użytkownikom angażować się w zaawansowane modele sztucznej inteligencji w ich języku, czyniąc je bardziej dostępnymi i przyjaznymi dla użytkownika.
ChatGPT-3, i prawdopodobnie jego następca, został przeszkolony na ogromnej ilości danych. Istotnym problemem jest jednak rozkład języków w materiale szkoleniowym. Angielski zdecydowanie dominuje w zbiorze danych, stanowiąc 92,1% wszystkich znaków (patrz Training data). Drugi najpopularniejszy język, francuski, stanowi tylko 1,78%, a tuż za nim plasuje się niemiecki z wynikiem 1,68%. Hiszpański, włoski i portugalski również występują, ale każdy z nich stanowi mniej niż 1% wszystkich znaków. Nawet japoński, powszechnie używany język, stanowi tylko 0,16% wszystkich znaków. Ta nieproporcjonalna reprezentacja języka angielskiego w danych treningowych nieuchronnie wpływa na wydajność ChatGPT-3 w kierunku języka angielskiego, potencjalnie wpływając na jego wydajność w zadaniach nieanglojęzycznych.
Tokenizacja, proces dzielenia tekstu wejściowego na fragmenty lub tokeny, jest kluczowym krokiem w działaniu LLM. Modele GPT mogą przetwarzać tekst nieanglojęzyczny, ponieważ używają elastycznego tokenizera, tiktoken. Proces tokenizacji jest jednak ukierunkowany na język angielski, ponieważ reprezentacja tekstu nieanglojęzycznego wymaga większej liczby tokenów.
Tokenizacja często traktuje każde słowo lub część słowa jako osobny token. Działa to dobrze w przypadku języka angielskiego i innych języków, które używają spacji do oddzielania słów. Jednak języki takie jak japoński czy chiński, które nie używają spacji, napotykają wyzwania. W tych językach pojedynczy znak może reprezentować całe słowo lub pojęcie, a znaki te często wymagają więcej bajtów do przedstawienia w formie cyfrowej niż angielskie słowa, co sprawia, że korzystanie z nich jest wolniejsze i droższe.
Pomimo nierównowagi treningowej i tendencyjności tokenizacji, modele GPT działają dobrze np. w języku japońskim. Potrafią zrozumieć japońskie instrukcje, płynnie i naturalnie odpowiadać w języku japońskim oraz odrzucać nieodpowiednie prośby. Są jednak wolniejsze w języku japońskim ze względu na nieoptymalną tokenizację i brak wiedzy z powodu mniejszej ilości materiału szkoleniowego. Translaite łagodzi to poprzez tłumaczenie nieanglojęzycznych podpowiedzi na angielski, a odpowiedzi z powrotem na język wejściowy, zwiększając w ten sposób wydajność.
Translaite oferuje znaczące korzyści, zwłaszcza dla użytkowników nieanglojęzycznych. Zapewnia skuteczną tokenizację, przezwycięża uprzedzenia językowe i zwiększa wydajność. Ponadto sprawia, że zaawansowane modele sztucznej inteligencji są bardziej dostępne i przyjazne dla użytkownika, wspierając bardziej integracyjne środowisko sztucznej inteligencji.