За Translaite

В света на изкуствения интелект езиковите модели са доста популярни. Големите езикови модели (LLM), като например OpenAI GPT, привлякоха значително внимание в общностите на машинното обучение и обработката на естествен език. Използването им обаче не се ограничава само до английски език; те могат да разбират и извеждат данни и на други езици. Това обаче е свързано с някои важни limitations.

Translaite е създаден с оглед на потребителите, които не използват английски език. Той първо превежда неанглийските подсказки на английски език, подсказва OpenAI и след това превежда обратно изхода на входния език. Този процес позволява на потребителите да работят с усъвършенстваните модели на изкуствения интелект на техния език, което го прави по-достъпен и удобен за ползване.


Защо Translaite?


Езиково обучение

ChatGPT-3, а вероятно и неговият наследник, е обучен върху огромно количество данни. Съществен проблем обаче е разпределението на езиците в учебния материал. Английският език преобладава в набора от данни, като на него се падат 92,1 % от общия брой символи (вж. Training data). Вторият най-разпространен език, френският, съставлява само 1,78%, следван плътно от немския с 1,68%. Испанският, италианският и португалският език също се срещат, но всеки от тях представлява по-малко от 1% от общия брой знаци. Дори японският език, който е широко разпространен, представлява само 0,16 % от общия брой знаци. Това непропорционално представителство на английския език в данните за обучение неизбежно насочва резултатите на ChatGPT-3 към английския език, което може да повлияе на представянето му в задачи, които не са на английски език.

Токенизация

Токенизацията, процесът на разделяне на входния текст на части или токени, е ключова стъпка в работата на LLM. Моделите на GPT могат да обработват неанглоезичен текст, защото използват гъвкав токенизатор, tiktoken. Процесът на токенизация обаче е предубеден към английския език, тъй като са необходими повече токени за представяне на неанглоезичен текст.

Токенизацията често третира всяка дума или част от дума като отделен токен. Това работи добре за английски и други езици, които използват интервали за разделяне на думите. Езици като японски или китайски, които не използват интервали, обаче се сблъскват с предизвикателства. В тези езици един символ може да представлява цяла дума или понятие, а тези символи често изискват повече байтове за представяне в цифрова форма, отколкото английските думи, което прави използването по-бавно и по-скъпо.

Подобряване на производителността

Въпреки дисбалансите при обучението и пристрастията при токенизацията, моделите GPT се представят добре например на японски език. Те могат да разбират японски инструкции, да отговарят свободно и естествено на японски и да отхвърлят неподходящи заявки. Въпреки това те са по-бавни на японски език поради неоптималната токенизация и липсата на знания поради по-малкото учебен материал. Translaite смекчава това, като превежда неанглоезичните подкани на английски, а отговора обратно на входния език, като по този начин повишава производителността.

Translaite предлага значителни предимства, особено за потребителите, които не ползват английски език. Той осигурява ефективно токенизиране, преодолява езиковите пристрастия и подобрява производителността. Освен това тя прави усъвършенстваните модели на ИИ по-достъпни и удобни за ползване, като насърчава по-приобщаваща среда за ИИ.