Amazing Times
В света на изкуствения интелект езиковите модели са доста популярни. Големите езикови модели (LLM), като например фамилията GPT на OpenAI, привлякоха значително внимание в общностите за машинно обучение и обработка на естествен език. Използването им обаче не се ограничава само до английски език; те могат да разбират и извеждат данни и на други езици, включително на Български. Тази публикация в блога има за цел да подчертае ползите от използването на приложение за генеративни подкани за изкуствен интелект, като например Translaite.
Translaite първо превежда неанглоезични подсказки на английски език (чрез DeepL, подсказва OpenAI, а след това превежда обратно изхода на входния език. Този процес позволява на потребителите да работят с усъвършенстваните модели на изкуствения интелект на техния език, което го прави по-достъпен и удобен за ползване. Но защо трябва да се прави това?
Разбиране на токенизацията за езикови модели
Токенизацията, процесът на разделяне на входния текст на части или токени, е ключова стъпка в работата на моделите за учене на чужди езици. Моделите на GPT могат да обработват например японски текст, тъй като използват гъвкав токенизатор, tiktoken. Tiktoken е инструмент, който се използва за преброяване на броя на лексемите в дадено парче текст. Той използва същите правила за токенизация като библиотеката Transformers на Hugging Face, която е предназначена предимно за работа с текст на английски език.
Процесът на токенизация включва разделяне на част от текста на по-малки единици, или токени, които могат да бъдат отделни думи, фрази или дори отделни символи. Този процес зависи от езика, тъй като различните езици имат различни правила за това как се формират и структурират думите и изреченията.
Тъй като tiktoken използва правила, които са пригодени за английски език, може да не успее да токенизира точно текст на други езици. Например може да не се справя правилно със специалните символи, акцентите или специфичната за езика пунктуация в езици, различни от английския. Токенизацията често третира всяка дума или част от дума като отделен токен. Това работи добре за английски и други езици, които използват интервали за разделяне на думите. Въпреки това езици като японски или китайски, които не използват интервали, се сблъскват с предизвикателства. В тези езици един символ може да представлява цяла дума или понятие, а тези символи често изискват повече байтове за представяне в цифрова форма, отколкото английските думи.
Например японският йероглиф за "куче" се нуждае от три токена за представяне в моделите на GPT, докато за английската дума "dog" е необходим само един токен. Това означава, че обработката на японски текст изисква повече токени, отколкото обработката на еквивалентен текст на английски език (за повече подробности вижте тази страхотна статия).
Защо това е от значение? OpenAI таксува използването на моделите си на токен. Следователно обработката на неанглийски езици като Български може да бъде значително по-скъпа от обработката на английски език. Този неравностоен процес на токенизация, който облагодетелства английския език и поставя в неравностойно положение другите езици, допринася за по-високите разходи за използване на моделите на ИИ за неанглийски езици.
Това също така означава, че например са необходими повече токени за представяне на Български текст. Функцията Translaite преодолява този пропуск, като превежда неанглоезичните подсказки на английски език, осигурявайки ефективно токенизиране.
Пристрастни данни за обучение в изкуствения интелект
ChatGPT-3, както и неговите предшественици, е обучен на базата на огромно количество данни. Съществен проблем обаче е езиковото разпределение на учебния материал. Английският език преобладава в набор от данни, като на него се падат 92,1 % от общия брой знаци. Вторият най-разпространен език, френският, съставлява само 1,78 %, следван плътно от немския с 1,68 %. Испанският, италианският и португалският език също се срещат, но всеки от тях представлява по-малко от 1% от общия брой знаци. Дори японският език, който е широко разпространен, представлява само 0,16 % от общия брой знаци. Това непропорционално представяне на английския език в данните за обучение неизбежно насочва работата на ChatGPT към английския език, което може да повлияе на работата му при задачи, които не са на английски език. Това отклонение подчертава необходимостта от по-балансирани и разнообразни данни за обучение, за да се гарантира равностойно представяне на моделите на изкуствен интелект на различни езици. Езиковата пристрастност на моделите с изкуствен интелект като ChatGPT-3 може да бъде проблематична по няколко причини
Несъответствие в представянето Моделът ще се представя по-добре при задачи на английски език, отколкото на други езици. Това означава, че потребителите, за които английският не е първи език, ще имат по-малко ефективно и потенциално разочароващо преживяване.
Културни пристрастия Езикът е тясно свързан с културата. Като се обучава предимно по англоезичен текст, моделът може неволно да затвърди предразсъдъците, присъщи на англоезичните материали, и да не разбере или да не зачете културните нюанси, присъстващи в други езици.
Достъпност и приобщаване ИИ има потенциала да бъде универсален инструмент, достъпен и полезен за хората, независимо от техния език или местоположение. Пристрастието към английския език обаче ограничава този потенциал и изключва значителна част от световното население.
Неправилно тълкуване и неправилна комуникация При езици, които са слабо представени в данните за обучение, моделът може да разбере или изтълкува неправилно въведените текстове, което да доведе до неправилни или неподходящи отговори. Това може да доведе и до неправилно общуване в критични ситуации.
Етични съображения От етична гледна точка е важно системите с изкуствен интелект да са справедливи и равнопоставени. Система, която е пристрастна към един език в сравнение с други, повдига въпроси относно справедливостта и представителството.
Ограничения при глобалното приемане За да бъде ИИ наистина глобално приет и ефективен, той трябва да разбира и генерира точно всички езици. Настоящата пристрастност може да ограничи приемането му в региони или приложения, които не говорят английски език.
Ето защо е изключително важно да се работи за по-балансирано представяне в данните за обучение, не само по отношение на езика, но и по отношение на културните, социалните и демографските аспекти, които езикът носи със себе си.
Подобряване на производителността
Въпреки пристрастието към токенизацията и дисбаланса при обучението, моделите на GPT се представят добре в Български. Те могат да разбират инструкциите ви, да отговарят на Български свободно и естествено и да отхвърлят неподходящи заявки. Въпреки това те са по-бавни в Български поради неоптималната токенизация. Функцията Translaite смекчава този проблем, като превежда подсказките на английски език и по този начин повишава производителността.
В заключение, използването на езикови модели в изкуствения интелект доведе до революция в областта на машинното обучение и обработката на естествен език. Прилагането им на неанглоезични езици обаче се сблъсква с предизвикателства, дължащи се на отклонения в токенизацията и дисбаланс на данните за обучение. Токенизацията, процесът на разделяне на текста на по-малки единици, може да бъде проблематична за езици като Български, които имат различни езикови структури. Този неравномерен процес на токенизация води до по-високи разходи и по-бавна производителност за неанглоезични езици в сравнение с английския. Освен това предубедените данни за обучение, при които английският език доминира в набора от данни, влияят на представянето на моделите на изкуствен интелект при неанглоезични задачи и затвърждават културните предубеждения.
За да се справи с тези проблеми, Translaite предоставя решение, като превежда неанглоезични подкани на английски език, позволявайки на потребителите ефективно да работят с усъвършенствани модели на ИИ на техния език. Този подход повишава ефективността и смекчава предубежденията при токенизацията, като прави ИИ по-достъпен, приобщаващ и справедлив за потребителите на всички езици. Той също така подчертава значението на балансираното представяне в данните за обучение, не само по отношение на езика, но и по отношение на културните и демографските аспекти. Като работим за по-разнообразни и представителни данни за обучение, можем да осигурим справедливо и ефективно приемане на моделите на ИИ в световен мащаб, от което да се възползват потребителите в Български и извън него.
Любопитно ви е как работи Translaite? Продължете напред и го изпробвайте