Переклад Large Lanugage Models.

Екскурс у те, як Generative AI Models генеративні моделі ШІ, такі як ChatGPT, мають англомовний ухил

Написано stephens on 9 Aug 2023

Дивовижні часи

У світі штучного інтелекту мовні моделі викликають справжній фурор. Великі мовні моделі (ВММ), такі як сімейство GPT від OpenAI, привернули значну увагу спільнот, що займаються машинним навчанням та обробкою природної мови. Однак їх використання не обмежується англійською мовою; вони також можуть розуміти і виводити дані іншими мовами, зокрема українська мова. Ця стаття має на меті висвітлити переваги використання додатків для генерації підказок штучного інтелекту, таких як Translaite.

Translaite спочатку перекладає неанглійські підказки англійською мовою (за допомогою DeepL, підказок OpenAI, а потім перекладає вихідні дані на вхідну мову. Цей процес дозволяє користувачам взаємодіяти з передовими моделями штучного інтелекту своєю мовою, роблячи їх більш доступними та зручними. Але навіщо це робити?

Розуміння токенізації для мовних моделей

Токенізація, процес розбиття вхідного тексту на частини або токени, є важливим кроком у роботі ЛММ. Моделі GPT можуть обробляти, наприклад, японський текст, оскільки вони використовують гнучкий токенізатор tiktoken. Тіктокен - це інструмент, який використовується для підрахунку кількості токенів у певному фрагменті тексту. Він використовує ті ж правила токенізації, що і бібліотека Transformers Hugging Face, яка в першу чергу призначена для роботи з англомовним текстом.

Процес токенізації передбачає розбиття фрагмента тексту на менші одиниці, або токени, які можуть бути окремими словами, фразами або навіть окремими символами. Цей процес залежить від мови, оскільки в різних мовах існують різні правила формування та структурування слів і речень.

tokenization.png

Оскільки tiktoken використовує правила, адаптовані для англійської мови, він може неточно токенізувати текст іншими мовами. Наприклад, він може неправильно обробляти спеціальні символи, наголоси або специфічні мовні знаки пунктуації в неанглійських мовах. Токенізація часто розглядає кожне слово або частину слова як окремий токен. Це добре працює для англійської та інших мов, які використовують пробіли для розділення слів. Однак такі мови, як японська або китайська, які не використовують пробіли, стикаються з проблемами. У цих мовах один символ може представляти ціле слово або поняття, і ці символи часто вимагають більше байт для представлення в цифровому вигляді, ніж англійські слова.

Наприклад, японський ієрогліф "собака" займає три токени для представлення в моделях GPT, порівняно з одним токеном для англійського слова "dog". Це означає, що для обробки японського тексту потрібно більше токенів, ніж для обробки еквівалентного англійського тексту (більш детально про це можна прочитати в цій чудовій статті).

Чому це важливо? OpenAI стягує плату за використання своїх моделей за токен. Тому обробка неанглійських мов, таких як українська мова, може бути значно дорожчою, ніж обробка англійської. Цей нерівноправний процес токенізації, що надає перевагу англійській мові і ставить у невигідне становище інші мови, сприяє підвищенню вартості використання моделей штучного інтелекту для неанглійських мов.

Це також означає, що, наприклад, для представлення тексту українська мова потрібно більше токенів. Translaite заповнює цю прогалину, перекладаючи неангломовні підказки англійською, забезпечуючи ефективну токенізацію.

Упереджені навчальні дані в ШІ

ChatGPT-3, як і його попередники, навчався на великій кількості даних. Однак значне занепокоєння викликає розподіл мов у навчальному матеріалі. У наборі даних переважає англійська мова, на яку припадає 92,1% від загальної кількості символів. Друга за поширеністю мова, французька, становить лише 1,78%, за нею йде німецька - 1,68%. Іспанська, італійська та португальська також присутні, але на кожну з них припадає менше 1% від загальної кількості символів. Навіть японська мова, якою широко розмовляють, становить лише 0,16% від загальної кількості символів. Таке непропорційне представлення англійської мови в навчальних даних неминуче зміщує результати роботи ChatGPT у бік англійської мови, що потенційно впливає на його продуктивність у неангломовних завданнях. Таке зміщення підкреслює потребу в більш збалансованих і різноманітних навчальних даних для забезпечення рівної продуктивності моделей ШІ різними мовами. Мовне упередження в таких моделях ШІ, як ChatGPT-3, може бути проблематичним з кількох причин

black_and_white.png

Нерівномірність продуктивності Модель буде краще виконувати завдання англійською мовою, ніж іншими мовами. Це означає, що користувачі, для яких англійська не є рідною мовою, матимуть менш ефективний і потенційно розчарований досвід.

Культурні упередження Мова тісно пов'язана з культурою. Переважно навчаючи на англомовних текстах, модель може ненавмисно увічнити упередження, притаманні англомовному матеріалу, і не розуміти або не поважати культурні нюанси, присутні в інших мовах.

Доступність та інклюзивність ШІ має потенціал стати універсальним інструментом, доступним і корисним для людей незалежно від їхньої мови чи місцезнаходження. Однак упереджене ставлення до англійської мови обмежує цей потенціал і виключає значну частину населення планети.

Неправильна інтерпретація та непорозуміння Для мов, які недостатньо представлені в навчальних даних, модель може неправильно зрозуміти або інтерпретувати введені текстові дані, що призведе до неправильних або невідповідних відповідей. Це також може призвести до непорозумінь у критичних ситуаціях.

Етичні міркування З етичної точки зору важливо, щоб системи ШІ були чесними і справедливими. Система, яка упереджено ставиться до однієї мови порівняно з іншими, ставить під сумнів справедливість і репрезентативність.

Обмеження у глобальному впровадженні Для того, щоб ШІ був по-справжньому глобально впроваджений і ефективний, він повинен розуміти і точно генерувати всі мови. Нинішня упередженість може обмежити його впровадження в неангломовних регіонах або сферах застосування.

Тому дуже важливо працювати над більш збалансованим представництвом у навчальних даних не лише з точки зору мови, а й культурних, соціальних і демографічних аспектів, які несе в собі мова.

Підвищення продуктивності

Незважаючи на упередженість токенізації та незбалансованість навчання, моделі GPT добре працюють у українська мова. Вони можуть розуміти ваші інструкції, відповідати на українська мова вільно і природно, а також відхиляти невідповідні запити. Однак вони повільніші у українська мова через неоптимальну токенізацію. Translaite пом'якшує цю проблему, перекладаючи підказки англійською мовою, тим самим підвищуючи продуктивність.

На закінчення, використання мовних моделей в штучному інтелекті зробило революцію в області машинного навчання і обробки природної мови. Однак їх застосування в неанглійських мовах зіткнулося з проблемами через упередженість токенізації та дисбаланс навчальних даних. Токенізація, процес розбиття тексту на менші одиниці, може бути проблематичним для таких мов, як українська мова, які мають різні лінгвістичні структури. Цей нерівномірний процес токенізації призводить до вищих витрат і повільнішої продуктивності для неанглійських мов порівняно з англійською. Крім того, упереджені навчальні дані, в яких переважає англійська мова, впливають на продуктивність моделей ШІ в неангломовних завданнях і увічнюють культурні упередження.

all_inclusive.png

Щоб вирішити ці проблеми, Translaite пропонує рішення, перекладаючи неанглійські підказки англійською мовою, що дозволяє користувачам ефективно взаємодіяти з передовими моделями ШІ своєю мовою. Такий підхід підвищує продуктивність і зменшує упередженість токенізації, роблячи ШІ більш доступним, інклюзивним і справедливим для користувачів усіх мов. Він також підкреслює важливість збалансованого представництва в навчальних даних не лише з точки зору мови, а й культурних і демографічних аспектів. Працюючи над створенням більш різноманітних і репрезентативних навчальних даних, ми можемо забезпечити справедливе й ефективне впровадження моделей ШІ в усьому світі, що принесе користь користувачам українська мова і не тільки.

Цікаво, як працює Translaite? Спробуйте спробувати