У світі штучного інтелекту мовні моделі викликають справжній фурор. Великі мовні моделі (ВММ), такі як OpenAI GPT, привернули значну увагу спільнот машинного навчання та обробки природної мови. Однак їх використання не обмежується англійською мовою; вони також можуть розуміти і виводити інформацію іншими мовами. Однак це пов'язано з деякими важливими limitations.
Translaite створено з урахуванням потреб неангломовних користувачів. Вона спочатку перекладає неанглійські підказки англійською, запитує OpenAI, а потім перекладає вивід назад на мову введення. Цей процес дозволяє користувачам взаємодіяти з передовими моделями ШІ своєю мовою, роблячи їх більш доступними та зручними для користувачів.
ChatGPT-3, і, ймовірно, його наступник, був навчений на величезній кількості даних. Однак значне занепокоєння викликає розподіл мов у навчальному матеріалі. У наборі даних переважає англійська мова, на яку припадає 92,1% усіх символів (див. Training data). Друга за поширеністю мова, французька, становить лише 1,78%, за нею йде німецька - 1,68%. Іспанська, італійська та португальська також присутні, але на кожну з них припадає менше 1% від загальної кількості символів. Навіть японська мова, якою широко розмовляють, становить лише 0,16% від загальної кількості символів. Таке непропорційне представлення англійської мови у навчальних даних неминуче зміщує продуктивність ChatGPT-3 у бік англійської, що потенційно може вплинути на її продуктивність у неангломовних завданнях.
Токенізація, процес розбиття вхідного тексту на частини або токени, є важливим кроком у роботі LLM. Моделі GPT можуть обробляти неанглійський текст, оскільки вони використовують гнучкий токенізатор - тіктокен. Однак процес токенізації упереджено орієнтований на англійську мову, оскільки для представлення неанглійського тексту потрібно більше токенів.
Токенізація часто розглядає кожне слово або частину слова як окремий токен. Це добре працює для англійської та інших мов, які використовують пробіли для розділення слів. Однак такі мови, як японська або китайська, які не використовують пробіли, стикаються з проблемами. У цих мовах один символ може представляти ціле слово або поняття, і ці символи часто вимагають більше байт для представлення в цифровому вигляді, ніж англійські слова, що робить використання повільнішим і дорожчим.
Незважаючи на дисбаланс у навчанні та упередженість токенізації, моделі GPT добре показують себе, наприклад, у японській мові. Вони можуть розуміти японські інструкції, відповідати японською вільно і природно, а також відхиляти недоречні запити. Однак вони повільніші в японській мові через неоптимальну токенізацію та брак знань через меншу кількість навчального матеріалу. Translaite пом'якшує цю проблему, перекладаючи неанглійські підказки на англійську, а відповідь - на мову введення, що підвищує продуктивність.
Translaite пропонує значні переваги, особливо для неангломовних користувачів. Він забезпечує ефективну токенізацію, долає мовні упередження та підвищує продуктивність. Крім того, він робить просунуті моделі ШІ доступнішими та зручнішими для користувачів, сприяючи створенню більш інклюзивного середовища ШІ.