В мире искусственного интеллекта большое внимание уделяется языковым моделям. Большие языковые модели (БЯМ), такие как OpenAI GPT, привлекли к себе большое внимание в сообществах машинного обучения и обработки естественного языка. Однако их применение не ограничивается английским языком: они могут понимать и выдавать информацию на других языках. Однако это сопряжено с некоторыми принципиальными limitations.
Translaite создан с учетом особенностей неанглоязычных пользователей. Сначала он переводит неанглийские подсказки на английский язык, запрашивает OpenAI, а затем переводит вывод на входной язык. Этот процесс позволяет пользователям взаимодействовать с передовыми моделями ИИ на своем языке, что делает их более доступными и удобными.
ChatGPT-3 и, вероятно, его преемник были обучены на огромном количестве данных. Однако существенное беспокойство вызывает распределение языков в обучающем материале. В наборе данных преобладает английский язык, на который приходится 92,1% всех символов (см. Training data). Второй по распространенности язык, французский, составляет всего 1,78%, за ним следует немецкий - 1,68%. Испанский, итальянский и португальский языки также представлены, но каждый из них составляет менее 1% от общего количества символов. Даже японский язык, широко распространенный в мире, составляет всего 0,16% от общего числа символов. Такая непропорциональная представленность английского языка в обучающих данных неизбежно смещает результаты работы ChatGPT-3 в сторону английского, что может сказаться на результатах его работы в неанглоязычных задачах.
Токенизация - процесс разделения входного текста на фрагменты или лексемы - является важнейшим этапом в работе LLM. Модели GPT могут обрабатывать неанглийский текст, поскольку в них используется гибкий токенизатор tiktoken. Однако процесс токенизации смещен в сторону английского языка, поскольку для представления неанглийского текста требуется больше токенов.
Токенизация часто рассматривает каждое слово или часть слова как отдельную лексему. Это хорошо работает для английского и других языков, в которых для разделения слов используются пробелы. Однако такие языки, как японский или китайский, в которых пробелы не используются, сталкиваются с проблемами. В этих языках один символ может представлять собой целое слово или понятие, и для представления этих символов в цифровой форме часто требуется больше байт, чем для английских слов, что делает их использование более медленным и дорогостоящим.
Несмотря на дисбаланс обучения и смещение токенизации, модели GPT хорошо работают, например, на японском языке. Они могут понимать японские инструкции, свободно и естественно отвечать на японском языке и отклонять неуместные запросы. Однако они медленнее работают с японским языком из-за неоптимальной токенизации и недостатка знаний из-за меньшего количества обучающего материала. В Translaite эта проблема решается путем перевода неанглийских подсказок на английский язык и обратного перевода ответа на входной язык, что повышает производительность.
Translaite дает значительные преимущества, особенно для неанглоязычных пользователей. Он обеспечивает эффективную токенизацию, преодолевает языковые предубеждения и повышает производительность. Кроме того, он делает передовые модели ИИ более доступными и удобными для пользователей, способствуя формированию более инклюзивной среды ИИ.