Перевод Large Lanugage Models

Экскурс в то, как Generative AI Models, такие как ChatGPT, имеют английскую предвзятость

Написано stephens on 9 Aug 2023

Amazing Times

В мире искусственного интеллекта языковые модели набирают обороты. Большие языковые модели (LLM), такие как семейство GPT от OpenAI, привлекли значительное внимание в сообществах машинного обучения и обработки естественного языка. Однако их использование не ограничивается английским языком; они также могут понимать и выдавать информацию на других языках, включая Русский язык. Цель этой записи в блоге - рассказать о преимуществах использования приложения для генеративных ИИ-подсказок, такого как Translaite.

Translaite сначала переводит неанглийские подсказки на английский язык (через DeepL, подсказки OpenAI, а затем переводит обратно вывод на входной язык. Этот процесс позволяет пользователям взаимодействовать с продвинутыми моделями ИИ на их языке, делая его более доступным и удобным. Но зачем это нужно делать?

Понимание токенизации для языковых моделей

Токенизация - процесс разбиения входного текста на фрагменты или лексемы - является важнейшим этапом в работе LLM. Модели GPT могут обрабатывать, например, японский текст, потому что в них используется гибкий токенизатор tiktoken. Tiktoken - это инструмент, который используется для подсчета количества лексем в заданном фрагменте текста. Он использует те же правила токенизации, что и библиотека Transformers Hugging Face, которая в основном предназначена для работы с англоязычным текстом.

Процесс токенизации предполагает разбиение куска текста на более мелкие единицы, или токены, которые могут представлять собой отдельные слова, фразы или даже отдельные символы. Этот процесс зависит от языка, так как в разных языках существуют разные правила формирования и структурирования слов и предложений.

tokenization.png

Поскольку tiktoken использует правила, адаптированные для английского языка, он может неточно токенизировать текст на других языках. Например, он может некорректно обрабатывать специальные символы, ударения или специфическую для данного языка пунктуацию в неанглийских языках. Токенизация часто рассматривает каждое слово или часть слова как отдельный токен. Это хорошо работает для английского и других языков, в которых для разделения слов используются пробелы. Однако такие языки, как японский или китайский, в которых пробелы не используются, сталкиваются с трудностями. В этих языках один символ может представлять целое слово или понятие, и для представления этих символов в цифровой форме часто требуется больше байт, чем для английских слов.

Например, для представления японского иероглифа "собака" в GPT-модели требуется три лексемы, в то время как для английского слова "dog" требуется всего одна лексема. Это означает, что для обработки японского текста требуется больше токенов, чем для обработки эквивалентного английского текста (более подробно об этом можно узнать из этой замечательной статьи).

Почему это важно? OpenAI взимает плату за использование своих моделей за каждый токен. Поэтому обработка неанглийских языков, таких как Русский язык, может быть значительно дороже, чем обработка английского. Этот неравный процесс токенизации, благоприятствующий английскому и неблагоприятствующий другим языкам, способствует более высокой стоимости использования моделей ИИ для неанглийских языков.

Это также означает, что, например, для представления Русский язык текста требуется больше токенов. Translaite устраняет этот пробел, переводя неанглийские подсказки на английский язык, обеспечивая эффективную токенизацию.

Необъективные обучающие данные в искусственном интеллекте

ChatGPT-3, как и его предшественники, обучался на огромном количестве данных. Однако существенное беспокойство вызывает распределение языков в обучающем материале. Английский язык подавляюще доминирует в наборе данных, составляя 92,1% от общего количества символов. Второй по распространенности язык, французский, составляет всего 1,78%, за ним вплотную следует немецкий - 1,68%. Испанский, итальянский и португальский языки также присутствуют, но каждый из них составляет менее 1% от общего количества символов. Даже японский, широко распространенный язык, составляет всего 0,16% от общего количества символов. Такая непропорциональная представленность английского языка в обучающих данных неизбежно смещает производительность ChatGPT в сторону английского, что потенциально может повлиять на его работу в неанглоязычных задачах. Этот перекос подчеркивает необходимость создания более сбалансированных и разнообразных обучающих данных для обеспечения равной производительности моделей ИИ на разных языках. Языковая предвзятость в моделях ИИ, подобных ChatGPT-3, может быть проблематичной по нескольким причинам.

black_and_white.png

Performance Disparity Модель будет лучше справляться с задачами на английском языке, чем на других языках. Это означает, что пользователи, для которых английский не является родным языком, получат менее эффективный и потенциально разочаровывающий опыт.

Культурный перекос Язык тесно связан с культурой. Обучаясь преимущественно на англоязычных текстах, модель может непреднамеренно закрепить предубеждения, присущие англоязычным материалам, и не понять или не уважить культурные нюансы, присутствующие в других языках.

Доступность и инклюзивность ИИ потенциально может стать универсальным инструментом, доступным и полезным для людей независимо от их языка или местонахождения. Однако предвзятое отношение к английскому языку ограничивает этот потенциал и исключает значительную часть населения планеты.

Неправильная интерпретация и неправильная коммуникация Для языков, которые недостаточно представлены в обучающих данных, модель может неправильно понять или неверно интерпретировать вводимый текст, что приведет к неправильным или неуместным ответам. Это также может привести к неправильному общению в критических ситуациях.

Этические соображения С этической точки зрения важно, чтобы системы ИИ были справедливыми и равноправными. Система, которая предвзято относится к одному языку по сравнению с другими, вызывает вопросы о справедливости и репрезентативности.

Ограничение в глобальном принятии Для того чтобы ИИ был действительно глобально принят и эффективен, он должен понимать и точно генерировать все языки. Текущая предвзятость может ограничить его принятие в неанглоязычных регионах или приложениях.

Поэтому крайне важно работать над более сбалансированным представлением в обучающих данных, причем не только с точки зрения языка, но и с точки зрения культурных, социальных и демографических аспектов, которые несет с собой язык.

Повышение производительности

Несмотря на смещение токенизации и дисбаланс в обучении, модели GPT хорошо работают в Русский язык. Они могут понимать твои инструкции, бегло и естественно отвечать на Русский язык и отклонять неуместные запросы. Однако они медленнее работают в Русский язык из-за неоптимальной токенизации. Translaite смягчает эту проблему, переводя подсказки на английский язык, тем самым повышая производительность.

В заключение следует отметить, что использование языковых моделей в искусственном интеллекте произвело революцию в области машинного обучения и обработки естественного языка. Однако их применение в неанглийских языках столкнулось с проблемами, связанными с погрешностями токенизации и дисбалансом обучающих данных. Токенизация, процесс разбиения текста на более мелкие единицы, может быть проблематичной для таких языков, как Русский язык, которые имеют различные лингвистические структуры. Этот неравномерный процесс токенизации приводит к более высоким затратам и более медленной производительности для неанглийских языков по сравнению с английским. Кроме того, предвзятость обучающих данных, когда в наборе данных доминирует английский язык, влияет на производительность моделей ИИ в неанглийских задачах и закрепляет культурные предубеждения.

all_inclusive.png

Чтобы решить эти проблемы, Translaite предлагает решение, переводя неанглийские подсказки на английский язык, что позволяет пользователям эффективно взаимодействовать с продвинутыми моделями ИИ на их языке. Такой подход повышает производительность и смягчает предвзятое отношение к токенизации, делая ИИ более доступным, инклюзивным и справедливым для пользователей всех языков. Он также подчеркивает важность сбалансированного представительства в обучающих данных, причем не только с точки зрения языка, но и с точки зрения культурных и демографических аспектов. Работая над созданием более разнообразных и репрезентативных обучающих данных, мы сможем обеспечить справедливое и эффективное внедрение моделей ИИ в глобальном масштабе, принося пользу пользователям на Русский язык и за его пределами.

Любопытно, как работает Translaite? Давай, попробуй его.