À propos de Translaite

Dans le monde de l'intelligence artificielle, les modèles de langage ont fait parler d'eux. Les grands modèles de langage (LLM), tels que OpenAI GPT, ont suscité une attention considérable dans les communautés de l'apprentissage automatique et du traitement du langage naturel. Toutefois, leur utilisation ne se limite pas à l'anglais ; ils peuvent également comprendre et produire des résultats dans d'autres langues. Toutefois, cela s'accompagne de certaines limitations cruciales.

Translaite est conçu pour les utilisateurs non anglophones. Il traduit d'abord les messages non anglais en anglais, demande OpenAI, puis retranscrit le résultat dans la langue d'entrée. Ce processus permet aux utilisateurs de dialoguer avec les modèles d'IA avancés dans leur langue, ce qui les rend plus accessibles et plus conviviaux.


Pourquoi Translaite ?


Formation linguistique

ChatGPT-3, et probablement son successeur, a été formé sur une grande quantité de données. Toutefois, la répartition des langues dans le matériel de formation constitue une préoccupation majeure. L'anglais domine largement l'ensemble de données, représentant 92,1 % du nombre total de caractères (voir Training data). La deuxième langue la plus courante, le français, ne représente que 1,78 %, suivie de près par l'allemand (1,68 %). L'espagnol, l'italien et le portugais sont également présents, mais chacun représente moins de 1 % du nombre total de caractères. Même le japonais, une langue très répandue, ne représente que 0,16 % du total des caractères. Cette représentation disproportionnée de l'anglais dans les données de formation biaise inévitablement les performances de ChatGPT-3 en faveur de l'anglais, ce qui risque d'affecter ses performances dans les tâches non anglophones.

La tokenisation

La tokenisation, le processus de division du texte d'entrée en morceaux ou tokens, est une étape cruciale dans le fonctionnement des LLM. Les modèles GPT peuvent traiter des textes non anglais car ils utilisent un tokenizer flexible, tiktoken. Cependant, le processus de tokénisation est biaisé en faveur de l'anglais, car il faut plus de tokens pour représenter un texte non anglais.

La tokenisation traite souvent chaque mot ou partie de mot comme un jeton distinct. Cela fonctionne bien pour l'anglais et les autres langues qui utilisent des espaces pour séparer les mots. Cependant, les langues comme le japonais ou le chinois, qui n'utilisent pas d'espaces, posent des problèmes. Dans ces langues, un seul caractère peut représenter un mot ou un concept entier, et ces caractères nécessitent souvent plus d'octets pour être représentés sous forme numérique que les mots anglais, ce qui rend l'utilisation plus lente et plus coûteuse.

Améliorer les performances

Malgré les déséquilibres de formation et le biais de tokenisation, les modèles GPT donnent de bons résultats en japonais, par exemple. Ils peuvent comprendre des instructions en japonais, répondre en japonais de manière fluide et naturelle et rejeter des demandes inappropriées. Cependant, ils sont plus lents en japonais en raison de la tokenisation sous-optimale et d'un manque de connaissances dû à un matériel de formation moins important. Translaite atténue ce problème en traduisant les invites non anglaises en anglais et la réponse dans la langue d'entrée, ce qui améliore les performances.

Translaite offre des avantages significatifs, en particulier pour les utilisateurs non anglophones. Il garantit une tokenisation efficace, surmonte les préjugés linguistiques et améliore les performances. En outre, il rend les modèles d'IA avancés plus accessibles et plus conviviaux, favorisant ainsi un environnement d'IA plus inclusif.