Translation of Large Language Models

Una incursión en cómo los Generative AI Models, como ChatGPT, tienen un sesgo inglés

Escrito por stephens on 9 Aug 2023

Amazing Times

En el mundo de la inteligencia artificial, los modelos lingüísticos han causado sensación. Los grandes modelos lingüísticos (LLM), como la familia GPT de OpenAI, han acaparado una atención considerable en las comunidades de aprendizaje automático y procesamiento del lenguaje natural. Sin embargo, su uso no se limita al inglés; también pueden comprender y producir en otros idiomas, incluido español. Esta entrada del blog pretende poner de relieve las ventajas de utilizar una aplicación para generar indicaciones de IA, como Translaite.

Translaite primero traduce al inglés las instrucciones que no están en inglés (a través de DeepL, las instrucciones de OpenAI y, a continuación, vuelve a traducir el resultado al idioma de entrada. Este proceso permite a los usuarios interactuar con los modelos avanzados de IA en su idioma, haciéndolos más accesibles y fáciles de usar. Pero, ¿por qué hay que hacer esto?

Comprender la tokenización de los modelos lingüísticos

La tokenización, el proceso de dividir el texto de entrada en trozos o tokens, es un paso crucial en el funcionamiento de los LLM. Los modelos GPT pueden procesar, por ejemplo, texto japonés porque utilizan un tokenizador flexible, tiktoken. Tiktoken es una herramienta que se utiliza para contar el número de tokens de un texto determinado. Utiliza las mismas reglas de tokenización que la biblioteca Transformers de Hugging Face, que está diseñada principalmente para trabajar con texto en inglés.

El proceso de tokenización consiste en dividir un texto en unidades más pequeñas, o tokens, que pueden ser palabras individuales, frases o incluso caracteres sueltos. Este proceso depende de la lengua, ya que las distintas lenguas tienen reglas diferentes sobre cómo se forman y estructuran las palabras y las frases.

tokenizacion.png

Dado que tiktoken utiliza reglas adaptadas al inglés, puede que no tokenice correctamente textos en otros idiomas. Por ejemplo, puede que no trate correctamente los caracteres especiales, los acentos o la puntuación específica del idioma en lenguas distintas del inglés. La tokenización suele tratar cada palabra o parte de una palabra como un token independiente. Esto funciona bien para el inglés y otras lenguas que utilizan espacios para separar las palabras. Sin embargo, lenguas como el japonés o el chino, que no utilizan espacios, se enfrentan a dificultades. En estas lenguas, un solo carácter puede representar toda una palabra o concepto, y estos caracteres suelen requerir más bytes para representarse en forma digital que las palabras inglesas.

Por ejemplo, el carácter japonés para "perro" requiere tres tokens para representarlo en los modelos GPT, en comparación con un solo token para la palabra inglesa "dog". Esto significa que procesar texto japonés requiere más tokens que procesar el texto inglés equivalente (consulta este magnífico artículo para obtener más detalles).

¿Qué importancia tiene esto? OpenAI cobra por el uso de sus modelos por token. Por tanto, procesar lenguas no inglesas como español puede ser significativamente más caro que procesar el inglés. Este proceso desigual de tokenización, que favorece al inglés y perjudica a otras lenguas, contribuye al mayor coste del uso de modelos de IA para lenguas no inglesas.

Esto también significa que, por ejemplo, se necesitan más tokens para representar un texto en español. Translaite salva esta distancia traduciendo al inglés las indicaciones que no están en inglés, lo que garantiza una tokenización eficaz.

Datos de entrenamiento sesgados en la IA

ChatGPT-3, como sus predecesores, se entrenó con una gran cantidad de datos. Sin embargo, una preocupación importante es la distribución lingüística en el material de entrenamiento. El inglés domina abrumadoramente el conjunto de datos, con un 92,1% del total de caracteres. La segunda lengua más común, el francés, sólo representa el 1,78%, seguida de cerca por el alemán, con el 1,68%. El español, el italiano y el portugués también aparecen, pero cada uno representa menos del 1% del total de caracteres. Incluso el japonés, una lengua muy hablada, sólo representa el 0,16% del total de caracteres. Esta representación desproporcionada del inglés en los datos de entrenamiento sesga inevitablemente el rendimiento de ChatGPT hacia el inglés, lo que puede afectar a su rendimiento en tareas que no sean en inglés. Este sesgo subraya la necesidad de datos de entrenamiento más equilibrados y diversos para garantizar un rendimiento equitativo de los modelos de IA en diferentes idiomas. El sesgo lingüístico en modelos de IA como ChatGPT-3 puede ser problemático por varias razones

black_and_white.png

Disparidad de rendimiento El modelo funcionará mejor en tareas en inglés que en otros idiomas. Esto significa que los usuarios que no hablen inglés como lengua materna tendrán una experiencia menos eficaz y potencialmente frustrante.

Sesgo cultural La lengua está estrechamente ligada a la cultura. Al entrenarse principalmente con textos en inglés, el modelo puede perpetuar involuntariamente los prejuicios inherentes al material en inglés y no comprender ni respetar los matices culturales presentes en otras lenguas.

Accesibilidad e Inclusividad La IA tiene el potencial de ser una herramienta universal, accesible y útil para las personas independientemente de su lengua o ubicación. Sin embargo, un sesgo hacia el inglés limita este potencial y excluye a una parte significativa de la población mundial.

Mala interpretación y mala comunicación En el caso de las lenguas poco representadas en los datos de entrenamiento, el modelo puede malinterpretar o entender mal las entradas de texto, dando lugar a respuestas incorrectas o inadecuadas. Esto también puede llevar a una falta de comunicación en situaciones críticas.

Consideraciones éticas Desde un punto de vista ético, es importante que los sistemas de IA sean justos y equitativos. Un sistema sesgado hacia una lengua en detrimento de otras plantea cuestiones sobre la justicia y la representación.

Limitación en la adopción global Para que la IA se adopte realmente a nivel global y sea eficaz, necesita comprender y generar todas las lenguas con precisión. El sesgo actual podría limitar su adopción en regiones o aplicaciones de habla no inglesa.

Por tanto, es crucial trabajar para conseguir una representación más equilibrada en los datos de entrenamiento, no sólo en cuanto a la lengua, sino también en cuanto a los aspectos culturales, sociales y demográficos que la lengua lleva consigo.

Mejorar el rendimiento

A pesar del sesgo de la tokenización y los desequilibrios del entrenamiento, los modelos GPT funcionan bien en español. Pueden entender tus instrucciones, responder en español con fluidez y naturalidad, y rechazar solicitudes inapropiadas. Sin embargo, son más lentos en español debido a la tokenización subóptima. Translaite lo mitiga traduciendo las peticiones al inglés, mejorando así el rendimiento.

En conclusión, el uso de modelos lingüísticos en inteligencia artificial ha revolucionado el campo del aprendizaje automático y el procesamiento del lenguaje natural. Sin embargo, su aplicación en lenguas distintas del inglés se ha enfrentado a retos debidos a los sesgos de tokenización y a los desequilibrios de los datos de entrenamiento. La tokenización, el proceso de dividir el texto en unidades más pequeñas, puede ser problemática para lenguas como español que tienen estructuras lingüísticas diferentes. Este proceso desigual de tokenización conlleva costes más elevados y un rendimiento más lento para las lenguas no inglesas en comparación con el inglés. Además, los datos de entrenamiento sesgados, con el inglés dominando el conjunto de datos, afectan al rendimiento de los modelos de IA en tareas que no son en inglés y perpetúan los sesgos culturales.

todo_incluido.png

Para resolver estos problemas, la Translaite proporciona una solución traduciendo al inglés las indicaciones que no están en inglés, lo que permite a los usuarios interactuar eficazmente con los modelos avanzados de IA en su idioma. Este enfoque mejora el rendimiento y mitiga los sesgos de la tokenización, haciendo que la IA sea más accesible, inclusiva y equitativa para los usuarios de todas las lenguas. También pone de relieve la importancia de una representación equilibrada en los datos de entrenamiento, no sólo en términos de lengua, sino también de aspectos culturales y demográficos. Trabajando por unos datos de entrenamiento más diversos y representativos, podemos garantizar la adopción justa y eficaz de modelos de IA en todo el mundo, beneficiando a los usuarios de español y de más allá.

¿Tienes curiosidad por saber cómo funciona Translaite? Adelante, pruébalo