En el mundo de la inteligencia artificial, los modelos lingüísticos están causando sensación. Los grandes modelos lingüísticos (LLM), como OpenAI GPT, han acaparado una atención considerable en las comunidades de aprendizaje automático y procesamiento del lenguaje natural. Sin embargo, su uso no se limita al inglés; también pueden comprender y producir en otros idiomas. Sin embargo, esto conlleva algunos limitations cruciales.
Translaite se ha creado pensando en los usuarios que no hablan inglés. En primer lugar, traduce al inglés las indicaciones que no están en inglés, pide OpenAI y, a continuación, vuelve a traducir la salida al idioma de entrada. Este proceso permite a los usuarios interactuar con los modelos avanzados de IA en su propio idioma, haciéndolos más accesibles y fáciles de usar.
ChatGPT-3, y probablemente su sucesor, se entrenó con una gran cantidad de datos. Sin embargo, un problema importante es la distribución lingüística del material de entrenamiento. El inglés domina abrumadoramente el conjunto de datos, con un 92,1% del total de caracteres (véase Training data). El segundo idioma más común, el francés, sólo representa el 1,78%, seguido de cerca por el alemán, con un 1,68%. El español, el italiano y el portugués también aparecen, pero cada uno representa menos del 1% del total de caracteres. Incluso el japonés, una lengua muy hablada, sólo representa el 0,16% del total de caracteres. Esta representación desproporcionada del inglés en los datos de entrenamiento sesga inevitablemente el rendimiento de ChatGPT-3 hacia el inglés, lo que puede afectar a su rendimiento en tareas no relacionadas con el inglés.
La tokenización, el proceso de dividir el texto de entrada en trozos o tokens, es un paso crucial en el funcionamiento de los LLM. Los modelos GPT pueden procesar texto no inglés porque utilizan un tokenizador flexible, tiktoken. Sin embargo, el proceso de tokenización está sesgado hacia el inglés, porque se necesitan más tokens para representar texto no inglés.
La tokenización suele tratar cada palabra o parte de una palabra como un token independiente. Esto funciona bien con el inglés y otros idiomas que utilizan espacios para separar las palabras. Sin embargo, idiomas como el japonés o el chino, que no utilizan espacios, se enfrentan a dificultades. En estos idiomas, un solo carácter puede representar toda una palabra o concepto, y estos caracteres suelen requerir más bytes para representarse en formato digital que las palabras en inglés, lo que hace que su uso sea más lento y costoso.
A pesar de los desequilibrios del entrenamiento y del sesgo de la tokenización, los modelos GPT funcionan bien, por ejemplo, en japonés. Pueden entender instrucciones en japonés, responder en japonés con fluidez y naturalidad y rechazar solicitudes inapropiadas. Sin embargo, son más lentos en japonés debido a la tokenización subóptima y a la falta de conocimientos por tener menos material de entrenamiento. Translaite mitiga esta situación traduciendo al inglés las peticiones que no están en inglés, y la respuesta de vuelta al idioma de entrada, mejorando así el rendimiento.
Translaite ofrece ventajas significativas, especialmente para los usuarios que no hablan inglés. Garantiza una tokenización eficaz, supera los prejuicios lingüísticos y mejora el rendimiento. Además, hace que los modelos avanzados de IA sean más accesibles y fáciles de usar, fomentando un entorno de IA más inclusivo.