Tradução de Large Lanugage Models

Uma excursão sobre como os Generative AI Models, como o ChatGPT, têm um viés inglês

Escrito por stephens on 9 Aug 2023

Tempos incríveis

No mundo da inteligência artificial, os modelos de linguagem têm vindo a fazer bastante sucesso. Os modelos de linguagem de grande dimensão (LLMs), como a família GPT da OpenAI, têm atraído uma atenção considerável nas comunidades de aprendizagem automática e de processamento de linguagem natural. No entanto, a sua utilização não se limita ao inglês; também podem compreender e produzir noutras línguas, incluindo Português. Esta publicação do blogue tem como objetivo realçar os benefícios da utilização de uma aplicação para prompts de IA generativa, como a Translaite.

A Translaite começa por traduzir as mensagens não inglesas para inglês (através de DeepL, envia mensagens para OpenAI e, em seguida, traduz novamente o resultado para a língua de entrada. Este processo permite aos utilizadores interagir com os modelos avançados de IA na sua língua, tornando-os mais acessíveis e fáceis de utilizar. Mas porque é que se deve fazer isto?

Entendendo a tokenização para modelos de linguagem

A tokenização, o processo de dividir o texto de entrada em pedaços ou tokens, é um passo crucial na forma como os LLMs funcionam. Os modelos GPT podem processar, por exemplo, texto japonês porque usam um tokenizador flexível, tiktoken. O Tiktoken é uma ferramenta que é usada para contar o número de tokens num determinado texto. Usa as mesmas regras de tokenização que a biblioteca Transformers da Hugging Face, que foi concebida principalmente para trabalhar com texto em inglês.

O processo de tokenização envolve a divisão de um pedaço de texto em unidades menores, ou tokens, que podem ser palavras individuais, frases ou até mesmo caracteres únicos. Este processo depende da língua, uma vez que diferentes línguas têm regras diferentes para a formação e estruturação de palavras e frases.

tokenization.png

Uma vez que o tiktoken utiliza regras adaptadas ao inglês, pode não tokenizar corretamente texto noutras línguas. Por exemplo, pode não tratar corretamente os caracteres especiais, os acentos ou a pontuação específica do idioma em idiomas que não sejam o inglês. A tokenização geralmente trata cada palavra ou parte de uma palavra como um token separado. Isto funciona bem para o inglês e outras línguas que utilizam espaços para separar palavras. No entanto, línguas como o japonês ou o chinês, que não utilizam espaços, enfrentam desafios. Nestas línguas, um único carácter pode representar uma palavra ou conceito completo, e estes caracteres requerem frequentemente mais bytes para serem representados em formato digital do que as palavras em inglês.

Por exemplo, o carácter japonês para "cão" necessita de três tokens para ser representado nos modelos GPT, em comparação com apenas um token para a palavra inglesa "dog". Isto significa que o processamento de texto japonês requer mais tokens do que o processamento do texto inglês equivalente (consulta este excelente artigo para mais detalhes).

Porque é que isto é importante? A OpenAI cobra pela utilização dos seus modelos por token. Por isso, o processamento de línguas não inglesas como Português pode ser significativamente mais caro do que o processamento em inglês. Este processo de tokenização desigual, que favorece o inglês e prejudica outras línguas, contribui para o custo mais elevado da utilização de modelos de IA para línguas não inglesas.

Isto também significa que, por exemplo, são necessários mais tokens para representar o texto Português. O Translaite colmata esta lacuna traduzindo os avisos não ingleses para inglês, assegurando uma tokenização eficiente.

Dados de treino tendenciosos em IA

O ChatGPT-3, tal como os seus antecessores, foi treinado com uma grande quantidade de dados. No entanto, uma preocupação significativa é a distribuição de idiomas no material de treinamento. O inglês domina esmagadoramente o conjunto de dados, representando 92,1% do total de caracteres. A segunda língua mais comum, o francês, representa apenas 1,78%, seguida de perto pelo alemão, com 1,68%. O espanhol, o italiano e o português também aparecem, mas cada um representa menos de 1% do total de caracteres. Mesmo o japonês, uma língua muito falada, representa apenas 0,16% do total de caracteres. Esta representação desproporcionada do inglês nos dados de treino enviesa inevitavelmente o desempenho do ChatGPT para o inglês, afectando potencialmente o seu desempenho em tarefas não inglesas. Este enviesamento sublinha a necessidade de dados de treino mais equilibrados e diversificados para garantir o desempenho equitativo dos modelos de IA em diferentes línguas. O preconceito linguístico em modelos de IA como o ChatGPT-3 pode ser problemático por várias razões

black_and_white.png

Disparidade de desempenho O modelo terá um melhor desempenho em tarefas em inglês do que noutras línguas. Isto significa que os utilizadores que não falam inglês como primeira língua terão uma experiência menos eficaz e potencialmente frustrante.

Viés cultural A língua está intimamente ligada à cultura. Ao treinar principalmente com textos em inglês, o modelo pode, involuntariamente, perpetuar preconceitos inerentes ao material em inglês e não compreender ou respeitar as nuances culturais presentes noutras línguas.

Acessibilidade e inclusão A IA tem o potencial de ser uma ferramenta universal, acessível e útil para as pessoas, independentemente da sua língua ou localização. No entanto, a preferência pelo inglês limita este potencial e exclui uma parte significativa da população mundial.

Para as línguas que estão sub-representadas nos dados de treino, o modelo pode compreender ou interpretar mal as entradas de texto, dando origem a respostas incorrectas ou inadequadas. Isto também pode levar a falhas de comunicação em situações críticas.

Considerações éticas De um ponto de vista ético, é importante que os sistemas de IA sejam justos e equitativos. Um sistema que privilegia uma língua em detrimento de outras levanta questões sobre justiça e representação.

Limitação da adoção global Para que a IA seja verdadeiramente adoptada e eficaz a nível global, tem de compreender e gerar todas as línguas com precisão. O atual preconceito pode limitar a sua adoção em regiões ou aplicações que não falem inglês.

Por isso, é crucial trabalhar no sentido de uma representação mais equilibrada nos dados de treino, não só em termos de língua, mas também em termos dos aspectos culturais, sociais e demográficos que a língua traz consigo.

Melhorar o desempenho

Apesar do viés de tokenização e dos desequilíbrios de treino, os modelos GPT têm um bom desempenho em Português. Conseguem compreender as tuas instruções, responder em Português de forma fluente e natural e rejeitar pedidos inadequados. No entanto, são mais lentos em Português devido à tokenização não optimizada. O Translaite atenua este problema traduzindo os avisos para inglês, melhorando assim o desempenho.

Em conclusão, a utilização de modelos de linguagem na inteligência artificial revolucionou o campo da aprendizagem automática e do processamento de linguagem natural. No entanto, a sua aplicação em línguas não inglesas tem enfrentado desafios devido a vieses de tokenização e desequilíbrios nos dados de treino. A tokenização, o processo de dividir o texto em unidades mais pequenas, pode ser problemática para línguas como Português que têm estruturas linguísticas diferentes. Este processo de tokenização desigual leva a custos mais elevados e a um desempenho mais lento para línguas não inglesas em comparação com o inglês. Além disso, os dados de formação tendenciosos, com o inglês a dominar o conjunto de dados, afectam o desempenho dos modelos de IA em tarefas não inglesas e perpetuam preconceitos culturais.

all_inclusive.png

Para resolver estas questões, o Translaite fornece uma solução, traduzindo para inglês as instruções que não sejam em inglês, permitindo aos utilizadores interagir eficazmente com modelos avançados de IA na sua língua. Esta abordagem melhora o desempenho e atenua os preconceitos de tokenização, tornando a IA mais acessível, inclusiva e equitativa para os utilizadores de todas as línguas. Destaca também a importância de uma representação equilibrada nos dados de formação, não só em termos de língua, mas também em termos de aspectos culturais e demográficos. Ao trabalhar no sentido de obter dados de formação mais diversificados e representativos, podemos garantir a adoção justa e eficaz de modelos de IA a nível global, beneficiando os utilizadores em Português e não só.

Tens curiosidade em saber como funciona o Translaite? Vai em frente e experimenta