No mundo da inteligência artificial, os modelos de linguagem têm vindo a fazer bastante sucesso. Os modelos de linguagem de grande dimensão (LLM), como o OpenAI GPT, têm atraído uma atenção considerável nas comunidades de aprendizagem automática e de processamento de linguagem natural. No entanto, a sua utilização não se limita ao inglês; também podem compreender e produzir noutras línguas. No entanto, isto implica alguns limitations cruciais.
O Translaite foi criado a pensar nos utilizadores não ingleses. Começa por traduzir as mensagens não inglesas para inglês, pede OpenAI e, em seguida, traduz a mensagem para o idioma de entrada. Este processo permite aos utilizadores interagir com os modelos avançados de IA na sua língua, tornando-os mais acessíveis e fáceis de utilizar.
O ChatGPT-3, e provavelmente o seu sucessor, foi treinado numa grande quantidade de dados. No entanto, uma preocupação significativa é a distribuição linguística no material de treino. O inglês domina esmagadoramente o conjunto de dados, representando 92,1% do total de caracteres (ver Training data). A segunda língua mais comum, o francês, representa apenas 1,78%, seguida de perto pelo alemão com 1,68%. O espanhol, o italiano e o português também aparecem, mas cada um representa menos de 1% do total de caracteres. Mesmo o japonês, uma língua muito falada, representa apenas 0,16% do total de caracteres. Esta representação desproporcionada do inglês nos dados de treino enviesa inevitavelmente o desempenho do ChatGPT-3 para o inglês, afectando potencialmente o seu desempenho em tarefas não inglesas.
A tokenização, o processo de dividir o texto de entrada em partes ou tokens, é um passo crucial na forma como os LLMs funcionam. Os modelos GPT podem processar texto não inglês porque usam um tokenizador flexível, o tiktoken. No entanto, o processo de tokenização é tendencioso para o inglês, porque são necessários mais tokens para representar um texto não inglês.
A tokenização geralmente trata cada palavra ou parte de uma palavra como um token separado. Isto funciona bem para o inglês e outras línguas que utilizam espaços para separar as palavras. No entanto, línguas como o japonês ou o chinês, que não utilizam espaços, enfrentam desafios. Nestas línguas, um único carácter pode representar uma palavra ou um conceito completo, e estes caracteres requerem frequentemente mais bytes para serem representados em formato digital do que as palavras inglesas, tornando a sua utilização mais lenta e dispendiosa.
Apesar dos desequilíbrios de formação e do viés de tokenização, os modelos GPT têm um bom desempenho, por exemplo, em japonês. Conseguem compreender instruções japonesas, responder em japonês de forma fluente e natural e rejeitar pedidos inadequados. No entanto, são mais lentos em japonês devido à tokenização sub-óptima e à falta de conhecimento devido a menos material de formação. O Translaite atenua esta situação traduzindo os pedidos não ingleses para inglês e a resposta de volta para a língua de entrada, melhorando assim o desempenho.
Translaite oferece benefícios significativos, especialmente para utilizadores que não falam inglês. Assegura uma tokenização eficiente, ultrapassa os preconceitos linguísticos e melhora o desempenho. Além disso, torna os modelos avançados de IA mais acessíveis e fáceis de utilizar, promovendo um ambiente de IA mais inclusivo.