Circa Translaite

Nel mondo dell'intelligenza artificiale, i modelli linguistici stanno facendo scalpore. I modelli linguistici di grandi dimensioni (LLM), come OpenAI GPT, hanno suscitato una notevole attenzione nelle comunità dell'apprendimento automatico e dell'elaborazione del linguaggio naturale. Tuttavia, il loro uso non è limitato all'inglese: possono anche comprendere e produrre risultati in altre lingue. Tuttavia, questo comporta alcuni limitations cruciali.

Translaite è stato realizzato pensando agli utenti non inglesi. Per prima cosa traduce le richieste non inglesi in inglese, chiede OpenAI e poi ritraduce l'output nella lingua di input. Questo processo consente agli utenti di interagire con i modelli avanzati di intelligenza artificiale nella loro lingua, rendendoli più accessibili e facili da usare.


Perché Translaite?


Formazione linguistica

ChatGPT-3, e probabilmente il suo successore, è stato addestrato su una vasta quantità di dati. Tuttavia, un problema significativo è la distribuzione linguistica del materiale di addestramento. L'inglese domina in modo schiacciante il set di dati, rappresentando il 92,1% dei caratteri totali (si veda Training data). La seconda lingua più comune, il francese, rappresenta solo l'1,78%, seguita da vicino dal tedesco con l'1,68%. Anche lo spagnolo, l'italiano e il portoghese sono presenti, ma ciascuno rappresenta meno dell'1% dei caratteri totali. Anche il giapponese, una lingua molto diffusa, rappresenta solo lo 0,16% dei caratteri totali. Questa rappresentazione sproporzionata dell'inglese nei dati di addestramento inevitabilmente fa propendere le prestazioni di ChatGPT-3 verso l'inglese, influenzando potenzialmente le sue prestazioni in compiti non inglesi.

Tokenizzazione

La tokenizzazione, ovvero il processo di suddivisione del testo in ingresso in parti o token, è una fase cruciale del funzionamento dei LLM. I modelli GPT possono elaborare testi non inglesi perché utilizzano un tokenizzatore flessibile, tiktoken. Tuttavia, il processo di tokenizzazione è orientato verso l'inglese, perché servono più token per rappresentare un testo non inglese.

La tokenizzazione spesso tratta ogni parola o parte di essa come un token separato. Questo funziona bene per l'inglese e per altre lingue che usano gli spazi per separare le parole. Tuttavia, lingue come il giapponese o il cinese, che non utilizzano spazi, devono affrontare delle sfide. In queste lingue, un singolo carattere può rappresentare un'intera parola o un concetto, e questi caratteri spesso richiedono più byte per essere rappresentati in forma digitale rispetto alle parole inglesi, rendendo l'uso più lento e costoso.

Migliorare le prestazioni

Nonostante gli squilibri nell'addestramento e le distorsioni nella tokenizzazione, i modelli GPT hanno buone prestazioni, ad esempio in giapponese. Riescono a capire le istruzioni giapponesi, a rispondere in giapponese in modo fluido e naturale e a rifiutare richieste inappropriate. Tuttavia, sono più lenti in giapponese a causa della tokenizzazione non ottimale e della mancanza di conoscenza dovuta al minor materiale di addestramento. Translaite attenua questo problema traducendo le richieste non inglesi in inglese e la risposta nella lingua di input, migliorando così le prestazioni.

Translaite offre vantaggi significativi, soprattutto per gli utenti non inglesi. Garantisce una tokenizzazione efficiente, supera i pregiudizi linguistici e migliora le prestazioni. Inoltre, rende i modelli avanzati di IA più accessibili e facili da usare, favorendo un ambiente di IA più inclusivo.