Traduzione di Large Lanugage Models

Un'escursione su come i modelli di Generative AI Models, come ChatGPT, hanno un pregiudizio inglese

Scritto da stephens on 9 Aug 2023

Tempi incredibili

Nel mondo dell'intelligenza artificiale, i modelli linguistici stanno facendo faville. I modelli linguistici di grandi dimensioni (LLM), come la famiglia GPT di OpenAI, hanno suscitato una notevole attenzione nelle comunità dell'apprendimento automatico e dell'elaborazione del linguaggio naturale. Tuttavia, il loro utilizzo non si limita all'inglese: sono in grado di comprendere e produrre risultati anche in altre lingue, tra cui italiano. Questo blog post vuole evidenziare i vantaggi dell'utilizzo di un'app per la generazione di messaggi AI, come Translaite.

Translaite traduce prima le richieste non inglesi in inglese (tramite DeepL, le richieste di OpenAI e poi traduce nuovamente l'output nella lingua di input. Questo processo consente agli utenti di interagire con i modelli avanzati di intelligenza artificiale nella loro lingua, rendendoli più accessibili e facili da usare. Ma perché si dovrebbe fare questo?

Comprendere la tokenizzazione per i modelli linguistici

La tokenizzazione, ovvero il processo di suddivisione del testo in ingresso in parti o token, è un passo fondamentale per il funzionamento dei modelli linguistici. I modelli GPT possono elaborare, ad esempio, il testo giapponese perché utilizzano un tokenizzatore flessibile, tiktoken. Tiktoken è uno strumento utilizzato per contare il numero di token in un determinato testo. Utilizza le stesse regole di tokenizzazione della libreria Transformers di Hugging Face, che è stata progettata principalmente per lavorare con testi in lingua inglese.

Il processo di tokenizzazione prevede la suddivisione di un testo in unità più piccole, o token, che possono essere singole parole, frasi o anche singoli caratteri. Questo processo dipende dalla lingua, poiché le diverse lingue hanno regole diverse per la formazione e la struttura delle parole e delle frasi.

tokenization.png

Dal momento che tiktoken utilizza delle regole adatte all'inglese, potrebbe non riuscire a tokenizzare accuratamente il testo in altre lingue. Ad esempio, potrebbe non gestire correttamente i caratteri speciali, gli accenti o la punteggiatura specifica di una lingua diversa dall'inglese. La tokenizzazione spesso tratta ogni parola o parte di essa come un token separato. Questo funziona bene per l'inglese e per altre lingue che utilizzano gli spazi per separare le parole. Tuttavia, lingue come il giapponese o il cinese, che non utilizzano spazi, devono affrontare delle difficoltà. In queste lingue, un singolo carattere può rappresentare un'intera parola o un concetto e questi caratteri spesso richiedono più byte per essere rappresentati in forma digitale rispetto alle parole inglesi.

Ad esempio, il carattere giapponese "cane" richiede tre token per essere rappresentato nei modelli GPT, rispetto a un solo token per la parola inglese "dog". Ciò significa che l'elaborazione di un testo giapponese richiede più token rispetto all'elaborazione di un testo inglese equivalente (per maggiori dettagli, consulta questo ottimo articolo).

Perché è importante? OpenAI fa pagare l'uso dei suoi modelli per token. Pertanto, l'elaborazione di lingue non inglesi come italiano può essere significativamente più costosa di quella dell'inglese. Questo processo di tokenizzazione iniquo, che favorisce l'inglese e sfavorisce le altre lingue, contribuisce al costo più elevato dell'utilizzo dei modelli di intelligenza artificiale per le lingue non inglesi.

Ciò significa anche che, ad esempio, occorrono più token per rappresentare un testo in italiano. Translaite colma questa lacuna traducendo i messaggi non inglesi in inglese, garantendo una tokenizzazione efficiente.

Dati di addestramento distorti nell'IA

ChatGPT-3, come i suoi predecessori, è stato addestrato su una vasta quantità di dati. Tuttavia, un problema significativo è la distribuzione linguistica del materiale di addestramento. L'inglese domina incontrastato il dataset, rappresentando il 92,1% dei caratteri totali. La seconda lingua più comune, il francese, rappresenta solo l'1,78%, seguita da vicino dal tedesco con l'1,68%. Anche lo spagnolo, l'italiano e il portoghese sono presenti, ma ognuno di essi rappresenta meno dell'1% dei caratteri totali. Anche il giapponese, una lingua molto diffusa, rappresenta solo lo 0,16% dei caratteri totali. Questa rappresentazione sproporzionata dell'inglese nei dati di addestramento inevitabilmente fa propendere le prestazioni di ChatGPT verso l'inglese, influenzando potenzialmente le sue prestazioni in compiti non inglesi. Questa distorsione sottolinea la necessità di disporre di dati di addestramento più equilibrati e diversificati per garantire un rendimento equo dei modelli di intelligenza artificiale in diverse lingue. Il pregiudizio linguistico nei modelli di intelligenza artificiale come ChatGPT-3 può essere problematico per diversi motivi

black_and_white.png

Performance Disparity Il modello avrà prestazioni migliori nelle attività in inglese rispetto alle altre lingue. Ciò significa che gli utenti che non parlano inglese come prima lingua avranno un'esperienza meno efficace e potenzialmente frustrante.

Pregiudizio culturale Il linguaggio è strettamente legato alla cultura. Se la formazione avviene principalmente su testi in lingua inglese, il modello potrebbe involontariamente perpetuare i pregiudizi insiti nel materiale in lingua inglese e non comprendere o rispettare le sfumature culturali presenti in altre lingue.

Accessibilità e Inclusività L'IA ha il potenziale per essere uno strumento universale, accessibile e utile alle persone indipendentemente dalla loro lingua o dal luogo in cui si trovano. Tuttavia, l'orientamento verso l'inglese limita questo potenziale ed esclude una parte significativa della popolazione mondiale.

Per le lingue sottorappresentate nei dati di addestramento, il modello potrebbe fraintendere o interpretare male gli input di testo, dando luogo a risposte errate o inappropriate. Questo può anche portare a una comunicazione errata in situazioni critiche.

Considerazioni etiche Da un punto di vista etico, è importante che i sistemi di IA siano giusti ed equi. Un sistema che privilegia una lingua rispetto ad altre solleva questioni di equità e rappresentazione.

Limitazione nell'adozione globale Affinché l'IA sia davvero adottata ed efficace a livello globale, deve comprendere e generare tutte le lingue in modo accurato. L'attuale pregiudizio potrebbe limitarne l'adozione in regioni o applicazioni non anglofone.

Pertanto, è fondamentale lavorare per una rappresentazione più equilibrata dei dati di formazione, non solo in termini di lingua, ma anche in termini di aspetti culturali, sociali e demografici che la lingua porta con sé.

Migliorare le prestazioni

Nonostante gli errori di tokenizzazione e gli squilibri di formazione, i modelli GPT hanno buone prestazioni in italiano. Sono in grado di comprendere le istruzioni dell'utente, di rispondere in italiano in modo fluido e naturale e di rifiutare le richieste inappropriate. Tuttavia, sono più lenti in italiano a causa della tokenizzazione non ottimale. Translaite attenua questo problema traducendo le richieste in inglese e migliorando così le prestazioni.

In conclusione, l'uso dei modelli linguistici nell'intelligenza artificiale ha rivoluzionato il campo dell'apprendimento automatico e dell'elaborazione del linguaggio naturale. Tuttavia, la loro applicazione in lingue diverse dall'inglese ha incontrato delle difficoltà a causa di errori di tokenizzazione e squilibri nei dati di formazione. La tokenizzazione, ovvero il processo di suddivisione del testo in unità più piccole, può essere problematica per lingue come italiano che hanno strutture linguistiche diverse. Questo processo di tokenizzazione non uniforme comporta costi maggiori e prestazioni più lente per le lingue non inglesi rispetto all'inglese. Inoltre, la distorsione dei dati di addestramento, in cui l'inglese domina il set di dati, influisce sulle prestazioni dei modelli di intelligenza artificiale in compiti non inglesi e perpetua i pregiudizi culturali.

all_inclusive.png

Per risolvere questi problemi, il Translaite fornisce una soluzione traducendo i messaggi non in inglese in inglese, consentendo agli utenti di interagire efficacemente con i modelli avanzati di intelligenza artificiale nella loro lingua. Questo approccio migliora le prestazioni e attenua i pregiudizi della tokenizzazione, rendendo l'IA più accessibile, inclusiva ed equa per gli utenti di tutte le lingue. Inoltre, sottolinea l'importanza di una rappresentazione equilibrata dei dati di formazione, non solo in termini di lingua ma anche di aspetti culturali e demografici. Lavorando per ottenere dati di formazione più diversificati e rappresentativi, possiamo garantire un'adozione equa ed efficace dei modelli di IA a livello globale, a beneficio degli utenti di italiano e non solo.

Sei curioso di sapere come funziona Translaite? Vai avanti e provalo