Om Translaite

Innenfor kunstig intelligens har språkmodeller fått mye oppmerksomhet. Store språkmodeller (LLM), som OpenAI GPT, har fått stor oppmerksomhet innen maskinlæring og naturlig språkbehandling. Bruken av dem er imidlertid ikke begrenset til engelsk; de kan også forstå og produsere informasjon på andre språk. Dette kommer imidlertid med noen avgjørende limitations.

Translaite er laget med tanke på ikke-engelske brukere. Den oversetter først ikke-engelske meldinger til engelsk, spør OpenAI og oversetter deretter resultatet tilbake til inngangsspråket. Denne prosessen gjør det mulig for brukerne å kommunisere med de avanserte AI-modellene på sitt eget språk, noe som gjør den mer tilgjengelig og brukervennlig.


Hvorfor Translaite?


Språkopplæring

ChatGPT-3, og sannsynligvis etterfølgeren, ble trent på en enorm mengde data. Et stort problem er imidlertid språkfordelingen i opplæringsmaterialet. Engelsk dominerer overveldende i datasettet og utgjør 92,1 % av det totale antallet tegn (se Training data). Det nest vanligste språket, fransk, utgjør bare 1,78 %, tett fulgt av tysk med 1,68 %. Spansk, italiensk og portugisisk er også med, men hver av dem utgjør mindre enn 1 % av det totale antallet tegn. Selv japansk, som er et mye brukt språk, utgjør bare 0,16 % av det totale antallet tegn. Denne uforholdsmessige store andelen engelsk i opplæringsdataene gjør at ChatGPT-3 uunngåelig blir mer engelskorientert, noe som kan påvirke ytelsen i ikke-engelske oppgaver.

Tokenisering

Tokenisering, det vil si prosessen med å dele opp inndatatekst i biter eller tokens, er et avgjørende trinn i LLM-modellenes virkemåte. GPT-modellene kan behandle ikke-engelsk tekst fordi de bruker en fleksibel tokenizer, tiktoken. Tokeniseringsprosessen er imidlertid ensidig rettet mot engelsk, fordi det kreves flere tokens for å representere ikke-engelsk tekst.

Tokenisering behandler ofte hvert ord eller del av et ord som et eget token. Dette fungerer bra for engelsk og andre språk som bruker mellomrom for å skille ord. Språk som japansk og kinesisk, som ikke bruker mellomrom, har imidlertid utfordringer. På disse språkene kan ett enkelt tegn representere et helt ord eller konsept, og disse tegnene krever ofte flere byte å representere i digital form enn engelske ord, noe som gjør bruken langsommere og dyrere.

Forbedre ytelsen

Til tross for ubalansen i opplæringen og skjevheten i tokeniseringen fungerer GPT-modellene godt på f.eks. japansk. De kan forstå japanske instruksjoner, svare flytende og naturlig på japansk og avvise upassende forespørsler. De er imidlertid tregere på japansk på grunn av suboptimal tokenisering og manglende kunnskap på grunn av mindre opplæringsmateriale. Translaite avhjelper dette ved å oversette ikke-engelske instruksjoner til engelsk og svaret tilbake til inndataspråket, noe som forbedrer ytelsen.

Translaite gir betydelige fordeler, spesielt for ikke-engelske brukere. Det sikrer effektiv tokenisering, overvinner språkskjevheter og forbedrer ytelsen. I tillegg blir avanserte AI-modeller mer tilgjengelige og brukervennlige, noe som bidrar til et mer inkluderende AI-miljø.