Oversættelse af Large Language Models

En ekskursion i, hvordan Generative AI Models, såsom ChatGPT, har en engelsk bias

Skrevet af stephens on 9 Aug 2023

Fantastiske tider

I en verden af kunstig intelligens har sprogmodeller gjort en del væsen af sig. Store sprogmodeller (LLM'er), som OpenAI's GPT-familie, har fået stor opmærksomhed inden for maskinlæring og naturlig sprogbehandling. Deres brug er dog ikke begrænset til engelsk; de kan også forstå og producere på andre sprog, herunder dansk. Dette blogindlæg har til formål at fremhæve fordelene ved at bruge en app til generative AI-prompts, såsom Translaite.

Translaite oversætter først ikke-engelske prompts til engelsk (via DeepL, prompter OpenAI og oversætter derefter outputtet tilbage til inputsproget. Denne proces giver brugerne mulighed for at interagere med de avancerede AI-modeller på deres eget sprog, hvilket gør det mere tilgængeligt og brugervenligt. Men hvorfor skulle man gøre det?

Forståelse af tokenisering til sprogmodeller

Tokenisering, processen med at opdele inputtekst i stykker eller tokens, er et afgørende trin i, hvordan LLM'er fungerer. GPT-modellerne kan behandle f.eks. japansk tekst, fordi de bruger en fleksibel tokenizer, tiktoken. Tiktoken er et værktøj, der bruges til at tælle antallet af tokens i et givet stykke tekst. Det bruger de samme tokeniseringsregler som Hugging Face's Transformers-bibliotek, som primært er designet til at arbejde med engelsksproget tekst.

Tokeniseringsprocessen involverer opdeling af et stykke tekst i mindre enheder, eller tokens, som kan være individuelle ord, sætninger eller endda enkelte tegn. Denne proces er sprogafhængig, da forskellige sprog har forskellige regler for, hvordan ord og sætninger dannes og struktureres.

tokenization.png

Da tiktoken bruger regler, der er skræddersyet til engelsk, er det ikke sikkert, at den tokeniserer tekst på andre sprog korrekt. For eksempel håndterer den måske ikke specialtegn, accenter eller sprogspecifik tegnsætning korrekt på ikke-engelske sprog. Tokenisering behandler ofte hvert ord eller en del af et ord som et separat token. Det fungerer godt for engelsk og andre sprog, der bruger mellemrum til at adskille ord. Men sprog som japansk eller kinesisk, der ikke bruger mellemrum, står over for udfordringer. På disse sprog kan et enkelt tegn repræsentere et helt ord eller koncept, og disse tegn kræver ofte flere bytes at repræsentere i digital form end engelske ord.

For eksempel kræver det japanske tegn for 'hund' tre tokens at repræsentere i GPT-modeller, sammenlignet med kun ét token for det engelske ord 'dog'. Det betyder, at behandling af japansk tekst kræver flere tokens end behandling af den tilsvarende engelske tekst (se denne fantastiske artikel for flere detaljer).

Hvorfor betyder det noget? OpenAI opkræver betaling for brug af sine modeller pr. token. Derfor kan behandling af ikke-engelske sprog som dansk være betydeligt dyrere end behandling af engelsk. Denne ulige tokeniseringsproces, der favoriserer engelsk og forfordeler andre sprog, bidrager til de højere omkostninger ved at bruge AI-modeller til ikke-engelske sprog.

Det betyder også, at det f.eks. kræver flere tokens at repræsentere dansk tekst. Translaite bygger bro over denne kløft ved at oversætte de ikke-engelske prompts til engelsk, hvilket sikrer effektiv tokenisering.

Skævvredne træningsdata i AI

ChatGPT-3 blev, ligesom sine forgængere, trænet på en stor mængde data. En væsentlig bekymring er dog sprogfordelingen i træningsmaterialet. Engelsk dominerer i overvældende grad datasættet og tegner sig for 92,1% af de samlede tegn. Det næstmest almindelige sprog, fransk, udgør kun 1,78 %, tæt fulgt af tysk med 1,68 %. Spansk, italiensk og portugisisk er også med, men de udgør hver især mindre end 1% af det samlede antal tegn. Selv japansk, som er et meget udbredt sprog, udgør kun 0,16 % af det samlede antal tegn. Denne uforholdsmæssigt store repræsentation af engelsk i træningsdataene forvrider uundgåeligt ChatGPT's præstation i retning af engelsk, hvilket potentielt påvirker dens præstation i ikke-engelske opgaver. Denne bias understreger behovet for mere afbalancerede og forskelligartede træningsdata for at sikre, at AI-modeller præsterer lige godt på tværs af forskellige sprog. Den sproglige bias i AI-modeller som ChatGPT-3 kan være problematisk af flere årsager

black_and_white.png

Performance Disparity Modellen klarer sig bedre i engelske opgaver end i opgaver på andre sprog. Det betyder, at brugere, der ikke taler engelsk som deres modersmål, vil få en mindre effektiv og potentielt frustrerende oplevelse.

Kulturel bias Sprog er tæt knyttet til kultur. Ved primært at træne på engelsksproget tekst kan modellen utilsigtet fastholde fordomme, der ligger i engelsksproget materiale, og undlade at forstå eller respektere kulturelle nuancer, der findes på andre sprog.

Tilgængelighed og inklusivitet AI har potentialet til at være et universelt værktøj, der er tilgængeligt og nyttigt for mennesker uanset sprog eller placering. Men en bias mod engelsk begrænser dette potentiale og udelukker en betydelig del af den globale befolkning.

For sprog, der er underrepræsenteret i træningsdataene, kan modellen misforstå eller fejlfortolke tekstinput, hvilket fører til forkerte eller upassende svar. Det kan også føre til fejlkommunikation i kritiske situationer.

Etiske overvejelser Fra et etisk synspunkt er det vigtigt, at AI-systemer er fair og retfærdige. Et system, der er forudindtaget over for et sprog frem for andre, rejser spørgsmål om retfærdighed og repræsentation.

Begrænsning i global udbredelse Hvis AI virkelig skal udbredes globalt og være effektiv, skal den kunne forstå og generere alle sprog korrekt. Den nuværende bias kan begrænse dens anvendelse i ikke-engelsktalende regioner eller applikationer.

Derfor er det afgørende at arbejde hen imod en mere afbalanceret repræsentation i træningsdata, ikke kun med hensyn til sprog, men også med hensyn til de kulturelle, sociale og demografiske aspekter, som sproget bærer med sig.

Forbedring af ydeevne

På trods af tokenization bias og ubalancer i træningen klarer GPT-modellerne sig godt i dansk. De kan forstå dine instruktioner, svare tilbage på dansk flydende og naturligt og afvise upassende forespørgsler. De er dog langsommere i dansk på grund af den suboptimale tokenisering. Translaite afhjælper dette ved at oversætte prompterne til engelsk og derved forbedre ydeevnen.

Afslutningsvis har brugen af sprogmodeller i kunstig intelligens revolutioneret området for maskinlæring og naturlig sprogbehandling. Men deres anvendelse på ikke-engelske sprog har været udfordret på grund af tokeniseringsbias og ubalancer i træningsdata. Tokenisering, processen med at opdele tekst i mindre enheder, kan være problematisk for sprog som dansk, der har forskellige sproglige strukturer. Denne ulige tokeniseringsproces fører til højere omkostninger og langsommere ydeevne for ikke-engelske sprog sammenlignet med engelsk. Derudover påvirker de skæve træningsdata, hvor engelsk dominerer datasættet, AI-modellernes præstation i ikke-engelske opgaver og fastholder kulturelle skævheder.

all_inclusive.png

For at løse disse problemer tilbyder Translaite en løsning ved at oversætte ikke-engelske prompts til engelsk, så brugerne effektivt kan interagere med avancerede AI-modeller på deres eget sprog. Denne tilgang forbedrer ydeevnen og mindsker tokeniseringsbias, hvilket gør AI mere tilgængelig, inkluderende og retfærdig for brugere af alle sprog. Det fremhæver også vigtigheden af en afbalanceret repræsentation i træningsdata, ikke kun med hensyn til sprog, men også med hensyn til kulturelle og demografiske aspekter. Ved at arbejde hen imod mere forskelligartede og repræsentative træningsdata kan vi sikre en retfærdig og effektiv anvendelse af AI-modeller globalt, til gavn for brugere på dansk og andre sprog.

Er du nysgerrig efter, hvordan Translaite fungerer? Gå i gang og prøv det