Tietoja Translaite

Tekoälymaailmassa kielimallit ovat tehneet melkoista ryminää. Suuret kielimallit (LLM), kuten OpenAI GPT, ovat saaneet paljon huomiota koneoppimis- ja luonnollisen kielen käsittelyyhteisöissä. Niiden käyttö ei kuitenkaan rajoitu vain englantiin, vaan ne voivat ymmärtää ja tuottaa tuloksia myös muilla kielillä. Tähän liittyy kuitenkin joitakin ratkaisevia limitations.

Translaite on tehty muita kuin englanninkielisiä käyttäjiä ajatellen. Se kääntää ensin ei-englanninkieliset kehotukset englanniksi, pyytää OpenAI ja kääntää sitten tulosteen takaisin syöttökielelle. Tämän prosessin ansiosta käyttäjät voivat olla tekemisissä kehittyneiden tekoälymallien kanssa omalla kielellään, mikä tekee niistä helpommin lähestyttäviä ja käyttäjäystävällisempiä.


Miksi Translaite?


Kielikoulutus

ChatGPT-3 ja todennäköisesti sen seuraaja koulutettiin valtavan tietomäärän perusteella. Merkittävä huolenaihe on kuitenkin koulutusmateriaalin kielijakauma. Englanti hallitsee aineistoa ylivoimaisesti, sillä sen osuus on 92,1 prosenttia kaikista merkkeistä (ks. Training data). Toiseksi yleisimmän kielen, ranskan, osuus on vain 1,78 prosenttia, ja seuraavaksi eniten on saksan kieltä (1,68 prosenttia). Myös espanja, italia ja portugali ovat mukana, mutta kunkin kieli edustaa alle 1 % merkkien kokonaismäärästä. Jopa japanin kieli, jota puhutaan laajalti, muodostaa vain 0,16 prosenttia kaikista merkeistä. Tämä englannin kielen suhteeton edustus harjoitusaineistossa vääristää väistämättä ChatGPT-3:n suorituskykyä englannin kielen suuntaan, mikä saattaa vaikuttaa sen suorituskykyyn muissa kuin englanninkielisissä tehtävissä.

Tokenisointi

Tokenisointi eli syötetyn tekstin jakaminen palasiksi tai merkkeihin on tärkeä vaihe LLM:n toiminnassa. GPT-mallit pystyvät käsittelemään ei-englanninkielistä tekstiä, koska ne käyttävät joustavaa tokenisoijaa, tiktokeniä. Tokenisointiprosessi on kuitenkin suuntautunut englanninkieliseen tekstiin, koska ei-englanninkielisen tekstin esittämiseen tarvitaan enemmän tokeneita.

Tokenisointi käsittelee usein jokaista sanaa tai sanan osaa erillisenä tokenina. Tämä toimii hyvin englannissa ja muissa kielissä, joissa käytetään välilyöntejä sanojen erottamiseen. Japanin ja kiinan kaltaiset kielet, joissa ei käytetä välilyöntejä, kohtaavat kuitenkin haasteita. Näissä kielissä yksittäinen merkki voi edustaa kokonaista sanaa tai käsitettä, ja näiden merkkien esittäminen digitaalisessa muodossa vaatii usein enemmän tavuja kuin englanninkielisten sanojen, mikä tekee käytöstä hitaampaa ja kalliimpaa.

Suorituskyvyn parantaminen

Koulutuksen epätasapainosta ja tokenisointivinoumasta huolimatta GPT-mallit toimivat hyvin esimerkiksi japanin kielessä. Ne ymmärtävät japaninkielisiä ohjeita, vastaavat japaniksi sujuvasti ja luontevasti ja hylkäävät sopimattomat pyynnöt. Ne ovat kuitenkin hitaampia japanin kielessä, mikä johtuu epäoptimaalisesta tokenisoinnista ja vähäisemmästä harjoitusmateriaalista johtuvasta tiedon puutteesta. Translaite lieventää tätä kääntämällä ei-englanninkieliset kehotukset englanniksi ja vastaukset takaisin syöttökielelle, mikä parantaa suorituskykyä.

Translaite tarjoaa merkittäviä etuja erityisesti muille kuin englanninkielisille käyttäjille. Se varmistaa tehokkaan tokenisoinnin, poistaa kielivääristymät ja parantaa suorituskykyä. Lisäksi se tekee kehittyneistä tekoälymalleista helpommin lähestyttäviä ja käyttäjäystävällisempiä, mikä edistää osallistavampaa tekoäly-ympäristöä.