A honlapról Translaite

A mesterséges intelligencia világában a nyelvi modellek elég nagy port kavartak. A nagy nyelvi modellek (LLM), mint például a OpenAI GPT, jelentős figyelmet kaptak a gépi tanulás és a természetes nyelvi feldolgozás közösségében. Használatuk azonban nem korlátozódik az angol nyelvre; más nyelveken is képesek megérteni és kimenetet adni. Ez azonban néhány döntő fontosságú limitations.

A Translaite nem angol nyelvű felhasználók számára készült. Először lefordítja a nem angol nyelvű kéréseket angolra, a OpenAI kéréseket, majd a kimenetet visszafordítja a bemeneti nyelvre. Ez a folyamat lehetővé teszi a felhasználók számára, hogy a saját nyelvükön lépjenek kapcsolatba a fejlett mesterséges intelligencia modellekkel, így azok hozzáférhetőbbé és felhasználóbarátabbá válnak.


Miért Translaite?


Nyelvi képzés

A ChatGPT-3, és valószínűleg az utódja is, hatalmas mennyiségű adaton lett betanítva. Jelentős gondot jelent azonban a képzési anyag nyelvi eloszlása. Az angol nyelv túlnyomórészt uralja az adatállományt, az összes karakter 92,1%-át teszi ki (lásd Training data). A második leggyakoribb nyelv, a francia csak 1,78%-ot tesz ki, amelyet szorosan követ a német 1,68%-kal. A spanyol, az olasz és a portugál is szerepel, de mindegyik az összes karakter kevesebb mint 1%-át teszi ki. Még a széles körben beszélt japán nyelv is csak az összes karakter 0,16%-át teszi ki. Az angol nyelv aránytalan képviselete a képzési adatokban elkerülhetetlenül az angol nyelv felé tereli a ChatGPT-3 teljesítményét, ami potenciálisan befolyásolja a nem angol nyelvű feladatokban nyújtott teljesítményét.

Tokenizálás

A tokenizálás, azaz a bemeneti szöveg darabokra vagy tokenekre bontása, az LLM-ek működésének egyik kulcsfontosságú lépése. A GPT modellek képesek nem angol nyelvű szövegek feldolgozására, mivel egy rugalmas tokenizálót, a tiktokent használják. A tokenizálás folyamata azonban az angol nyelv felé irányul, mivel több tokenre van szükség a nem angol nyelvű szöveg reprezentálásához.

A tokenizálás gyakran minden szót vagy szórészt külön tokenként kezel. Ez jól működik az angol és más nyelvek esetében, amelyek szóközöket használnak a szavak elválasztására. Az olyan nyelvek azonban, mint a japán vagy a kínai, amelyek nem használnak szóközöket, kihívásokkal szembesülnek. Ezeken a nyelveken egyetlen karakter egy egész szót vagy fogalmat képviselhet, és ezeknek a karaktereknek a digitális formában történő ábrázolásához gyakran több bájtra van szükség, mint az angol szavakéhoz, ami lassabbá és költségesebbé teszi a használatot.

A teljesítmény növelése

A képzési egyensúlytalanságok és a tokenizálás torzítása ellenére a GPT modellek jól teljesítenek pl. a japánban. Megértik a japán utasításokat, folyékonyan és természetesen válaszolnak japánul, és elutasítják a nem megfelelő kéréseket. Japánban azonban lassabbak a szuboptimális tokenizáció és a kevesebb képzési anyag miatti tudáshiány miatt. A Translaite úgy enyhíti ezt, hogy a nem angol nyelvű felszólításokat angolra fordítja, a válaszokat pedig visszafordítja a bemeneti nyelvre, ezáltal javítva a teljesítményt.

A Translaite jelentős előnyöket kínál, különösen a nem angol nyelvű felhasználók számára. Biztosítja a hatékony tokenizálást, kiküszöböli a nyelvi torzítást, és növeli a teljesítményt. Ezen túlmenően a fejlett mesterséges intelligencia modelleket hozzáférhetőbbé és felhasználóbarátabbá teszi, elősegítve egy befogadóbb mesterséges intelligencia környezet kialakulását.