Amazing Times
A mesterséges intelligencia világában a nyelvi modellek nagyot szóltak. A nagy nyelvi modellek (LLM), mint például az OpenAI GPT családja, jelentős figyelmet kaptak a gépi tanulás és a természetes nyelvi feldolgozás közösségében. Használatuk azonban nem korlátozódik az angol nyelvre; más nyelveken is képesek megérteni és kimenetet adni, beleértve az magyar-t is. Ennek a blogbejegyzésnek az a célja, hogy rávilágítson egy olyan generatív mesterséges intelligencia-felszólítások alkalmazás, mint a Translaite használatának előnyeire.
A Translaite először lefordítja a nem angol nyelvű promptokat angolra (a DeepL segítségével), promptokat ad OpenAI, majd visszafordítja a kimenetet a bemeneti nyelvre. Ez a folyamat lehetővé teszi a felhasználók számára, hogy a fejlett AI modellekkel a saját nyelvükön lépjenek kapcsolatba, így hozzáférhetőbbé és felhasználóbarátabbá téve azokat. De miért is kellene ezt tenni?
A tokenizáció megértése a nyelvi modellekhez
A tokenizálás, azaz a bemeneti szöveg darabokra vagy tokenekre való bontása, az LLM-ek működésének egyik kulcsfontosságú lépése. A GPT modellek képesek feldolgozni pl. a japán szöveget, mivel egy rugalmas tokenizálót, a tiktoken alkalmaznak. A tiktoken egy olyan eszköz, amely egy adott szövegdarabban lévő tokenek számának megszámlálására szolgál. Ugyanazokat a tokenizálási szabályokat használja, mint az Hugging Face Transformers könyvtára, amely elsősorban angol nyelvű szövegek kezelésére készült.
A tokenizálás során egy szövegrészletet kisebb egységekre, azaz tokenekre bontunk, amelyek lehetnek egyes szavak, mondatok vagy akár egyetlen karakter is. Ez a folyamat nyelvfüggő, mivel a különböző nyelvek különböző szabályokkal rendelkeznek a szavak és mondatok kialakítására és szerkezetére vonatkozóan.
Mivel a tiktoken az angol nyelvre szabott szabályokat használ, előfordulhat, hogy más nyelvű szövegeket nem pontosan tokenizál. Előfordulhat például, hogy nem angol nyelvekben nem kezeli helyesen a speciális karaktereket, ékezeteket vagy nyelvspecifikus írásjeleket. A tokenizálás gyakran minden szót vagy szórészt külön tokenként kezel. Ez jól működik az angol és más olyan nyelvek esetében, amelyek szóközöket használnak a szavak elválasztására. Az olyan nyelvek azonban, mint a japán vagy a kínai, amelyek nem használnak szóközöket, kihívásokkal szembesülnek. Ezeken a nyelveken egyetlen karakter egy egész szót vagy fogalmat képviselhet, és ezeknek a karaktereknek a digitális megjelenítéséhez gyakran több bájtra van szükség, mint az angol szavakhoz.
Például a "dog" japán karaktere három tokent igényel a GPT-modellekben, míg az angol "dog" szó csak egy tokent. Ez azt jelenti, hogy a japán szöveg feldolgozása több tokent igényel, mint a megfelelő angol szöveg feldolgozása (további részletekért nézze meg ezt a nagyszerű cikket).
Miért fontos ez? Az OpenAI tokenenként számol fel díjat a modelljei használatáért. Ezért az olyan nem angol nyelvek feldolgozása, mint az magyar, jelentősen drágább lehet, mint az angol nyelv feldolgozása. Ez az egyenlőtlen tokenizálási folyamat, amely előnyben részesíti az angol nyelvet és hátrányban részesíti a többi nyelvet, hozzájárul az AI-modellek használatának magasabb költségeihez a nem angol nyelvek esetében.
Ez azt is jelenti, hogy például több tokenre van szükség a magyar szöveg reprezentálásához. A Translaite áthidalja ezt a hiányosságot azáltal, hogy a nem angol nyelvű felszólításokat angolra fordítja, biztosítva a hatékony tokenizálást.
Elfogult képzési adatok a mesterséges intelligenciában
A ChatGPT-3, akárcsak elődei, hatalmas mennyiségű adaton lett betanítva. Jelentős gondot jelent azonban a képzési anyag nyelvi eloszlása. Az adatállományt túlnyomórészt az angol nyelv uralja, az összes karakter 92,1%-át teszi ki. A második leggyakoribb nyelv, a francia csak 1,78%-ot tesz ki, amelyet szorosan követ a német 1,68%-kal. A spanyol, az olasz és a portugál is szerepel, de mindegyik az összes karakter kevesebb mint 1%-át teszi ki. Még a széles körben beszélt japán nyelv is csak az összes karakter 0,16%-át teszi ki. Az angol nyelv aránytalan képviselete a képzési adatokban elkerülhetetlenül az angol nyelv felé tereli a ChatGPT teljesítményét, ami potenciálisan befolyásolja a nem angol nyelvű feladatokban nyújtott teljesítményét. Ez a torzítás kiemeli, hogy kiegyensúlyozottabb és változatosabb képzési adatokra van szükség a mesterséges intelligencia modellek különböző nyelvek közötti egyenlő teljesítményének biztosítása érdekében. A ChatGPT-3-hoz hasonló mesterséges intelligenciamodellek nyelvi torzítása több okból is problémás lehet
Teljesítménykülönbség A modell jobban teljesít az angol nyelvű feladatokban, mint más nyelveken. Ez azt jelenti, hogy az angol nyelvet nem anyanyelvként beszélő felhasználóknak kevésbé hatékony és potenciálisan frusztráló élményben lesz részük.
Kulturális torzítás A nyelv szorosan kapcsolódik a kultúrához. Azáltal, hogy a modell elsősorban angol nyelvű szövegeken tanul, a modell akaratlanul is fenntarthatja az angol nyelvű anyagokban rejlő előítéleteket, és nem képes megérteni vagy tiszteletben tartani a más nyelvekben jelen lévő kulturális árnyalatokat.
Megközelíthetőség és befogadhatóság A mesterséges intelligencia potenciálisan univerzális eszköz lehet, amely nyelvtől és lakóhelytől függetlenül elérhető és hasznos az emberek számára. Az angol nyelv iránti elfogultság azonban korlátozza ezt a lehetőséget, és kizárja a világ népességének jelentős részét.
Téves értelmezés és félreértés A képzési adatokban alulreprezentált nyelvek esetében a modell félreértheti vagy félreértelmezheti a szöveges bevitelt, ami helytelen vagy nem megfelelő válaszokhoz vezethet. Ez kritikus helyzetekben félreérthető kommunikációhoz is vezethet.
Etikai megfontolások Etikai szempontból fontos, hogy a mesterséges intelligencia rendszerek igazságosak és méltányosak legyenek. Egy olyan rendszer, amely egy nyelvvel szemben elfogult, kérdéseket vet fel a méltányossággal és a reprezentációval kapcsolatban.
A globális alkalmazás korlátai Ahhoz, hogy a mesterséges intelligencia valóban globálisan elfogadott és hatékony legyen, minden nyelvet pontosan meg kell értenie és generálnia kell. A jelenlegi elfogultság korlátozhatja a nem angol nyelvű régiókban vagy alkalmazásokban való elfogadását.
Ezért kulcsfontosságú, hogy a képzési adatokban kiegyensúlyozottabb reprezentációra törekedjünk, nemcsak a nyelv, hanem a nyelv által hordozott kulturális, társadalmi és demográfiai szempontok tekintetében is.
A teljesítmény fokozása
A tokenizációs torzítás és a képzési egyensúlytalanságok ellenére a GPT-modellek jól teljesítenek a magyar-ban. Megértik az utasításokat, magyar nyelven folyékonyan és természetesen válaszolnak vissza, és elutasítják a nem megfelelő kéréseket. A nem optimális tokenizálás miatt azonban lassabbak magyar-ban. A Translaite ezt úgy enyhíti, hogy a kéréseket angolra fordítja, ezáltal javítva a teljesítményt.
Összefoglalva, a nyelvi modellek használata a mesterséges intelligenciában forradalmasította a gépi tanulás és a természetes nyelvi feldolgozás területét. A nem angol nyelveken történő alkalmazásuk azonban kihívásokkal szembesült a tokenizációs torzítások és a képzési adatok kiegyensúlyozatlansága miatt. A tokenizálás, vagyis a szöveg kisebb egységekre bontásának folyamata problémás lehet az olyan nyelvek esetében, mint az magyar, amelyek eltérő nyelvi struktúrával rendelkeznek. Ez az egyenlőtlen tokenizálási folyamat magasabb költségekhez és lassabb teljesítményhez vezet a nem angol nyelvek esetében az angolhoz képest. Emellett a torzított képzési adatok, amelyekben az angol nyelv dominál az adathalmazban, befolyásolják a mesterséges intelligencia modellek teljesítményét a nem angol nyelvű feladatokban, és állandósítják a kulturális előítéleteket.
E problémák megoldására a Translaite megoldást kínál a nem angol nyelvű felszólítások angolra fordításával, lehetővé téve a felhasználók számára, hogy a fejlett mesterséges intelligenciamodellekkel hatékonyan, a saját nyelvükön lépjenek kapcsolatba. Ez a megközelítés növeli a teljesítményt és enyhíti a tokenizációs torzításokat, így a mesterséges intelligencia hozzáférhetőbbé, befogadóbbá és méltányosabbá válik minden nyelv felhasználója számára. Rávilágít továbbá a képzési adatok kiegyensúlyozott reprezentációjának fontosságára, nemcsak a nyelvi, hanem a kulturális és demográfiai szempontok tekintetében is. A sokszínűbb és reprezentatívabb képzési adatokra való törekvéssel biztosíthatjuk a mesterséges intelligenciamodellek igazságos és hatékony elfogadását világszerte, ami az magyar és azon túli felhasználók javát szolgálja.
Kíváncsi, hogyan működik a Translaite? Menjen és próbálja ki