Tentang Translaite

Dalam dunia kecerdasan buatan, model bahasa telah membuat banyak gebrakan. Model bahasa besar (LLM), seperti OpenAI GPT, telah menarik banyak perhatian dalam komunitas pembelajaran mesin dan pemrosesan bahasa alami. Namun, penggunaannya tidak terbatas pada bahasa Inggris; mereka juga dapat memahami dan menghasilkan output dalam bahasa lain. Namun, hal ini disertai dengan beberapa limitations yang krusial.

Translaite dibuat dengan mempertimbangkan pengguna non-Inggris. Pertama-tama, ia menerjemahkan perintah non-Inggris ke dalam bahasa Inggris, meminta OpenAI, dan kemudian menerjemahkan kembali output ke dalam bahasa input. Proses ini memungkinkan pengguna untuk terlibat dengan model AI tingkat lanjut dalam bahasa mereka, membuatnya lebih mudah diakses dan ramah pengguna.


Mengapa Translaite?


Pelatihan bahasa

ChatGPT-3, dan kemungkinan penggantinya, telah dilatih dengan data yang sangat banyak. Namun, yang menjadi perhatian penting adalah distribusi bahasa dalam materi pelatihan. Bahasa Inggris sangat mendominasi dataset, terhitung 92,1% dari total karakter (lihat Training data). Bahasa kedua yang paling umum, bahasa Prancis, hanya terdiri dari 1,78%, diikuti oleh bahasa Jerman sebesar 1,68%. Bahasa Spanyol, Italia, dan Portugis juga muncul, tetapi masing-masing mewakili kurang dari 1% dari total karakter. Bahkan bahasa Jepang, bahasa yang digunakan secara luas, hanya menyumbang 0,16% dari total karakter. Representasi bahasa Inggris yang tidak proporsional dalam data pelatihan ini pasti membiaskan kinerja ChatGPT-3 ke arah bahasa Inggris, yang berpotensi memengaruhi kinerjanya dalam tugas-tugas non-Inggris.

Tokenisasi

Tokenisasi, proses memecah teks input menjadi beberapa bagian atau token, adalah langkah penting dalam cara kerja LLM. Model GPT dapat memproses teks non-Inggris karena menggunakan tokenizer yang fleksibel, tiktoken. Namun, proses tokenisasi bias terhadap bahasa Inggris, karena dibutuhkan lebih banyak token untuk merepresentasikan teks non-Inggris.

Tokenisasi sering memperlakukan setiap kata atau bagian dari sebuah kata sebagai token yang terpisah. Hal ini bekerja dengan baik untuk bahasa Inggris dan bahasa lain yang menggunakan spasi untuk memisahkan kata. Namun, bahasa seperti bahasa Jepang atau Cina, yang tidak menggunakan spasi, menghadapi tantangan. Dalam bahasa-bahasa ini, satu karakter dapat mewakili seluruh kata atau konsep, dan karakter-karakter ini sering kali membutuhkan lebih banyak byte untuk direpresentasikan dalam bentuk digital daripada kata-kata dalam bahasa Inggris, sehingga penggunaannya menjadi lebih lambat dan lebih mahal.

Meningkatkan Kinerja

Terlepas dari ketidakseimbangan pelatihan dan bias tokenisasi, model GPT memiliki kinerja yang baik dalam bahasa Jepang, misalnya. Mereka dapat memahami instruksi bahasa Jepang, menjawab dalam bahasa Jepang dengan lancar dan alami, dan menolak permintaan yang tidak sesuai. Namun, mereka lebih lambat dalam bahasa Jepang karena tokenisasi yang kurang optimal dan kurangnya pengetahuan karena kurangnya materi pelatihan. Translaite mengurangi hal ini dengan menerjemahkan permintaan non-Inggris ke dalam bahasa Inggris, dan responnya kembali ke dalam bahasa input, sehingga meningkatkan kinerja.

Translaite menawarkan manfaat yang signifikan, terutama bagi pengguna non-Inggris. Ini memastikan tokenisasi yang efisien, mengatasi bias bahasa, dan meningkatkan kinerja. Selain itu, hal ini membuat model AI yang canggih menjadi lebih mudah diakses dan ramah pengguna, mendorong lingkungan AI yang lebih inklusif.