Yapay zeka dünyasında dil modelleri oldukça ses getirmektedir. OpenAI GPT gibi büyük dil modelleri (LLM'ler), makine öğrenimi ve doğal dil işleme topluluklarında büyük ilgi görmüştür. Bununla birlikte, kullanımları İngilizce ile sınırlı değildir; diğer dilleri de anlayabilir ve çıktı verebilirler. Ancak, bu bazı önemli limitations ile birlikte gelir.
Translaite İngilizce bilmeyen kullanıcılar düşünülerek hazırlanmıştır. Önce İngilizce olmayan komut istemlerini İngilizceye çevirir, OpenAI komutunu verir ve ardından çıktıyı giriş diline geri çevirir. Bu süreç, kullanıcıların gelişmiş yapay zeka modelleriyle kendi dillerinde etkileşime girmelerini sağlayarak onu daha erişilebilir ve kullanıcı dostu hale getirir.
ChatGPT-3 ve muhtemelen halefi, büyük miktarda veri üzerinde eğitilmiştir. Bununla birlikte, eğitim materyalindeki dil dağılımı önemli bir endişe kaynağıdır. İngilizce, toplam karakterlerin %92,1'ini oluşturarak veri kümesine büyük ölçüde hakimdir (bkz. Training data). İkinci en yaygın dil olan Fransızca yalnızca %1,78'lik bir orana sahiptir ve onu %1,68 ile Almanca takip etmektedir. İspanyolca, İtalyanca ve Portekizce de öne çıkmaktadır, ancak her biri toplam karakterlerin %1'inden azını temsil etmektedir. Yaygın olarak konuşulan bir dil olan Japonca bile toplam karakterlerin yalnızca %0,16'sını oluşturmaktadır. Eğitim verilerinde İngilizcenin bu orantısız temsili, kaçınılmaz olarak ChatGPT-3 performansını İngilizceye doğru saptırır ve potansiyel olarak İngilizce olmayan görevlerdeki performansını etkiler.
Girdi metnini parçalara veya belirteçlere ayırma işlemi olan belirteçleştirme, LLM'lerin nasıl çalıştığı konusunda çok önemli bir adımdır. GPT modelleri İngilizce olmayan metinleri işleyebilmektedir çünkü esnek bir belirteçleyici olan tiktoken kullanmaktadırlar. Ancak, İngilizce olmayan metni temsil etmek için daha fazla belirteç gerektiğinden, belirteçleştirme işlemi İngilizceye karşı önyargılıdır.
Tokenizasyon genellikle her kelimeyi veya bir kelimenin bir kısmını ayrı bir token olarak ele alır. Bu, kelimeleri ayırmak için boşluk kullanan İngilizce ve diğer diller için iyi çalışır. Ancak, boşluk kullanmayan Japonca veya Çince gibi diller zorluklarla karşılaşır. Bu dillerde, tek bir karakter bütün bir kelimeyi veya kavramı temsil edebilir ve bu karakterlerin dijital formda temsil edilmesi için genellikle İngilizce kelimelerden daha fazla bayt gerekir, bu da kullanımı daha yavaş ve daha pahalı hale getirir.
Eğitim dengesizliklerine ve tokenizasyon yanlılığına rağmen, GPT modelleri örneğin Japonca'da iyi performans göstermektedir. Japonca talimatları anlayabilir, akıcı ve doğal bir şekilde Japonca cevap verebilir ve uygunsuz istekleri reddedebilirler. Bununla birlikte, Japonca'da yetersiz tokenizasyon ve daha az eğitim materyali nedeniyle bilgi eksikliği nedeniyle daha yavaştırlar. Translaite, İngilizce olmayan istemleri İngilizceye ve yanıtı giriş diline geri çevirerek bunu hafifletir ve böylece performansı artırır.
Translaite özellikle İngilizce bilmeyen kullanıcılar için önemli avantajlar sunmaktadır. Etkili tokenizasyon sağlar, dil önyargısının üstesinden gelir ve performansı artırır. Ayrıca, gelişmiş YZ modellerini daha erişilebilir ve kullanıcı dostu hale getirerek daha kapsayıcı bir YZ ortamını teşvik eder.