Translation of Large Lanugage Models

Örneğin ChatGPT gibi Generative AI ModelsGenerative AI Modellerinin Nasıl İngilizce Önyargısı Olduğuna Dair Bir Gezi

Tarafından yazıldı stephens on 9 Aug 2023

Muhteşem Zamanlar

Yapay zeka dünyasında, dil modelleri oldukça büyük bir sıçrama yapıyor. OpenAI'nin GPT ailesi gibi büyük dil modelleri (LLM'ler), makine öğrenimi ve doğal dil işleme topluluklarında büyük ilgi görmüştür. Bununla birlikte, kullanımları İngilizce ile sınırlı değildir; Türkçe dahil olmak üzere diğer dilleri de anlayabilir ve çıktı verebilirler. Bu blog yazısı, Translaite gibi üretken yapay zeka istemleri için bir uygulama kullanmanın faydalarını vurgulamayı amaçlamaktadır.

Translaite önce İngilizce olmayan istemleri İngilizceye çevirir (DeepL aracılığıyla, OpenAI istemlerini ve ardından çıktıyı giriş diline geri çevirir. Bu süreç, kullanıcıların gelişmiş yapay zeka modelleriyle kendi dillerinde etkileşime girmelerine olanak tanıyarak onu daha erişilebilir ve kullanıcı dostu hale getirir. Peki ama bunu neden yapmalı?

Dil Modelleri için Tokenizasyonu Anlama

Girdi metnini parçalara veya belirteçlere ayırma işlemi olan belirteçleştirme, LLM'lerin nasıl çalıştığı konusunda çok önemli bir adımdır. GPT modelleri, esnek bir belirteçleyici olan tiktoken kullandıkları için örneğin Japonca metni işleyebilmektedir. Tiktoken, belirli bir metin parçasındaki belirteçlerin sayısını saymak için kullanılan bir araçtır. Öncelikle İngilizce metinlerle çalışmak üzere tasarlanmış olan Hugging Face'in Transformers kütüphanesi ile aynı tokenizasyon kurallarını kullanır.

Jetonlama işlemi, bir metin parçasını tek tek kelimeler, kelime öbekleri ve hatta tek karakterler olabilen daha küçük birimlere veya jetonlara bölmeyi içerir. Bu işlem dile bağlıdır, çünkü farklı dillerde sözcüklerin ve cümlelerin nasıl oluşturulduğu ve yapılandırıldığı konusunda farklı kurallar vardır.

tokenization.png

tiktoken İngilizce için uyarlanmış kurallar kullandığından, diğer dillerdeki metinleri doğru şekilde tokenize etmeyebilir. Örneğin, İngilizce olmayan dillerde özel karakterleri, aksanları veya dile özgü noktalama işaretlerini doğru şekilde işleyemeyebilir. Tokenizasyon genellikle her bir kelimeyi veya kelimenin bir kısmını ayrı bir token olarak ele alır. Bu, kelimeleri ayırmak için boşluk kullanan İngilizce ve diğer diller için iyi çalışır. Ancak, boşluk kullanmayan Japonca veya Çince gibi dillerde zorluklarla karşılaşılır. Bu dillerde, tek bir karakter bütün bir kelimeyi veya kavramı temsil edebilir ve bu karakterlerin dijital formda temsil edilmesi için genellikle İngilizce kelimelerden daha fazla bayt gerekir.

Örneğin, Japonca 'köpek' karakterini GPT modellerinde temsil etmek için üç belirteç gerekirken, İngilizce 'dog' kelimesi için bu sayı sadece birdir. Bu da Japonca metnin işlenmesinin eşdeğer İngilizce metnin işlenmesinden daha fazla belirteç gerektirdiği anlamına gelir (daha fazla ayrıntı için bu harika makale'ye göz atın).

Bu neden önemli? OpenAI, modellerinin kullanımı için token başına ücret almaktadır. Bu nedenle, Türkçe gibi İngilizce olmayan dilleri işlemek, İngilizceyi işlemekten önemli ölçüde daha pahalı olabilir. İngilizceyi kayıran ve diğer dilleri dezavantajlı hale getiren bu eşit olmayan tokenizasyon süreci, İngilizce olmayan diller için yapay zeka modellerini kullanmanın daha yüksek maliyetine katkıda bulunur.

Bu aynı zamanda, örneğin Türkçe metnini temsil etmek için daha fazla belirteç gerektiği anlamına gelir. Translaite, İngilizce olmayan istemleri İngilizceye çevirerek bu boşluğu doldurur ve verimli bir tokenizasyon sağlar.

Yapay Zekada Önyargılı Eğitim Verileri

ChatGPT-3, öncekiler gibi, büyük miktarda veri üzerinde eğitilmiştir. Bununla birlikte, eğitim materyalindeki dil dağılımı önemli bir endişe kaynağıdır. İngilizce, toplam karakterlerin %92,1'ini oluşturarak veri kümesine büyük ölçüde hakimdir. İkinci en yaygın dil olan Fransızca yalnızca %1,78'lik bir orana sahiptir ve onu %1,68 ile Almanca takip etmektedir. İspanyolca, İtalyanca ve Portekizce de öne çıkmaktadır, ancak her biri toplam karakterlerin %1'inden azını temsil etmektedir. Yaygın olarak konuşulan bir dil olan Japonca bile toplam karakterlerin yalnızca %0,16'sını oluşturmaktadır. Eğitim verilerinde İngilizcenin bu orantısız temsili, ChatGPT'nin performansını kaçınılmaz olarak İngilizceye doğru saptırmakta ve potansiyel olarak İngilizce olmayan görevlerdeki performansını etkilemektedir. Bu önyargı, YZ modellerinin farklı dillerde eşit performans göstermesini sağlamak için daha dengeli ve çeşitli eğitim verilerine duyulan ihtiyacın altını çizmektedir. ChatGPT-3 gibi YZ modellerindeki dil önyargısı çeşitli nedenlerden dolayı sorunlu olabilir

black_and_white.png

Performans Eşitsizliği Model, İngilizce görevlerde diğer dillere göre daha iyi performans gösterecektir. Bu, ana dili İngilizce olmayan kullanıcıların daha az etkili ve potansiyel olarak sinir bozucu bir deneyim yaşayacağı anlamına gelir.

Kültürel Önyargı Dil, kültürle yakından ilişkilidir. Öncelikle İngilizce metinler üzerinde eğitim veren model, istemeden de olsa İngilizce materyallere özgü önyargıları devam ettirebilir ve diğer dillerde mevcut kültürel nüansları anlamada veya bunlara saygı göstermede başarısız olabilir.

Erişilebilirlik ve Kapsayıcılık YZ, dilleri veya konumları ne olursa olsun insanlar için erişilebilir ve yararlı evrensel bir araç olma potansiyeline sahiptir. Ancak, İngilizceye yönelik bir önyargı bu potansiyeli sınırlamakta ve küresel nüfusun önemli bir bölümünü dışlamaktadır.

Yanlış Yorumlama ve İletişimsizlik Eğitim verilerinde yeterince temsil edilmeyen diller için model, metin girdilerini yanlış anlayabilir veya yanlış yorumlayabilir, bu da yanlış veya uygunsuz yanıtlara yol açabilir. Bu da kritik durumlarda iletişimsizliğe yol açabilir.

Etik Hususlar Etik açıdan bakıldığında, YZ sistemlerinin adil ve eşitlikçi olması önemlidir. Bir dile karşı diğerlerine göre önyargılı olan bir sistem, adalet ve temsil konusunda soru işaretleri doğurur.

Küresel Benimsemede Sınırlama Yapay zekanın gerçekten küresel olarak benimsenmesi ve etkili olması için tüm dilleri doğru bir şekilde anlaması ve üretmesi gerekir. Mevcut önyargı, İngilizce konuşulmayan bölgelerde veya uygulamalarda benimsenmesini sınırlayabilir.

Bu nedenle, eğitim verilerinde yalnızca dil açısından değil, aynı zamanda dilin taşıdığı kültürel, sosyal ve demografik yönler açısından da daha dengeli bir temsil için çalışmak çok önemlidir.

Performans Artışı

Jetonlama yanlılığına ve eğitim dengesizliklerine rağmen GPT modelleri Türkçe'da iyi performans gösterir. Talimatlarınızı anlayabilir, Türkçe dilinde akıcı ve doğal bir şekilde yanıt verebilir ve uygunsuz istekleri reddedebilirler. Ancak, yetersiz tokenizasyon nedeniyle Türkçe dilinde daha yavaştırlar. Translaite, istemleri İngilizceye çevirerek bu durumu hafifletir ve böylece performansı artırır.

Sonuç olarak, yapay zekada dil modellerinin kullanımı makine öğrenimi ve doğal dil işleme alanında devrim yaratmıştır. Ancak bu modellerin İngilizce dışındaki dillerde uygulanması, tokenizasyon önyargıları ve eğitim verisi dengesizlikleri nedeniyle zorluklarla karşılaşmıştır. Metni daha küçük birimlere ayırma işlemi olan tokenleştirme, Türkçe gibi farklı dil yapılarına sahip diller için sorunlu olabilir. Bu eşit olmayan tokenizasyon işlemi, İngilizce olmayan diller için İngilizceye kıyasla daha yüksek maliyetlere ve daha düşük performansa yol açar. Ayrıca, veri setinde İngilizce'nin baskın olduğu önyargılı eğitim verileri, İngilizce olmayan görevlerde yapay zeka modellerinin performansını etkiler ve kültürel önyargıları sürdürür.

all_inclusive.png

Bu sorunları ele almak için Translaite, İngilizce olmayan istemleri İngilizceye çevirerek bir çözüm sunar ve kullanıcıların kendi dillerinde gelişmiş YZ modelleriyle etkili bir şekilde etkileşime girmesine olanak tanır. Bu yaklaşım performansı artırmakta ve tokenizasyon önyargılarını azaltarak YZ'yi tüm dillerdeki kullanıcılar için daha erişilebilir, kapsayıcı ve eşitlikçi hale getirmektedir. Ayrıca, eğitim verilerinde yalnızca dil açısından değil, aynı zamanda kültürel ve demografik açıdan da dengeli temsilin önemini vurgulamaktadır. Daha çeşitli ve temsili bir eğitim verisi için çalışarak, YZ modellerinin küresel olarak adil ve etkili bir şekilde benimsenmesini sağlayabilir, Türkçe ve ötesindeki kullanıcılara fayda sağlayabiliriz.

Translaite](https://translaite.com)'in nasıl çalıştığını merak mı ediyorsunuz? Devam edin ve deneyin