Large Lanugage Modelsの翻訳

ChatGPTのようなGenerative AI Modelsがどのように英語バイアスを持つかについての小旅行である。

執筆者 stephens on 9 Aug 2023

アメージング・タイムズ

人工知能の世界では、言語モデルが大きな話題を呼んでいる。OpenAIのGPTファミリーのような大規模言語モデル(LLM)は、機械学習や自然言語処理のコミュニティで大きな注目を集めている。LLMは、日本語を含む他の言語も理解し、出力することができる。このブログ記事は、Translaiteのような生成AIプロンプト用アプリを使用する利点に焦点を当てることを目的としている。

Translaiteは、まず英語以外のプロンプトを(DeepLを介して)英語に翻訳し、OpenAIにプロンプトを出し、次に出力を入力言語に翻訳し直す。このプロセスにより、ユーザーは自分の言語で高度なAIモデルと関わることができ、よりアクセスしやすく、ユーザーフレンドリーになる。しかし、なぜこのようなことをしなければならないのだろうか?

言語モデルのためのトークン化を理解する

トークン化とは、入力テキストを断片やトークンに分割するプロセスのことで、LLMが機能する上で重要なステップである。GPTモデルは、柔軟なトークナイザーであるtiktokenを使用しているため、例えば日本語のテキストを処理することができる。tiktokenは、与えられたテキストに含まれるトークンの数をカウントするためのツールである。これはHugging FaceのTransformersライブラリと同じトークン化ルールを使っている。Transformersライブラリは主に英語のテキストを扱うように設計されている。

トークン化プロセスでは、テキストをより小さな単位(トークン)に分割する。このプロセスは言語に依存する。言語によって、単語や文の形成や構造のルールが異なるからだ。

tokenization.png

tiktokenは英語用に調整されたルールを使用しているため、他の言語のテキストを正確にトークン化できない場合がある。たとえば、英語以外の言語では、特殊文字やアクセント記号、言語固有の句読点が正しく処理されない可能性がある。トークン化は多くの場合、各単語または単語の一部を個別のトークンとして扱う。これは英語など、単語の区切りにスペースを使う言語ではうまく機能する。しかし、日本語や中国語のようにスペースを使わない言語では難しい問題がある。これらの言語では、1つの文字が単語や概念全体を表すことがあり、これらの文字をデジタル形式で表現するには、英語の単語よりも多くのバイトを必要とすることが多い。

例えば、日本語の「犬」という文字をGPTモデルで表現するには、英語の「dog」がわずか1トークンであるのに対し、3トークンを必要とする。つまり、日本語のテキストを処理するには、同等の英語のテキストを処理するよりも多くのトークンを必要とするということだ(詳しくは、この素晴らしい記事をチェックしてほしい)。

なぜこれが重要なのか?OpenAIは、トークンごとにモデルの使用料を請求する。したがって、日本語のような英語以外の言語の処理は、英語の処理よりもかなり高くつく可能性がある。この不平等なトークン化プロセスは、英語を優遇し、他の言語を不利にすることで、英語以外の言語のAIモデルの使用コストを高くする一因となっている。

これはまた、例えば日本語テキストを表現するために、より多くのトークンが必要になることを意味する。Translaiteは、英語以外のプロンプトを英語に翻訳することによってこのギャップを埋め、効率的なトークン化を保証する。

AIにおける偏った学習データ

ChatGPT-3は、その前身と同様、膨大な量のデータで学習された。しかし、重大な懸念は学習教材の言語分布である。データセット](https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_character_count.csv)では英語が圧倒的に多く、全文字数の92.1%を占めている。2番目に多いフランス語は1.78%に過ぎず、僅差でドイツ語が1.68%で続く。スペイン語、イタリア語、ポルトガル語も特徴的だが、いずれも総文字数の1%未満である。広く話されている日本語でさえ、全文字数の0.16%にすぎない。このように学習データに英語が偏っているため、ChatGPTの性能は必然的に英語に偏り、英語以外のタスクでの性能に影響を与える可能性がある。この偏りは、異なる言語間でAIモデルの公平な性能を保証するために、よりバランスの取れた多様な訓練データの必要性を強調している。ChatGPT-3のようなAIモデルの言語バイアスは、いくつかの理由で問題となる可能性がある。

black_and_white.png

性能格差 このモデルは英語のタスクにおいて、他の言語よりも優れた性能を発揮する。つまり、英語を母国語としないユーザーは、あまり効果的でなく、苛立たしい経験をする可能性がある。

文化的バイアス 言語は文化と密接に結びついている。主に英語のテキストでトレーニングすることで、モデルは意図せずに英語の教材に内在するバイアスを永続させ、他の言語に存在する文化的なニュアンスを理解したり尊重したりすることができないかもしれない。

アクセシビリティと包括性 AIは普遍的なツールであり、言語や場所に関係なく人々がアクセスでき、役に立つ可能性を秘めている。しかし、英語への偏見はこの可能性を制限し、世界人口のかなりの部分を排除している。

誤訳とミスコミュニケーション 学習データに十分に含まれていない言語の場合、モデルはテキスト入力を誤解したり、誤って解釈したりする可能性があり、誤った、あるいは不適切な回答につながる。これはまた、重要な状況でのミスコミュニケーションにつながる可能性がある。

倫理的考察 倫理的な観点からは、AIシステムが公平で公正であることが重要である。ある言語に偏ったシステムは、公平性や代表性に疑問を投げかけることになる。

グローバルな採用における制限* AIが真にグローバルに採用され、効果的であるためには、すべての言語を正確に理解し、生成する必要がある。現在の偏りは、英語を話さない地域やアプリケーションでの採用を制限するかもしれない。

したがって、言語という観点だけでなく、言語が持つ文化的、社会的、人口統計学的な側面からも、訓練データにおいてよりバランスの取れた表現を目指すことが極めて重要だ。

パフォーマンスの向上

トークン化の偏りやトレーニングの不均衡にもかかわらず、GPTモデルは日本語で良好なパフォーマンスを発揮する。GPTモデルはあなたの指示を理解し、流暢かつ自然に日本語で返答し、不適切なリクエストを拒否することができる。しかし、トークン化が最適でないため、日本語では遅くなる。Translaiteは、プロンプトを英語に翻訳することでこれを緩和し、パフォーマンスを向上させる。

結論として、人工知能における言語モデルの使用は、機械学習と自然言語処理の分野に革命をもたらした。しかし、英語以外の言語への適用は、トークン化のバイアスや学習データの不均衡による課題に直面してきた。トークン化(テキストをより小さな単位に分割するプロセス)は、言語構造が異なる日本語のような言語では問題になることがある。この不均等なトークン化プロセスは、英語以外の言語では英語と比較して高いコストと遅いパフォーマンスをもたらす。さらに、英語がデータセットを支配するという偏った学習データは、英語以外のタスクにおけるAIモデルの性能に影響を与え、文化的バイアスを永続させる。

all_inclusive.png

これらの問題に対処するため、Translaiteは、英語以外のプロンプトを英語に翻訳することで解決策を提供し、ユーザーが高度なAIモデルにその言語で効果的に関与できるようにする。このアプローチは、パフォーマンスを向上させ、トークン化のバイアスを軽減し、あらゆる言語のユーザーにとってAIをよりアクセスしやすく、包括的で公平なものにする。また、言語だけでなく、文化的、人口統計学的な側面からも、訓練データにおけるバランスの取れた表現の重要性を強調している。より多様で代表的なトレーニングデータを目指すことで、私たちはAIモデルの公平で効果的な採用をグローバルに保証することができ、日本語やそれ以外のユーザーにも利益をもたらすことができる。

Translaite](https://translaite.com)がどのように機能するのか興味がある?どうぞ[試してみる](https://translaite.com/chats/new)