人工知能の世界では、言語モデルが大きな話題を呼んでいる。OpenAI GPT」に代表される大規模言語モデル(LLM)は、機械学習や自然言語処理のコミュニティで大きな注目を集めている。しかし、その用途は英語に限定されるものではなく、他の言語を理解し出力することもできる。しかし、これには「limitations」という重大な問題がある。
Translaite は、英語以外のユーザーを念頭に置いて作られている。まず、英語以外のプロンプトを英語に翻訳し、「OpenAI」とプロンプトを出し、その出力を入力言語に翻訳し直します。このプロセスにより、ユーザーは自分の言語で高度なAIモデルと関わることができ、よりアクセスしやすく、ユーザーフレンドリーになる。
ChatGPT-3、そしておそらくその後継モデルは、膨大な量のデータで学習された。しかし、重大な懸念は学習教材の言語分布である。英語はデータセットを圧倒的に支配しており、総文字数の92.1%を占めています(Training data参照)。2番目に多いフランス語は1.78%に過ぎず、僅差でドイツ語が1.68%で続く。スペイン語、イタリア語、ポルトガル語も特徴的ですが、いずれも全文字数の1%未満です。広く話されている日本語でさえ、全文字数の0.16%に過ぎない。このように、学習データにおける英語の割合が不均衡であるため、必然的に「ChatGPT-3」の性能は英語に偏り、英語以外のタスクにおける性能に影響を与える可能性があります。
トークン化(入力テキストを断片またはトークンに分割するプロセス)は、LLMがどのように機能するかにおける重要なステップです。GPTモデルは柔軟なトークナイザーであるtiktokenを使用しているため、非英語テキストを処理することができます。しかし、トークン化プロセスは英語に偏っており、非英語テキストを表現するためにはより多くのトークンが必要になるからです。
トークン化は多くの場合、各単語または単語の一部を個別のトークンとして扱います。これは英語など、単語の区切りにスペースを使う言語ではうまく機能する。しかし、日本語や中国語のようにスペースを使わない言語では難しい問題がある。これらの言語では、1つの文字が単語や概念全体を表すことがあり、これらの文字をデジタル形式で表現するには、英語の単語よりも多くのバイトを必要とすることが多いため、使用速度が遅くなり、コストも高くなる。
トレーニングの不均衡やトークン化の偏りにもかかわらず、「GPT」モデルは例えば日本語で良好なパフォーマンスを発揮する。日本語の指示を理解し、流暢かつ自然に日本語で返答し、不適切な要求を拒否することができる。しかし、日本語では、最適でないトークン化と、学習材料が少ないことによる知識不足のため、動作が遅くなります。Translaite は、英語以外のプロンプトを英語に翻訳し、応答を入力言語に戻すことで、この問題を緩和し、パフォーマンスを向上させる。
Translaite は、特に非英語圏のユーザーにとって大きなメリットがある。効率的なトークン化を保証し、言語バイアスを克服し、パフォーマンスを向上させる。さらに、高度なAIモデルをより利用しやすく、ユーザーフレンドリーにし、より包括的なAI環境を育成します。