놀라운 시간
인공 지능의 세계에서 언어 모델은 큰 주목을 받고 있습니다. OpenAI의 GPT 제품군과 같은 대규모 언어 모델(LLM)은 머신러닝 및 자연어 처리 커뮤니티에서 상당한 주목을 받고 있습니다. 그러나 이러한 언어 모델은 영어에만 국한되지 않고 한국어를 포함한 다른 언어도 이해하고 출력할 수 있습니다. 이 블로그 게시물은 Translaite와 같은 생성형 AI 프롬프트에 앱을 사용할 때의 이점을 강조하는 것을 목표로 합니다.
트랜스레이트는 먼저 DeepL를 통해 영어가 아닌 프롬프트를 영어로 번역하고, OpenAI를 통해 프롬프트한 다음, 출력을 다시 입력 언어로 번역합니다. 이 과정을 통해 사용자는 자신의 언어로 고급 AI 모델에 참여할 수 있으므로 접근성과 사용자 친화성이 향상됩니다. 하지만 왜 이렇게 해야 할까요?
언어 모델을 위한 토큰화 이해하기
입력 텍스트를 조각이나 토큰으로 분할하는 과정인 토큰화는 언어 모델 작동 방식에서 중요한 단계입니다. GPT 모델은 유연한 토큰화 도구인 틱토큰을 사용하기 때문에 예를 들어 일본어 텍스트를 처리할 수 있습니다. 틱토큰은 주어진 텍스트에서 토큰의 개수를 계산하는 데 사용되는 도구입니다. 주로 영어 텍스트로 작동하도록 설계된 Hugging Face의 트랜스포머 라이브러리와 동일한 토큰화 규칙을 사용합니다.
토큰화 프로세스에는 텍스트 조각을 개별 단어, 구문 또는 단일 문자가 될 수 있는 작은 단위, 즉 토큰으로 분할하는 작업이 포함됩니다. 이 프로세스는 언어마다 단어와 문장이 형성되고 구조화되는 방식에 대한 규칙이 다르기 때문에 언어에 따라 달라집니다.
틱토큰은 영어에 맞춰진 규칙을 사용하기 때문에 다른 언어의 텍스트를 정확하게 토큰화하지 못할 수 있습니다. 예를 들어, 영어가 아닌 언어의 특수 문자, 악센트 또는 언어별 구두점을 올바르게 처리하지 못할 수 있습니다. 토큰화는 종종 각 단어 또는 단어의 일부를 별도의 토큰으로 취급합니다. 이는 공백을 사용하여 단어를 구분하는 영어 및 기타 언어에서 잘 작동합니다. 하지만 공백을 사용하지 않는 일본어나 중국어 같은 언어에서는 문제가 발생합니다. 이러한 언어에서는 단일 문자가 전체 단어나 개념을 나타낼 수 있으며, 이러한 문자는 영어 단어보다 디지털 형식으로 표현하는 데 더 많은 바이트가 필요한 경우가 많습니다.
예를 들어, '개'를 나타내는 일본어 문자는 GPT 모델에서 표현하는 데 3개의 토큰이 필요한 반면, 영어 단어 'dog'은 1개의 토큰만 필요합니다. 즉, 일본어 텍스트를 처리하는 데는 동일한 영어 텍스트를 처리하는 것보다 더 많은 토큰이 필요합니다(자세한 내용은 이 훌륭한 기사를 참조하세요).
이것이 왜 중요할까요? OpenAI는 토큰당 모델 사용료를 부과합니다. 따라서 한국어와 같은 비영어권 언어를 처리하는 것이 영어를 처리하는 것보다 훨씬 더 비쌀 수 있습니다. 영어에 유리하고 다른 언어에 불리한 이러한 불평등한 토큰화 프로세스는 비영어권 언어에 대한 AI 모델 사용 비용을 높이는 원인이 됩니다.
이는 또한 예를 들어 한국어 텍스트를 표현하는 데 더 많은 토큰이 필요하다는 것을 의미합니다. 트랜스라이트는 비영어 프롬프트를 영어로 번역하여 효율적인 토큰화를 보장함으로써 이러한 격차를 해소합니다.
AI의 편향된 학습 데이터
ChatGPT-3는 이전 버전과 마찬가지로 방대한 양의 데이터로 학습되었습니다. 그러나 중요한 문제는 학습 자료의 언어 분포입니다. 데이터셋은 영어가 전체 문자의 92.1%를 차지할 정도로 압도적으로 많습니다. 두 번째로 많이 사용되는 언어인 프랑스어는 1.78%에 불과하며, 독일어가 1.68%로 그 뒤를 잇고 있습니다. 스페인어, 이탈리아어, 포르투갈어도 등장하지만 각각 전체 문자의 1% 미만을 차지합니다. 널리 사용되는 언어인 일본어조차도 전체 문자의 0.16%에 불과합니다. 이처럼 훈련 데이터에 영어가 불균형하게 포함되어 있기 때문에 ChatGPT의 성능이 영어에 편향될 수밖에 없으며, 이는 비영어 작업에서의 성능에 영향을 미칠 수 있습니다. 이러한 편향성은 다양한 언어에 걸쳐 AI 모델의 공평한 성능을 보장하기 위해 보다 균형 잡히고 다양한 학습 데이터가 필요하다는 점을 강조합니다. ChatGPT-3과 같은 AI 모델의 언어 편향성은 다음과 같은 몇 가지 이유로 문제가 될 수 있습니다.
성능 격차 이 모델은 다른 언어보다 영어 작업에서 더 나은 성능을 발휘합니다. 즉, 영어를 모국어로 사용하지 않는 사용자는 덜 효과적이고 잠재적으로 실망스러운 경험을 하게 될 것입니다.
문화적 편향성 언어는 문화와 밀접하게 연관되어 있습니다. 영어 텍스트를 주로 학습하는 모델은 의도치 않게 영어 자료에 내재된 편견을 지속시키고 다른 언어에 존재하는 문화적 뉘앙스를 이해하거나 존중하지 못할 수 있습니다.
접근성 및 포용성 AI는 언어나 위치에 관계없이 모든 사람이 접근하고 유용하게 사용할 수 있는 보편적인 도구가 될 수 있는 잠재력을 가지고 있습니다. 그러나 영어에 대한 편견은 이러한 잠재력을 제한하고 전 세계 인구의 상당 부분을 배제합니다.
오해 및 잘못된 의사소통 학습 데이터에 제대로 표현되지 않은 언어의 경우, 모델이 텍스트 입력을 잘못 이해하거나 잘못 해석하여 부정확하거나 부적절한 응답을 할 수 있습니다. 이는 또한 중요한 상황에서 잘못된 의사소통으로 이어질 수 있습니다.
윤리적 고려 사항 윤리적 관점에서는 AI 시스템이 공정하고 공평해야 한다는 점이 중요합니다. 특정 언어에 편향된 시스템은 공정성과 대표성에 의문을 제기할 수 있습니다.
글로벌 채택의 한계 AI가 진정으로 전 세계적으로 채택되고 효과적이 되려면 모든 언어를 정확하게 이해하고 생성할 수 있어야 합니다. 현재의 편향성은 비영어권 지역이나 애플리케이션에서 AI의 채택을 제한할 수 있습니다.
따라서 언어뿐만 아니라 언어에 내포된 문화적, 사회적, 인구통계학적 측면을 고려하여 학습 데이터에 보다 균형 잡힌 표현이 가능하도록 노력하는 것이 중요합니다.
성능 향상
토큰화 편향과 학습 불균형에도 불구하고, GPT 모델은 한국어에서 우수한 성능을 발휘합니다. 사용자의 지시를 이해하고, 유창하고 자연스럽게 한국어로 대답하며, 부적절한 요청을 거부할 수 있습니다. 그러나 최적의 토큰화가 이루어지지 않아 한국어에서는 속도가 느립니다. 트랜스라이트는 프롬프트를 영어로 번역하여 성능을 향상시킴으로써 이 문제를 완화합니다.
결론적으로, 인공 지능에서 언어 모델을 사용하는 것은 기계 학습 및 자연어 처리 분야에 혁명을 일으켰습니다. 그러나 비영어권 언어에서의 적용은 토큰화 편향과 학습 데이터 불균형으로 인해 어려움을 겪어 왔습니다. 텍스트를 더 작은 단위로 쪼개는 과정인 토큰화는 언어 구조가 다른 한국어와 같은 언어에서 문제가 될 수 있습니다. 이러한 불균등한 토큰화 프로세스는 영어에 비해 비영어권 언어의 경우 더 높은 비용과 느린 성능으로 이어집니다. 또한 영어가 데이터셋을 지배하는 편향된 학습 데이터는 비영어 작업에서 AI 모델의 성능에 영향을 미치고 문화적 편견을 지속시킵니다.
이러한 문제를 해결하기 위해 트랜스라이트는 영어가 아닌 프롬프트를 영어로 번역하여 사용자가 자신의 언어로 고급 AI 모델과 효과적으로 소통할 수 있도록 하는 솔루션을 제공합니다. 이 접근 방식은 성능을 향상시키고 토큰화 편향을 완화하여 모든 언어의 사용자가 AI에 더 쉽게 접근하고 포용적이며 공평하게 사용할 수 있도록 합니다. 또한 언어뿐만 아니라 문화적, 인구통계학적 측면에서도 학습 데이터의 균형 잡힌 표현이 중요하다는 점을 강조합니다. 보다 다양하고 대표성을 갖춘 학습 데이터를 확보함으로써 전 세계적으로 공정하고 효과적인 AI 모델 채택을 보장하여 한국어 및 그 밖의 언어권 사용자에게 혜택을 제공할 수 있습니다.