Über Translaite

In der Welt der künstlichen Intelligenz haben Sprachmodelle für Furore gesorgt. Große Sprachmodelle (LLMs) wie OpenAI GPT haben in den Bereichen maschinelles Lernen und Verarbeitung natürlicher Sprache große Aufmerksamkeit erregt. Ihr Einsatz ist jedoch nicht auf Englisch beschränkt; sie können auch andere Sprachen verstehen und ausgeben. Dies ist jedoch mit einigen entscheidenden limitations verbunden.

Translaite wurde mit Blick auf nicht-englische Benutzer entwickelt. Es übersetzt zunächst nicht-englische Eingabeaufforderungen ins Englische, fordert OpenAI auf und übersetzt dann die Ausgabe zurück in die Eingabesprache. Dieser Prozess ermöglicht es den Nutzern, mit den fortschrittlichen KI-Modellen in ihrer Sprache zu interagieren, was sie zugänglicher und benutzerfreundlicher macht.


Warum Translaite?


Sprachtraining

ChatGPT-3 und wahrscheinlich auch sein Nachfolger wurden anhand einer großen Datenmenge trainiert. Ein großes Problem ist jedoch die Sprachverteilung im Trainingsmaterial. Englisch dominiert den Datensatz mit 92,1 % der gesamten Zeichen (siehe Training data). Die zweithäufigste Sprache, Französisch, macht nur 1,78 % aus, dicht gefolgt von Deutsch mit 1,68 %. Spanisch, Italienisch und Portugiesisch sind ebenfalls vertreten, machen aber jeweils weniger als 1 % der Gesamtzeichen aus. Selbst auf Japanisch, eine weit verbreitete Sprache, entfallen nur 0,16 % der gesamten Zeichen. Diese überproportionale Vertretung des Englischen in den Trainingsdaten führt unweigerlich zu einer Verzerrung der Leistung von ChatGPT-3 in Richtung Englisch, was sich möglicherweise auf seine Leistung bei nicht-englischen Aufgaben auswirkt.

Tokenisierung

Die Tokenisierung, der Prozess der Aufteilung des Eingabetextes in Teile oder Token, ist ein entscheidender Schritt in der Arbeitsweise von LLMs. Die GPT-Modelle können nicht-englischen Text verarbeiten, weil sie einen flexiblen Tokenizer, tiktoken, verwenden. Der Tokenisierungsprozess ist jedoch eher auf Englisch ausgerichtet, da mehr Token benötigt werden, um nicht-englischen Text darzustellen.

Bei der Tokenisierung wird oft jedes Wort oder jeder Teil eines Worts als ein separates Token behandelt. Dies funktioniert gut für Englisch und andere Sprachen, die Leerzeichen zur Trennung von Wörtern verwenden. Sprachen wie Japanisch oder Chinesisch, die keine Leerzeichen verwenden, stellen jedoch eine Herausforderung dar. In diesen Sprachen kann ein einziges Zeichen ein ganzes Wort oder ein ganzes Konzept darstellen, und diese Zeichen benötigen oft mehr Bytes als englische Wörter, um in digitaler Form dargestellt zu werden, was die Verwendung langsamer und teurer macht.

Verbesserung der Leistung

Trotz der Unausgewogenheit beim Training und der Verzerrung durch die Tokenisierung erbringen die GPT-Modelle gute Leistungen, z. B. im Japanischen. Sie können japanische Anweisungen verstehen, fließend und natürlich auf Japanisch antworten und unangemessene Anfragen zurückweisen. Allerdings sind sie im Japanischen langsamer, was auf die suboptimale Tokenisierung und den Mangel an Wissen aufgrund von weniger Trainingsmaterial zurückzuführen ist. Translaite schafft hier Abhilfe, indem es nicht-englische Aufforderungen ins Englische und die Antworten zurück in die Eingabesprache übersetzt und so die Leistung verbessert.

Translaite bietet erhebliche Vorteile, insbesondere für nicht-englische Benutzer. Es gewährleistet eine effiziente Tokenisierung, überwindet sprachliche Verzerrungen und verbessert die Leistung. Darüber hinaus macht es fortgeschrittene KI-Modelle zugänglicher und benutzerfreundlicher und fördert so eine integrativere KI-Umgebung.