Στον κόσμο της τεχνητής νοημοσύνης, τα γλωσσικά μοντέλα έχουν κάνει θραύση. Τα μεγάλα γλωσσικά μοντέλα (LLM), όπως το OpenAI GPT, έχουν συγκεντρώσει σημαντική προσοχή στις κοινότητες της μηχανικής μάθησης και της επεξεργασίας φυσικής γλώσσας. Ωστόσο, η χρήση τους δεν περιορίζεται στα αγγλικά- μπορούν επίσης να κατανοήσουν και να δώσουν αποτελέσματα σε άλλες γλώσσες. Ωστόσο, αυτό συνοδεύεται από ορισμένα κρίσιμα limitations.
Το Translaite έχει φτιαχτεί με γνώμονα τους μη αγγλικούς χρήστες. Πρώτα μεταφράζει τις μη αγγλικές προτροπές στα αγγλικά, προτρέπει OpenAI, και στη συνέχεια μεταφράζει πίσω την έξοδο στη γλώσσα εισόδου. Αυτή η διαδικασία επιτρέπει στους χρήστες να ασχοληθούν με τα προηγμένα μοντέλα τεχνητής νοημοσύνης στη γλώσσα τους, καθιστώντας τα πιο προσιτά και φιλικά προς το χρήστη.
Το ChatGPT-3, και πιθανότατα ο διάδοχός του, εκπαιδεύτηκε σε έναν τεράστιο όγκο δεδομένων. Ωστόσο, μια σημαντική ανησυχία είναι η γλωσσική κατανομή στο υλικό εκπαίδευσης. Τα αγγλικά κυριαρχούν συντριπτικά στο σύνολο δεδομένων, αντιπροσωπεύοντας το 92,1% των συνολικών χαρακτήρων (βλέπε Training data). Η δεύτερη πιο συνηθισμένη γλώσσα, τα γαλλικά, αποτελούν μόνο το 1,78%, ακολουθούμενη στενά από τα γερμανικά με 1,68%. Η ισπανική, η ιταλική και η πορτογαλική εμφανίζονται επίσης, αλλά η καθεμία αντιπροσωπεύει λιγότερο από το 1% του συνόλου των χαρακτήρων. Ακόμη και τα ιαπωνικά, μια ευρέως ομιλούμενη γλώσσα, αντιπροσωπεύουν μόνο το 0,16% των συνολικών χαρακτήρων. Αυτή η δυσανάλογη εκπροσώπηση των αγγλικών στα δεδομένα εκπαίδευσης μεροληπτεί αναπόφευκτα στην απόδοση του ChatGPT-3 προς τα αγγλικά, επηρεάζοντας ενδεχομένως την απόδοσή του σε μη αγγλικές εργασίες.
Η τοκενοποίηση, η διαδικασία διαχωρισμού του κειμένου εισόδου σε κομμάτια ή tokens, είναι ένα κρίσιμο βήμα στον τρόπο λειτουργίας των LLM. Τα μοντέλα GPT μπορούν να επεξεργαστούν μη αγγλικό κείμενο επειδή χρησιμοποιούν έναν ευέλικτο tokenizer, το tiktoken. Ωστόσο, η διαδικασία tokenization είναι προκατειλημμένη προς τα αγγλικά, επειδή χρειάζονται περισσότερα tokens για την αναπαράσταση μη αγγλικού κειμένου.
Η τοκενοποίηση συχνά αντιμετωπίζει κάθε λέξη ή μέρος μιας λέξης ως ξεχωριστό token. Αυτό λειτουργεί καλά για τα αγγλικά και άλλες γλώσσες που χρησιμοποιούν κενά για να διαχωρίζουν τις λέξεις. Ωστόσο, γλώσσες όπως τα ιαπωνικά ή τα κινεζικά, που δεν χρησιμοποιούν κενά, αντιμετωπίζουν προκλήσεις. Σε αυτές τις γλώσσες, ένας μόνο χαρακτήρας μπορεί να αντιπροσωπεύει μια ολόκληρη λέξη ή έννοια, και αυτοί οι χαρακτήρες συχνά απαιτούν περισσότερα bytes για να αναπαρασταθούν σε ψηφιακή μορφή από ό,τι οι αγγλικές λέξεις, καθιστώντας τη χρήση πιο αργή και ακριβή.
Παρά τις ανισορροπίες στην εκπαίδευση και την προκατάληψη του tokenization, τα μοντέλα GPT αποδίδουν καλά π.χ. στα ιαπωνικά. Μπορούν να κατανοούν ιαπωνικές οδηγίες, να απαντούν στα ιαπωνικά με ευχέρεια και φυσικότητα και να απορρίπτουν ακατάλληλα αιτήματα. Ωστόσο, είναι πιο αργά στα ιαπωνικά λόγω της μη βέλτιστης συμβολικοποίησης και της έλλειψης γνώσεων λόγω του λιγότερου εκπαιδευτικού υλικού. Το Translaite μετριάζει αυτό το πρόβλημα μεταφράζοντας μη αγγλικές προτροπές στα αγγλικά και την απάντηση πίσω στη γλώσσα εισόδου, βελτιώνοντας έτσι την απόδοση.
Το Translaite προσφέρει σημαντικά οφέλη, ιδίως για μη αγγλόφωνους χρήστες. Εξασφαλίζει αποτελεσματική κωδικοποίηση, ξεπερνά τη γλωσσική προκατάληψη και βελτιώνει τις επιδόσεις. Επιπλέον, καθιστά τα προηγμένα μοντέλα τεχνητής νοημοσύνης πιο προσιτά και φιλικά προς τον χρήστη, προωθώντας ένα πιο περιεκτικό περιβάλλον τεχνητής νοημοσύνης.