Μετάφραση Large Language Models

Μια εκδρομή στο πώς τα Generative AI Models, όπως το ChatGPT%, έχουν μια αγγλική προκατάληψη

Συντάχθηκε απο τον stephens on 9 Aug 2023

Amazing Times

Στον κόσμο της τεχνητής νοημοσύνης, τα γλωσσικά μοντέλα έχουν κάνει θραύση. Τα μεγάλα γλωσσικά μοντέλα (LLM), όπως η οικογένεια GPT της OpenAI, έχουν συγκεντρώσει σημαντική προσοχή στις κοινότητες της μηχανικής μάθησης και της επεξεργασίας φυσικής γλώσσας. Ωστόσο, η χρήση τους δεν περιορίζεται στην αγγλική γλώσσα- μπορούν επίσης να κατανοούν και να δίνουν αποτελέσματα σε άλλες γλώσσες, συμπεριλαμβανομένης της ελληνικά. Αυτή η δημοσίευση στο ιστολόγιο έχει ως στόχο να αναδείξει τα οφέλη της χρήσης μιας εφαρμογής για γεννητικές προτροπές τεχνητής νοημοσύνης, όπως η Translaite.

Το Translaite μεταφράζει πρώτα μη-αγγλικές προτροπές στα αγγλικά (μέσω του DeepL, προτρέπει το OpenAI και στη συνέχεια μεταφράζει πίσω την έξοδο στη γλώσσα εισόδου. Αυτή η διαδικασία επιτρέπει στους χρήστες να ασχοληθούν με τα προηγμένα μοντέλα τεχνητής νοημοσύνης στη γλώσσα τους, καθιστώντας τα πιο προσιτά και φιλικά προς το χρήστη. Αλλά γιατί να το κάνει κανείς αυτό;

Κατανόηση του Tokenization για γλωσσικά μοντέλα

Το Tokenization, η διαδικασία διαχωρισμού του κειμένου εισόδου σε κομμάτια ή tokens, είναι ένα κρίσιμο βήμα για τον τρόπο λειτουργίας των LLM. Τα μοντέλα GPT μπορούν να επεξεργαστούν π.χ. ιαπωνικό κείμενο επειδή χρησιμοποιούν έναν ευέλικτο tokenizer, tiktoken. Το tiktoken είναι ένα εργαλείο που χρησιμοποιείται για την καταμέτρηση του αριθμού των tokens σε ένα δεδομένο κομμάτι κειμένου. Χρησιμοποιεί τους ίδιους κανόνες tokenization με τη βιβλιοθήκη Transformers της Hugging Face, η οποία έχει σχεδιαστεί κυρίως για να λειτουργεί με αγγλόφωνο κείμενο.

Η διαδικασία tokenization περιλαμβάνει τη διάσπαση ενός κομματιού κειμένου σε μικρότερες μονάδες ή tokens, τα οποία μπορεί να είναι μεμονωμένες λέξεις, φράσεις ή ακόμη και μεμονωμένοι χαρακτήρες. Αυτή η διαδικασία εξαρτάται από τη γλώσσα, καθώς οι διάφορες γλώσσες έχουν διαφορετικούς κανόνες για τον τρόπο σχηματισμού και δομής των λέξεων και των προτάσεων.

tokenization.png

Δεδομένου ότι το tiktoken χρησιμοποιεί κανόνες που είναι προσαρμοσμένοι για την αγγλική γλώσσα, ενδέχεται να μην μπορεί να προσδιορίσει με ακρίβεια tokenize κείμενο σε άλλες γλώσσες. Για παράδειγμα, ενδέχεται να μην χειρίζεται σωστά τους ειδικούς χαρακτήρες, τους τόνους ή τα ειδικά για τη γλώσσα σημεία στίξης σε μη αγγλικές γλώσσες. Η μαρκαρίωση συχνά αντιμετωπίζει κάθε λέξη ή μέρος μιας λέξης ως ξεχωριστό μαρκάρισμα. Αυτό λειτουργεί καλά για τα αγγλικά και άλλες γλώσσες που χρησιμοποιούν κενά για να διαχωρίζουν τις λέξεις. Ωστόσο, γλώσσες όπως η ιαπωνική ή η κινεζική, οι οποίες δεν χρησιμοποιούν κενά, αντιμετωπίζουν προκλήσεις. Σε αυτές τις γλώσσες, ένας μόνο χαρακτήρας μπορεί να αντιπροσωπεύει μια ολόκληρη λέξη ή έννοια, και αυτοί οι χαρακτήρες συχνά απαιτούν περισσότερα bytes για να αναπαρασταθούν σε ψηφιακή μορφή από ό,τι οι αγγλικές λέξεις.

Για παράδειγμα, ο ιαπωνικός χαρακτήρας για τη λέξη "σκύλος" απαιτεί τρία tokens για να αναπαρασταθεί σε μοντέλα GPT, σε σύγκριση με μόλις ένα token για την αγγλική λέξη "dog". Αυτό σημαίνει ότι η επεξεργασία ιαπωνικού κειμένου απαιτεί περισσότερα tokens από την επεξεργασία του αντίστοιχου αγγλικού κειμένου (δείτε αυτό το σπουδαίο άρθρο για περισσότερες λεπτομέρειες).

Γιατί έχει σημασία αυτό; Το OpenAI χρεώνει για τη χρήση των μοντέλων του ανά token. Ως εκ τούτου, η επεξεργασία μη αγγλικών γλωσσών όπως η ελληνικά μπορεί να είναι σημαντικά πιο ακριβή από την επεξεργασία της αγγλικής γλώσσας. Αυτή η άνιση διαδικασία tokenization, που ευνοεί τα αγγλικά και μειονεκτεί σε άλλες γλώσσες, συμβάλλει στο υψηλότερο κόστος χρήσης μοντέλων AI για μη αγγλικές γλώσσες.

Αυτό σημαίνει επίσης ότι, π.χ. χρειάζονται περισσότερα tokens για την αναπαράσταση του κειμένου ελληνικά. Το Translaite γεφυρώνει αυτό το κενό μεταφράζοντας τις μη αγγλικές προτροπές στα αγγλικά, εξασφαλίζοντας την αποδοτική tokenization.

Μεροληπτικά δεδομένα εκπαίδευσης στην τεχνητή νοημοσύνη

Το ChatGPT-3, όπως και οι προκάτοχοί του, εκπαιδεύτηκε σε έναν τεράστιο όγκο δεδομένων. Ωστόσο, ένα σημαντικό πρόβλημα είναι η κατανομή των γλωσσών στο υλικό εκπαίδευσης. Τα αγγλικά κυριαρχούν συντριπτικά στο σύνολο δεδομένων, αντιπροσωπεύοντας το 92,1% των συνολικών χαρακτήρων. Η δεύτερη πιο συνηθισμένη γλώσσα, τα γαλλικά, αποτελούν μόνο το 1,78%, ακολουθούμενη στενά από τα γερμανικά με 1,68%. Η ισπανική, η ιταλική και η πορτογαλική εμφανίζονται επίσης, αλλά η καθεμία αντιπροσωπεύει λιγότερο από το 1% του συνόλου των χαρακτήρων. Ακόμη και τα ιαπωνικά, μια ευρέως ομιλούμενη γλώσσα, αντιπροσωπεύουν μόνο το 0,16% των συνολικών χαρακτήρων. Αυτή η δυσανάλογη εκπροσώπηση των αγγλικών στα δεδομένα εκπαίδευσης μεροληπτεί αναπόφευκτα στην απόδοση του ChatGPT προς τα αγγλικά, επηρεάζοντας ενδεχομένως την απόδοσή του σε μη αγγλικές εργασίες. Αυτή η μεροληψία υπογραμμίζει την ανάγκη για πιο ισορροπημένα και ποικίλα δεδομένα εκπαίδευσης, ώστε να διασφαλίζεται η ισότιμη απόδοση των μοντέλων τεχνητής νοημοσύνης σε διάφορες γλώσσες. Η γλωσσική προκατάληψη σε μοντέλα τεχνητής νοημοσύνης όπως το ChatGPT-3 μπορεί να είναι προβληματική για διάφορους λόγους

black_and_white.png

Διαφορά επιδόσεων Το μοντέλο θα έχει καλύτερες επιδόσεις σε αγγλικές εργασίες από ό,τι σε άλλες γλώσσες. Αυτό σημαίνει ότι οι χρήστες που δεν μιλούν τα αγγλικά ως πρώτη γλώσσα θα έχουν μια λιγότερο αποτελεσματική και ενδεχομένως απογοητευτική εμπειρία.

Πολιτισμική μεροληψία Η γλώσσα είναι στενά συνδεδεμένη με τον πολιτισμό. Εκπαιδεύοντας κυρίως σε αγγλόφωνο κείμενο, το μοντέλο μπορεί να διαιωνίσει ακούσια προκαταλήψεις που είναι εγγενείς στο αγγλόφωνο υλικό και να μην κατανοήσει ή να μη σεβαστεί τις πολιτισμικές αποχρώσεις που υπάρχουν σε άλλες γλώσσες.

Προσβασιμότητα και συμμετοχικότητα Η τεχνητή νοημοσύνη έχει τη δυνατότητα να αποτελέσει ένα παγκόσμιο εργαλείο, προσβάσιμο και χρήσιμο για τους ανθρώπους ανεξάρτητα από τη γλώσσα ή τον τόπο διαμονής τους. Ωστόσο, η προκατάληψη της αγγλικής γλώσσας περιορίζει αυτό το δυναμικό και αποκλείει σημαντικό μέρος του παγκόσμιου πληθυσμού.

Απορρίψεις και παρερμηνείες Για γλώσσες που υποεκπροσωπούνται στα δεδομένα εκπαίδευσης, το μοντέλο μπορεί να παρεξηγήσει ή να παρερμηνεύσει τις εισόδους κειμένου, οδηγώντας σε λανθασμένες ή ακατάλληλες απαντήσεις. Αυτό μπορεί επίσης να οδηγήσει σε εσφαλμένη επικοινωνία σε κρίσιμες καταστάσεις.

Ηθικοί προβληματισμοί Από ηθική άποψη, είναι σημαντικό τα συστήματα τεχνητής νοημοσύνης να είναι δίκαια και ισότιμα. Ένα σύστημα που μεροληπτεί προς μια γλώσσα έναντι άλλων εγείρει ερωτήματα σχετικά με τη δικαιοσύνη και την εκπροσώπηση.

Όριο στην παγκόσμια υιοθέτηση Για να υιοθετηθεί η ΤΝ πραγματικά σε παγκόσμιο επίπεδο και να είναι αποτελεσματική, πρέπει να κατανοεί και να παράγει όλες τις γλώσσες με ακρίβεια. Η τρέχουσα προκατάληψη μπορεί να περιορίσει την υιοθέτησή της σε μη αγγλόφωνες περιοχές ή εφαρμογές.

Ως εκ τούτου, είναι ζωτικής σημασίας να εργαστούμε για μια πιο ισορροπημένη εκπροσώπηση στα δεδομένα εκπαίδευσης, όχι μόνο όσον αφορά τη γλώσσα, αλλά και όσον αφορά τις πολιτιστικές, κοινωνικές και δημογραφικές πτυχές που η γλώσσα φέρει μαζί της.

Ενίσχυση της απόδοσης

Παρά τη μεροληψία της μεροληψίας tokenization και τις ανισορροπίες στην εκπαίδευση, τα μοντέλα GPT αποδίδουν καλά στην ελληνικά. Μπορούν να κατανοήσουν τις οδηγίες σας, να απαντήσουν με ευχέρεια και φυσικότητα στη γλώσσα ελληνικά και να απορρίψουν ακατάλληλα αιτήματα. Ωστόσο, είναι πιο αργές στην ελληνικά λόγω της μη βέλτιστης κωδικοποίησης. Το Translaite μετριάζει αυτό το πρόβλημα μεταφράζοντας τις προτροπές στα αγγλικά, βελτιώνοντας έτσι την απόδοση.

Συμπερασματικά, η χρήση γλωσσικών μοντέλων στην τεχνητή νοημοσύνη έχει φέρει επανάσταση στον τομέα της μηχανικής μάθησης και της επεξεργασίας φυσικής γλώσσας. Ωστόσο, η εφαρμογή τους σε μη-αγγλικές γλώσσες έχει αντιμετωπίσει προκλήσεις λόγω μεροληψιών tokenization και ανισορροπίας των δεδομένων εκπαίδευσης. Η τοκενοποίηση, η διαδικασία διαχωρισμού του κειμένου σε μικρότερες μονάδες, μπορεί να είναι προβληματική για γλώσσες όπως η ελληνικά που έχουν διαφορετικές γλωσσικές δομές. Αυτή η άνιση διαδικασία tokenization οδηγεί σε υψηλότερο κόστος και βραδύτερη απόδοση για μη αγγλικές γλώσσες σε σύγκριση με την αγγλική γλώσσα. Επιπλέον, τα μεροληπτικά δεδομένα εκπαίδευσης, με τα αγγλικά να κυριαρχούν στο σύνολο δεδομένων, επηρεάζουν την απόδοση των μοντέλων τεχνητής νοημοσύνης σε μη αγγλικές εργασίες και διαιωνίζουν τις πολιτισμικές προκαταλήψεις.

all_inclusive.png

Για την αντιμετώπιση αυτών των ζητημάτων, το Translaite παρέχει μια λύση μεταφράζοντας μη αγγλικές προτροπές στα αγγλικά, επιτρέποντας στους χρήστες να εμπλέκονται αποτελεσματικά με προηγμένα μοντέλα τεχνητής νοημοσύνης στη γλώσσα τους. Αυτή η προσέγγιση βελτιώνει την απόδοση και μετριάζει τις προκαταλήψεις της μεροληψίας με χρήση συμβόλων, καθιστώντας την ΤΝ πιο προσιτή, περιεκτική και δίκαιη για τους χρήστες όλων των γλωσσών. Αναδεικνύει επίσης τη σημασία της ισορροπημένης εκπροσώπησης στα δεδομένα εκπαίδευσης, όχι μόνο όσον αφορά τη γλώσσα αλλά και τις πολιτιστικές και δημογραφικές πτυχές. Εργαζόμενοι προς την κατεύθυνση μιας πιο ποικιλόμορφης και αντιπροσωπευτικής κατάρτισης δεδομένων, μπορούμε να διασφαλίσουμε τη δίκαιη και αποτελεσματική υιοθέτηση των μοντέλων τεχνητής νοημοσύνης σε παγκόσμιο επίπεδο, προς όφελος των χρηστών στη ελληνικά και όχι μόνο.

Έχετε περιέργεια για το πώς λειτουργεί το Translaite; Προχωρήστε και δοκιμάστε το