Ένα μεγάλο γλωσσικό μοντέλο (LLM - Large Language Model) είναι ένα γλωσσικό μοντέλο που αποτελείται από ένα νευρωνικό δίκτυο με πολλές παραμέτρους (συνήθως δισεκατομμύρια σταθμά ή και περισσότερα), το οποίο εκπαιδεύεται σε μεγάλες ποσότητες κειμένου που δεν έχει επισημανθεί με ετικέτες χρησιμοποιώντας αυτοεπιβλεπόμενη μάθηση. Τα LLM εμφανίστηκαν γύρω στο 2018 και αποδίδουν καλά σε μια μεγάλη ποικιλία εργασιών. Αυτό έχει μετατοπίσει το επίκεντρο της έρευνας για την επεξεργασία φυσικής γλώσσας από το προηγούμενο πρότυπο της εκπαίδευσης εξειδικευμένων εποπτευόμενων μοντέλων για συγκεκριμένες εργασίες..
Ιδιότητες
Αν και ο όρος μεγάλο γλωσσικό μοντέλο δεν έχει επίσημο ορισμό, συχνά αναφέρεται σε μοντέλα βαθιάς μάθησης με αριθμό παραμέτρων της τάξης των δισεκατομμυρίων ή και περισσότερων. Τα LLM είναι μοντέλα γενικού σκοπού τα οποία διακρίνονται σε ένα ευρύ φάσμα εργασιών, σε αντίθεση με το να εκπαιδεύονται για μια συγκεκριμένη εργασία (όπως η ανάλυση συναισθημάτων, η αναγνώριση ονομαστικών οντοτήτων ή η μαθηματική λογική). [1] Η ικανότητα με την οποία επιτελούν εργασίες και το εύρος των εργασιών στις οποίες είναι ικανά, φαίνεται να είναι συνάρτηση της ποσότητας των πόρων (δεδομένα, μέγεθος παραμέτρων, υπολογιστική ισχύς) που τους αφιερώνεται, με τρόπο που δεν εξαρτάται από πρόσθετες καινοτομίες στον σχεδιασμό. [2]
Αν και εκπαιδεύονται σε απλές εργασίες όπως η πρόβλεψη της επόμενης λέξης σε μια πρόταση, τα νευρωνικά γλωσσικά μοντέλα με επαρκή εκπαίδευση και αριθμό παραμέτρων βρέθηκαν να συλλαμβάνουν μεγάλο μέρος της σύνταξης και της σημασιολογίας της ανθρώπινης γλώσσας. Επιπλέον, τα μεγάλα γλωσσικά μοντέλα επιδεικνύουν σημαντική γενική γνώση για τον κόσμο και είναι σε θέση να «απομνημονεύουν» μεγάλο αριθμό γεγονότων κατά τη διάρκεια της εκπαίδευσης. Έχει παρατηρηθεί ότι τα LLM ισχυρίζονται με αυτοπεποίθηση ισχυρισμούς γεγονότων που δεν φαίνεται να δικαιολογούνται από τα δεδομένα εκπαίδευσής τους, ένα φαινόμενο που έχει ονομαστεί «ψευδαίσθηση». [3]
Αναδυόμενες ικανότητες
Ενώ γενικά οι επιδόσεις των μεγάλων μοντέλων σε διάφορες εργασίες μπορούν να εξαχθούν με βάση τις επιδόσεις παρόμοιων μικρότερων μοντέλων, μερικές φορές τα μεγάλα μοντέλα υφίστανται μια «ασυνεχή αλλαγή φάσης» όπου το μοντέλο αποκτά ξαφνικά σημαντικές ικανότητες που δεν παρατηρούνται στα μικρότερα μοντέλα. Αυτές είναι γνωστές ως «αναδυόμενες ικανότητες» και έχουν αποτελέσει αντικείμενο ουσιαστικής μελέτης. Οι ερευνητές σημειώνουν ότι τέτοιες ικανότητες «δεν μπορούν να προβλεφθούν απλά με την αναγωγή των επιδόσεων των μικρότερων μοντέλων». [1] Αυτές οι ικανότητες μάλλον ανακαλύπτονται παρά προγραμματίζονται ή σχεδιάζονται, σε ορισμένες περιπτώσεις μόνο αφού το LLM έχει αναπτυχθεί και διατεθεί στο ευρύ κοινό. [2] Έχουν περιγραφεί εκατοντάδες αναδυόμενες ικανότητες. Παραδείγματα περιλαμβάνουν την αριθμητική πολλών βημάτων, τη συμμετοχή σε εξετάσεις πανεπιστημιακού επιπέδου, τον εντοπισμό του επιδιωκόμενου νοήματος μιας λέξης, [1] την αλυσιδωτή προτροπή σκέψης, [1] την αποκωδικοποίηση του διεθνούς φωνητικού αλφαβήτου, την αποκρυπτογράφηση των γραμμάτων μιας λέξης, τον εντοπισμό προσβλητικού περιεχομένου σε παραγράφους των Hinglish (συνδυασμός των Χίντι και των Αγγλικών) και τη δημιουργία ενός παρόμοιου αγγλικού ισοδύναμου παροιμιών στα Κισουαχίλι . [4]
Αρχιτεκτονική και εκπαίδευση
Τα μεγάλα γλωσσικά μοντέλα έχουν χρησιμοποιήσει συνηθέστερα την αρχιτεκτονική μετασχηματιστή, η οποία, ήδη από το 2018, έχει γίνει η τυπική τεχνική βαθιάς μάθησης για σειριακά δεδομένα (προηγουμένως, πιο συνηθισμένες ήταν οι αναδρομικές αρχιτεκτονικές, όπως η LSTM). Τα LLM εκπαιδεύονται με μη επιβλεπόμενο τρόπο σε κείμενο που δεν έχει υποσημειωθεί με ετικέτες (unannotated text). Ένας μετασχηματιστής από την αριστερή προς τη δεξιά πλευρά εκπαιδεύεται για να μεγιστοποιήσει την πιθανότητα που αποδίδεται στην επόμενη λέξη στα δεδομένα με βάση τα οποία εκπαιδεύτηκε, λαμβάνοντας υπόψη τα προγενέστερα συμφραζόμενα. [5] Εναλλακτικά, ένα LLM μπορεί να χρησιμοποιήσει έναν αμφίδρομο μετασχηματιστή (όπως στο παράδειγμα του BERT), ο οποίος αναθέτει μια κατανομή πιθανότητας στις λέξεις, δεδομένης της πρόσβασης τόσο στα προηγούμενα όσο και στα επόμενα συμφραζόμενα. Εκτός από το αντικείμενο της πρόβλεψης της επόμενης λέξης ή της «συμπλήρωσης των κενών», τα LLM μπορούν να εκπαιδευτούν σε βοηθητικές εργασίες που δοκιμάζουν την κατανόηση της κατανομής των δεδομένων, όπως η πρόβλεψη επόμενης πρότασης (NSP Next Sentence Prediction), στην οποία παρουσιάζονται ζεύγη προτάσεων και το μοντέλο πρέπει να προβλέψει αν εμφανίζονται δίπλα-δίπλα στο σώμα δεδομένων εκπαίδευσης.
Τα πρώτα LLM εκπαιδεύτηκαν σε σώματα κειμένων που είχαν δισεκατομμύρια λέξεις. Το πρώτο μοντέλο της σειράς GPT της OpenAI εκπαιδεύτηκε το 2018 στο BookCorpus, το οποίο αποτελούνταν από 985 εκατομμύρια λέξεις. [6] Την ίδια χρονιά, το BERT εκπαιδεύτηκε με έναν συνδυασμό του BookCorpus και της αγγλικής Wikipedia, συνολικής έκτασης 3,3 δισεκατομμυρίων λέξεων. Έκτοτε, τα σώματα κειμένων εκπαίδευσης για τα LLM έχουν αυξηθεί κατά τάξεις μεγέθους, φτάνοντας μέχρι και εκατοντάδες δισεκατομμύρια ή τρισεκατομμύρια λεκτικές μονάδες (tokens).
Η εκπαίδευση των LLM είναι πολύ δαπανηρή από υπολογιστική άποψη. Μια μελέτη του 2020 υπολόγισε το κόστος εκπαίδευσης ενός μοντέλου με 1,5 δισεκατομμύρια παραμέτρους (2 τάξεις μεγέθους μικρότερο από την τότε σύγχρονη τεχνολογία) σε 1,6 εκατομμύρια δολάρια. Οι εξελίξεις στο λογισμικό και το υλικό μείωσαν σημαντικά το κόστος, ενώ μια μελέτη του 2023 αναφέρει κόστος εκατοντάδων χιλιάδων δολαρίων για την εκπαίδευση ενός μοντέλου 12 δισεκατομμυρίων παραμέτρων. [7]
Μια μελέτη του 2020 διαπίστωσε ότι η ικανότητα των νευρωνικών γλωσσικών μοντέλων (όπως μετράται από την σχέση απώλειας) αυξάνεται ομαλά σε μια σχέση κατανομής δύναμης με τον αριθμό των παραμέτρων, την ποσότητα των δεδομένων εκπαίδευσης και τους υπολογισμούς που χρησιμοποιούνται για την εκπαίδευση. Οι σχέσεις αυτές δοκιμάστηκαν σε ένα ευρύ φάσμα τιμών (έως και επτά τάξεις μεγέθους), και δεν παρατηρήθηκε εξασθένηση της σχέσης στο υψηλότερο άκρο του εύρους (συμπεριλαμβανομένων των μεγεθών δικτύων έως και τρισεκατομμυρίων παραμέτρων).
Εφαρμογή σε εργασίες downstream
Μεταξύ 2018 και 2020, η συνήθης μέθοδος για την αξιοποίηση ενός LLM για μια συγκεκριμένη εργασία επεξεργασίας φυσικής γλώσσας (NLP) ήταν η λεπτομερής ρύθμιση του μοντέλου με πρόσθετη εκπαίδευση ειδικά για την εκάστοτε εργασία. Στη συνέχεια διαπιστώθηκε ότι πιο ισχυρά LLM, όπως το GPT-3, μπορούν να επιλύουν εργασίες χωρίς πρόσθετη εκπαίδευση μέσω τεχνικών «προτροπής», κατά τις οποίες το πρόβλημα που πρέπει να επιλυθεί παρουσιάζεται στο μοντέλο ως πρόταση κειμένου (text prompt), ενδεχομένως με κάποια παραδείγματα κειμένου παρόμοιων προβλημάτων και των λύσεών τους.
Mικρορυθμίσεις
Η λεπτομερής ρύθμιση είναι η πρακτική της τροποποίησης ενός υπάρχοντος προ-εκπαιδευμένου γλωσσικού μοντέλου με την εκπαίδευσή του (με επίβλεψη) σε μια συγκεκριμένη εργασία (π.χ. ανάλυση συναισθήματος, αναγνώριση ονομαστικών οντοτήτων ή επισήμανση μέρους του λόγου). Είναι μια μορφή μάθησης μεταφοράς. Γενικά περιλαμβάνει την εισαγωγή ενός νέου συνόλου συντελεστών βαρύτητας που συνδέουν το τελικό επίπεδο του γλωσσικού μοντέλου με την έξοδο της επόμενης εργασίας. Οι αρχικοί συντελεστές βαρύτητας του γλωσσικού μοντέλου μπορεί να είναι «παγωμένοι», έτσι ώστε μόνο οι νέοι συντελεστές βαρύτητας που τους συνδέουν με την έξοδο να μαθαίνονται κατά τη διάρκεια της εκπαίδευσης. Εναλλακτικά, οι αρχικοί συντελεστές βαρύτητας μπορεί να λαμβάνουν μικρές ενημερώσεις (ενδεχομένως με παγωμένα τα προηγούμενα στρώματα).
Προτροπή
Στο παράδειγμα της προτροπής, που έγινε γνωστό από το GPT-3, [1]το πρόβλημα που πρέπει να επιλυθεί διατυπώνεται μέσω μιας προτροπής κειμένου, την οποία το μοντέλο πρέπει να επιλύσει παρέχοντας μια ολοκληρωμένη λύση (μέσω εξαγωγής συμπερασμάτων). Στην «προτροπή με λίγα βήματα» (few-shot prompting), η προτροπή περιλαμβάνει ένα μικρό αριθμό παραδειγμάτων παρόμοιων ζευγών («προβλήματος και λύσης»). Για παράδειγμα, μια εργασία ανάλυσης συναισθήματος για τον χαρακτηρισμό του συναισθήματος μιας κριτικής ταινίας θα μπορούσε να ζητηθεί ως εξής: [1]
Προς εξέταση: Αυτή η ταινία είναι χάλια.
Συναίσθημα: αρνητικό
Προς εξέταση: Αυτή η ταινία είναι φανταστική!
Συναίσθημα: θετικό
Εάν το μοντέλο δώσει την ένδειξη «θετικό», τότε έχει επιλύσει σωστά την εργασία. Στη μηδενική προτροπή, δεν παρέχονται παραδείγματα επίλυσης. Ένα παράδειγμα μιας προτροπής με μηδενικό αποτέλεσμα για την ίδια εργασία ανάλυσης συναισθήματος θα ήταν: «Το συναίσθημα που σχετίζεται με την κριτική της ταινίας "Αυτή η ταινία είναι φανταστική!" είναι».
Έχει αποδειχθεί ότι οι επιδόσεις των LLMs με λίγες κινήσεις επιτυγχάνουν ανταγωνιστικά αποτελέσματα σε εργασίες εργασίες επεξεργασίας φυσικής γλώσσας (NLP - Natural Language Processing), ξεπερνώντας μερικές φορές τις προηγούμενες προσεγγίσεις λεπτομερούς ρύθμισης με τεχνολογία αιχμής. Παραδείγματα τέτοιων εργασιών NLP είναι η μετάφραση, η απάντηση σε ερωτήσεις, οι εργασίες cloze (όπου μια λέξη λείπει), η αποκρυπτογράφηση λέξεων και η χρήση μιας νέας λέξης σε μια πρόταση. Η δημιουργία και η βελτιστοποίηση τέτοιων προτροπών ονομάζεται μηχανική προτροπών.
Συντονισμός οδηγιών
Ο συντονισμός των εντολών είναι μια μορφή λεπτομερούς ρύθμισης που έχει σχεδιαστεί για να διευκολύνει πιο φυσικές και ακριβείς αλληλεπιδράσεις με μηδενική προτροπή. Δεδομένου ενός κειμένου εισόδου, ένα προ-εκπαιδευμένο γλωσσικό μοντέλο θα παράγει την ολοκλήρωση που ταιριάζει με την κατανομή του κειμένου στο οποίο εκπαιδεύτηκε. Ένα απλοϊκό γλωσσικό μοντέλο που του δίνεται η προτροπή «Γράψτε ένα δοκίμιο σχετικά με τα κύρια θέματα του Άμλετ.» μπορεί να δώσει μια συμπλήρωση όπως «Ποινή καθυστέρησης 10% ανά ημέρα θα εφαρμοστεί σε υποβολές που θα παραληφθούν μετά τις 17 Μαρτίου». Στο συντονισμό εντολών, το γλωσσικό μοντέλο εκπαιδεύεται σε πολλά παραδείγματα εργασιών που διατυπώνονται ως οδηγίες φυσικής γλώσσας, μαζί με τις κατάλληλες απαντήσεις. Στην πράξη έχουν εφαρμοστεί διάφορες τεχνικές για τον συντονισμό οδηγιών. Το πρωτόκολλο InstructGPT του OpenAI περιλαμβάνει επιτηρούμενη λεπτομερή ρύθμιση σε ένα σύνολο δεδομένων από ζεύγη (προτροπή, απάντηση) που δημιουργούνται από ανθρώπους, ακολουθούμενη από ενισχυτική μάθηση από ανθρώπινη ανατροφοδότηση (RLHF), στην οποία μια συνάρτηση ανταμοιβής μαθαίνεται με βάση ένα σύνολο δεδομένων ανθρώπινων προτιμήσεων. Μια άλλη τεχνική, η «αυτο-διδασκαλία», τελειοποιεί το γλωσσικό μοντέλο σε ένα σύνολο εκπαίδευσης παραδειγμάτων τα οποία δημιουργούνται από ένα LLM (που εκκινούν από ένα μικρό αρχικό σύνολο παραδειγμάτων που δημιουργούνται από ανθρώπους).
Εκτίμηση
Σύγχυση
Το βασικότερο εγγενές μέτρο της απόδοσης ενός γλωσσικού μοντέλου είναι η σύγχυσή του σε ένα δεδομένο σώμα κειμένων. Η σύγχυση, η οποία σχετίζεται στενά με τη συνάρτηση απώλειας cross-entropy που χρησιμοποιείται για την εκπαίδευση νευρωνικών γλωσσικών μοντέλων, είναι ένα μέτρο του πόσο καλά ένα μοντέλο είναι σε θέση να προβλέψει το περιεχόμενο ενός συνόλου δεδομένων- όσο μεγαλύτερη είναι η πιθανότητα που το μοντέλο αποδίδει στο σύνολο δεδομένων, τόσο χαμηλότερη είναι η σύγχυση. Επειδή τα γλωσσικά μοντέλα μπορεί να προσαρμόζονται υπερβολικά στα δεδομένα εκπαίδευσής τους, τα μοντέλα αξιολογούνται συνήθως με βάση την σύγχυσή τους σε ένα σύνολο δοκιμών με άγνωστα δεδομένα. Αυτό παρουσιάζει ιδιαίτερες προκλήσεις για την αξιολόγηση μεγάλων γλωσσικών μοντέλων. Καθώς εκπαιδεύονται σε ολοένα και μεγαλύτερα σώματα κειμένων που προέρχονται κυρίως από το διαδίκτυο, καθίσταται όλο και πιο πιθανό τα δεδομένα εκπαίδευσης των μοντέλων να περιλαμβάνουν κατά λάθος τμήματα οποιουδήποτε συνόλου δοκιμής.
Σύνολα δεδομένων για συγκεκριμένες εργασίες και σημεία αναφοράς
Έχει επίσης αναπτυχθεί μεγάλος αριθμός δοκιμαστικών συνόλων δεδομένων και κριτηρίων αξιολόγησης για την αξιολόγηση των δυνατοτήτων των γλωσσικών μοντέλων σε πιο συγκεκριμένες εργασίες. Οι δοκιμές μπορούν να σχεδιαστούν για την αξιολόγηση ποικιλίας ικανοτήτων, συμπεριλαμβανομένων των γενικών γνώσεων, της κοινής λογικής και της επίλυσης μαθηματικών προβλημάτων.
Μια ευρεία κατηγορία συνόλων δεδομένων αξιολόγησης είναι τα σύνολα δεδομένων που απαντούν σε ερωτήσεις, τα οποία αποτελούνται από ζεύγη ερωτήσεων και σωστών απαντήσεων, για παράδειγμα, («Έχουν κερδίσει οι San Jose Sharks το Κύπελλο Stanley;», «Όχι»). Μια εργασία απάντησης ερωτήσεων θεωρείται «ανοικτού τύπου» εάν η προτροπή του μοντέλου περιλαμβάνει κείμενο από το οποίο μπορεί να προκύψει η αναμενόμενη απάντηση (για παράδειγμα, η προηγούμενη ερώτηση θα μπορούσε να συνοδευτεί από κάποιο κείμενο που περιλαμβάνει την πρόταση «Οι Sharks έχουν φτάσει μία φορά στον τελικό του Κυπέλλου Stanley, χάνοντας από τους Pittsburgh Penguins το 2016»). Διαφορετικά, η εργασία θεωρείται «κλειστού τύπου» και το μοντέλο πρέπει να βασιστεί στη γνώση που διατηρείται κατά τη διάρκεια της εκπαίδευσης. Ορισμένα παραδείγματα κοινώς χρησιμοποιούμενων συνόλων δεδομένων για την απάντηση ερωτήσεων περιλαμβάνουν τα TruthfulQA, Web Questions, TriviaQA και SQuAD.
Τα σύνολα δεδομένων αξιολόγησης μπορεί επίσης να έχουν τη μορφή συμπλήρωσης κειμένου, με το μοντέλο να επιλέγει την πιο πιθανή λέξη ή πρόταση για να συμπληρώσει μια προτροπή, για παράδειγμα: «Η Αλίκη ήταν φίλη με τον Μπομπ. Η Αλίκη πήγε να επισκεφθεί το φίλο της, ____».
Έχουν επίσης αναπτυχθεί ορισμένα σύνθετα συγκριτικά πρότυπα (benchmarks) τα οποία συνδυάζουν μια ποικιλία διαφορετικών συνόλων δεδομένων αξιολόγησης και εργασιών. Ενδεικτικά αναφέρονται τα GLUE, SuperGLUE, MMLU, BIG-bench και HELM..
Παλαιότερα ήταν σύνηθες να αναφέρονται τα αποτελέσματα σε ένα μέρος ενός συνόλου δεδομένων αξιολόγησης, αφού προηγουμένως γινόταν λεπτομερής ρύθμιση υπό επίβλεψη στο υπόλοιπο. Τώρα είναι πιο συνηθισμένο να αξιολογείται ένα προ-εκπαιδευμένο μοντέλο απευθείας μέσω τεχνικών προτροπής, αν και οι ερευνητές διαφέρουν στις λεπτομέρειες του τρόπου με τον οποίο διαμορφώνουν τις προτροπές για συγκεκριμένες εργασίες, ιδίως όσον αφορά το πόσα παραδείγματα λυμένων εργασιών γειτνιάζουν με την προτροπή (δηλ. την τιμή του n στην προτροπή n-βολών).
Αντιθετικά κατασκευασμένες αξιολογήσεις
Λόγω του γρήγορου ρυθμού βελτίωσης των μεγάλων γλωσσικών μοντέλων, τα κριτήρια αξιολόγησης έχουν μικρή διάρκεια ζωής, με τα μοντέλα τελευταίας τεχνολογίας να ικανοποιούν γρήγορα τα υπάρχοντα κριτήρια αξιολόγησης, ξεπερνώντας την απόδοση των ανθρώπινων σχολιαστών, οδηγώντας σε προσπάθειες αντικατάστασης ή συμπλήρωσης του κριτηρίου αξιολόγησης με πιο δύσκολες εργασίες.
Ορισμένα σύνολα δεδομένων έχουν κατασκευαστεί με αντιφατικό τρόπο, εστιάζοντας σε συγκεκριμένα προβλήματα στα οποία τα υπάρχοντα γλωσσικά μοντέλα φαίνεται να έχουν ασυνήθιστα κακές επιδόσεις σε σύγκριση με τους ανθρώπους. Ένα παράδειγμα είναι το σύνολο δεδομένων TruthfulQA, ένα σύνολο δεδομένων απάντησης ερωτήσεων που αποτελείται από 817 ερωτήσεις στις οποίες τα γλωσσικά μοντέλα είναι επιρρεπή στο να απαντούν λανθασμένα μιμούμενα ψεύδη στα οποία εκτέθηκαν επανειλημμένα κατά τη διάρκεια της εκπαίδευσης. Για παράδειγμα, ένα LLM μπορεί να απαντήσει «Όχι» στην ερώτηση "Can you teach an old dog new tricks?" λόγω της έκθεσής του στον αγγλικό ιδιωματισμό you can't teach an old dog new tricks, παρόλο που αυτό δεν είναι κυριολεκτικά αληθές.
Ένα άλλο παράδειγμα ενός συνόλου δεδομένων αντιφατικής αξιολόγησης είναι το Swag και ο διάδοχός του, το HellaSwag, συλλογές προβλημάτων στα οποία πρέπει να επιλεγεί μία από πολλές επιλογές για να ολοκληρωθεί ένα κείμενο. Οι λανθασμένες συμπληρώσεις δημιουργήθηκαν με δειγματοληψία από ένα γλωσσικό μοντέλο και φιλτράρισμα με ένα σύνολο ταξινομητών. Τα προβλήματα που προκύπτουν είναι τετριμμένα για τους ανθρώπους, αλλά κατά τη στιγμή που δημιουργήθηκαν τα σύνολα δεδομένων τα γλωσσικά μοντέλα τελευταίας τεχνολογίας είχαν χαμηλή ακρίβεια σε αυτά. Για παράδειγμα:
Βλέπουμε μια πινακίδα γυμναστηρίου. Στη συνέχεια βλέπουμε έναν άνδρα να μιλάει στην κάμερα και να κάθεται και να ξαπλώνει σε μια μπάλα γυμναστικής. Ο άντρας...α) δείχνει πώς να αυξήσετε την αποτελεσματική εργασία άσκησης τρέχοντας πάνω και κάτω μπάλες.β) κινεί όλα τα χέρια και τα πόδια του και δημιουργεί πολλούς μυς.γ) στη συνέχεια παίζει την μπάλα και βλέπουμε μια επίδειξη με γραφικά και φράχτη.δ) εκτελεί καθίσματα ενώ βρίσκεται στην μπάλα και μιλάει.
Το BERT επιλέγει το β) ως την πιο πιθανή ολοκλήρωση, αν και η σωστή απάντηση είναι το δ).
Η πρώτη από μια σειρά δωρεάν εναλλακτικών λύσεων GPT-3 που κυκλοφόρησε από την EleutherAI. Το GPT-Neo ξεπέρασε ένα μοντέλο GPT-3 ισοδύναμου μεγέθους σε ορισμένα benchmarks, αλλά ήταν σημαντικά χειρότερο από το μεγαλύτερο GPT-3.
Λεπτομερής ρύθμιση για επιθυμητή συμπεριφορά σε συνομιλίες.
GLaM (Generalist Language Model)
02021-12-01Δεκέμβριος 1, 2021
Google
1200000000000 !1.2 τρισεκατομμύρια
1600000000000 !1.6 τρισεκατομμύρια tokens
ιδιόκτητη τεχνολογία
Λιτό μοντέλο ανάμειξης εμπειρογνωμόνων, που καθιστά ακριβότερη την εκπαίδευσή του, αλλά φθηνότερο για την εκτέλεση της συνεπαγωγών σε σύγκριση με το GPT-3.
38,5B tokens από ιστοσελίδες που φιλτράρονται για μαθηματικό περιεχόμενο και από έγγραφα που υποβάλλονται στον διακομιστή arXiv preprint server
ιδιόκτητη τεχνολογία
LLM εκπαιδευμένο για την επίλυση «μαθηματικών και επιστημονικών ερωτημάτων με βήμα προς βήμα συλλογισμό».[26] Το Minerva βασίζεται στο μοντέλο PaLM, το οποίο εκπαιδεύεται περαιτέρω σε μαθηματικά και επιστημονικά δεδομένα.
Εκπαιδεύτηκε σε ένα μεγάλο σώμα κειμένων 20 γλωσσών με στόχο καλύτερες επιδόσεις με λιγότερες παραμέτρους. Ερευνητές από το Πανεπιστήμιο του Στάνφορντ εκπαίδευσαν ένα λεπτομερώς ρυθμισμένο μοντέλο με βάση τις σταθμίσεις LLaMA, το οποίο ονομάζεται Alpaca.[30]
Υποστηρίζεται ότι το μοντέλο χρησιμοποιεί μόνο το 75% του υπολογισμού εκπαίδευσης του GPT-3, το 40% του υπολογισμού του Chinchilla και το 80% του υπολογισμού του PaLM-62B.
Σύνολο δεδομένων 363 δισεκατομμύρια tokens με βάση τις πηγές δεδομένων του Bloomberg, καθώς και 345 δισεκατομμύρια tokens από σύνολα δεδομένων γενικού σκοπού[34]
ιδιόκτητη τεχνολογία
LLM εκπαιδευμένο σε χρηματοοικονομικά δεδομένα από πηγές ιδιόκτητης τεχνολογίας, το οποίο «ξεπερνά τα υπάρχοντα μοντέλα σε χρηματοοικονομικές εργασίες με σημαντικά περιθώρια χωρίς να θυσιάζει τις επιδόσεις σε γενικά LLM benchmarks»
↑Η ημερομηνία κατά την οποία κυκλοφόρησε για πρώτη φορά η τεκμηρίωση που περιγράφει την αρχιτεκτονική του μοντέλου.
↑Σε πολλές περιπτώσεις, οι ερευνητές εκδίδουν ή αναφέρουν πολλαπλές εκδόσεις ενός μοντέλου με διαφορετικά μεγέθη. Σε αυτές τις περιπτώσεις, εδώ αναφέρεται το μέγεθος του μεγαλύτερου μοντέλου.
↑Πρόκειται για την άδεια χρήσης των προ-εκπαιδευμένων συντελεστών βαρύτητας του μοντέλου. Σχεδόν σε όλες τις περιπτώσεις ο ίδιος ο κώδικας εκπαίδευσης είναι ανοικτού κώδικα ή μπορεί εύκολα να αναπαραχθεί.
↑Τα μικρότερα μοντέλα, συμπεριλαμβανομένου του 66B, είναι διαθέσιμα στο κοινό, ενώ το μοντέλο 175B διατίθεται κατόπιν αιτήματος.
↑Το σύστημα αδειοδότησης και διανομής του Facebook περιόριζε την πρόσβαση σε εγκεκριμένους ερευνητές, αλλά τα σταθμά του μοντέλου διέρρευσαν και έγιναν ευρέως διαθέσιμα.
↑Όπως αναφέρεται στην τεχνική έκθεση: «Δεδομένου τόσο του ανταγωνιστικού τοπίου όσο και των επιπτώσεων στην ασφάλεια των μοντέλων μεγάλης κλίμακας όπως το GPT-4, η παρούσα έκθεση δεν περιέχει περαιτέρω λεπτομέρειες σχετικά με την αρχιτεκτονική (συμπεριλαμβανομένου του μεγέθους του μοντέλου), το υλικό, τον υπολογισμό εκπαίδευσης, την κατασκευή συνόλου δεδομένων, τη μέθοδο εκπαίδευσης ...».[31]
↑Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (April 2023). «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling».
↑ 16,016,1Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace και άλλοι. (31 December 2020). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling».
↑Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan και άλλοι. (December 23, 2021). ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation.
↑«Product». Anthropic (στα Αγγλικά). Ανακτήθηκε στις 14 Μαρτίου 2023.
↑Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas και άλλοι. (9 December 2021). «A General Language Assistant as a Laboratory for Alignment».
↑ 22,022,1Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne και άλλοι. (29 March 2022). «Training Compute-Optimal Large Language Models».
↑Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David και άλλοι. (March 30, 2023). BloombergGPT: A Large Language Model for Finance.
↑Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda και άλλοι. (March 19, 2023). PanGu-Σ: Towards τρισεκατομμύρια Parameter Language Model with Sparse Heterogeneous Computing.