2023-04-18
MiniGPT-4
Ειδήσεις.
Το MiniGPT-4, ένα γλωσσικό μοντέλο που ευθυγραμμίζει έναν παγωμένο οπτικό κωδικοποιητή με ένα παγωμένο μεγάλο γλωσσικό μοντέλο, το Vicuna, χρησιμοποιώντας μόνο ένα στρώμα προβολής, διαθέτει παρόμοιες δυνατότητες που παρουσιάζει το GPT-4, όπως η παραγωγή λεπτομερών περιγραφών εικόνων και η συγγραφή ιστοριών και ποιημάτων εμπνευσμένων από δεδομένες εικόνες. Το μοντέλο είναι ιδιαίτερα αποδοτικό από υπολογιστική άποψη, καθώς χρησιμοποιεί μόνο περίπου 5 εκατομμύρια ευθυγραμμισμένα ζεύγη εικόνας-κειμένου και απαιτεί μόνο την εκπαίδευση του γραμμικού στρώματος για την ευθυγράμμιση των οπτικών χαρακτηριστικών με το μεγάλο γλωσσικό μοντέλο Vicuna. Οι δημιουργοί ετοιμάζουν ένα ελαφρύτερο μοντέλο που μπορεί να εκτελεστεί σε μία μόνο GPU 3090 για μελλοντική χρήση.
Αντιδράσεις της βιομηχανίας.
Οι ερευνητές δημιουργούν το μοντέλο MiniGPT-4 το οποίο ξεπερνάει τα άλλα συνδέοντας το ViT-L+Q-former του BLIP2 με το Vicuna-13B με ένα γραμμικό στρώμα και εκπαιδεύοντας μόνο το μικροσκοπικό στρώμα σε ορισμένα σύνολα δεδομένων εικόνας-κειμένου. Άλλα σχόλια περιλαμβάνουν μοντέλα μηχανικής μάθησης, εκτέλεση LLM σε CPU και εμπορία προϊόντων που βασίζονται σε μικρότερα μοντέλα. Οι ερευνητές του Πανεπιστημίου King Abdullah αναπτύσσουν το Vicuna, μια αρχιτεκτονική μετασχηματιστή GPT που παράγει προγράμματα υπολογιστών και ιστότοπους από φυσική γλώσσα με βελτιωμένη αποδοτικότητα μάθησης. Η ταχύτερη και αποδοτικότερη απόδοση του GPTQ 4bit παρουσιάζει συναρπαστικές δυνατότητες για την περίληψη βίντεο και άλλες εφαρμογές για λογισμικό και τεχνολογία.
RedPajama: LLaMA με φιλική άδεια χρήσης
Ειδήσεις.
Το RedPajama, ένα έργο για τη δημιουργία κορυφαίων μοντέλων ανοικτού κώδικα, ξεκινά με την αναπαραγωγή του συνόλου δεδομένων εκπαίδευσης LLaMA με πάνω από 1,2 τρισεκατομμύρια tokens- το RedPajama έχει τρία βασικά στοιχεία: δεδομένα προ-εκπαίδευσης, βασικά μοντέλα και δεδομένα και μοντέλα συντονισμού οδηγιών- το RedPajama έχει κυκλοφορήσει το πλήρες σύνολο δεδομένων RedPajama 1,2 τρισεκατομμυρίων token και ένα μικρότερο, πιο καταναλώσιμο τυχαίο δείγμα μπορεί να ληφθεί μέσω του Hugging Face.