Την παραμονή του εαρινού φεστιβάλ, κυκλοφόρησε το μοντέλο DeepSeek-R1. Με την αμιγώς RL αρχιτεκτονική του, έχει μάθει από τις μεγάλες καινοτομίες της CoT και ξεπερνάει σε απόδοση το ChatGPT στα μαθηματικά, τον κώδικα και τη λογική σκέψη.

Επιπλέον, τα βάρη των μοντέλων ανοιχτού κώδικα, το χαμηλό κόστος εκπαίδευσης και οι φθηνές τιμές API έκαναν το DeepSeek να γίνει επιτυχία σε όλο το διαδίκτυο, προκαλώντας ακόμη και πτώση των τιμών των μετοχών της NVIDIA και της ASML για ένα διάστημα.

Ενώ εκρήγνυται σε δημοτικότητα, η DeepSeek κυκλοφόρησε επίσης μια ενημερωμένη έκδοση του πολυτροπικού μεγάλου μοντέλου Janus (Janus), Janus-Pro, η οποία κληρονομεί την ενοποιημένη αρχιτεκτονική της προηγούμενης γενιάς πολυτροπικής κατανόησης και παραγωγής και βελτιστοποιεί τη στρατηγική εκπαίδευσης, κλιμακώνοντας τα δεδομένα εκπαίδευσης και το μέγεθος του μοντέλου, φέρνοντας ισχυρότερες επιδόσεις.

Janus-Pro

Janus-Pro είναι ένα ενοποιημένο πολυτροπικό γλωσσικό μοντέλο (MLLM) που μπορεί να επεξεργάζεται ταυτόχρονα πολυτροπικές εργασίες κατανόησης και εργασίες παραγωγής, δηλαδή μπορεί να κατανοεί το περιεχόμενο μιας εικόνας και να παράγει κείμενο.

Αποσυνδέει τους οπτικούς κωδικοποιητές για την πολυτροπική κατανόηση και παραγωγή (δηλαδή, χρησιμοποιούνται διαφορετικοί κωδικοποιητές για την είσοδο της κατανόησης εικόνας και την είσοδο και την έξοδο της παραγωγής εικόνας) και τους επεξεργάζεται χρησιμοποιώντας έναν ενοποιημένο αυτοπαλίνδρομο μετασχηματιστή.

Ως ένα προηγμένο μοντέλο πολυτροπικής κατανόησης και παραγωγής, είναι μια αναβαθμισμένη έκδοση του προηγούμενου μοντέλου Janus.

Στη ρωμαϊκή μυθολογία, ο Ιανός (Janus) είναι ένας θεός-φύλακας με δύο πρόσωπα που συμβολίζει την αντίφαση και τη μετάβαση. Έχει δύο πρόσωπα, γεγονός που υποδηλώνει επίσης ότι το μοντέλο του Ιανού μπορεί να κατανοήσει και να δημιουργήσει εικόνες, κάτι που είναι πολύ κατάλληλο. Τι ακριβώς λοιπόν έχει αναβαθμίσει η PRO;

Ο Janus, ως ένα μικρό μοντέλο του 1.3B, είναι περισσότερο μια έκδοση προεπισκόπησης παρά μια επίσημη έκδοση. Διερευνά την ενοποιημένη πολυτροπική κατανόηση και παραγωγή, αλλά έχει πολλά προβλήματα, όπως ασταθή αποτελέσματα παραγωγής εικόνων, μεγάλες αποκλίσεις από τις οδηγίες του χρήστη και ανεπαρκείς λεπτομέρειες.

Η έκδοση Pro βελτιστοποιεί τη στρατηγική εκπαίδευσης, αυξάνει το σύνολο δεδομένων εκπαίδευσης και παρέχει ένα μεγαλύτερο μοντέλο (7B) για να διαλέξετε, ενώ παρέχει ένα μοντέλο 1B.

Αρχιτεκτονική μοντέλου

Jaus-Pro και Janus είναι πανομοιότυπα όσον αφορά την αρχιτεκτονική του μοντέλου. (Μόνο 1.3B! Ο Janus ενοποιεί την πολυτροπική κατανόηση και παραγωγή)

Η βασική αρχή σχεδιασμού είναι η αποσύνδεση της οπτικής κωδικοποίησης για την υποστήριξη της πολυτροπικής κατανόησης και παραγωγής. Το Janus-Pro κωδικοποιεί ξεχωριστά την αρχική εικόνα/κείμενο εισόδου, εξάγει χαρακτηριστικά υψηλής διάστασης και τα επεξεργάζεται μέσω ενός ενοποιημένου αυτοπαλίνδρομου μετασχηματιστή.

Η πολυτροπική κατανόηση εικόνας χρησιμοποιεί το SigLIP για την κωδικοποίηση των χαρακτηριστικών της εικόνας (μπλε κωδικοποιητής στο παραπάνω σχήμα) και η εργασία παραγωγής χρησιμοποιεί τον VQ tokenizer για τη διακριτοποίηση της εικόνας (κίτρινος κωδικοποιητής στο παραπάνω σχήμα). Τέλος, όλες οι ακολουθίες χαρακτηριστικών εισάγονται στο LLM για επεξεργασία

Στρατηγική κατάρτισης

Όσον αφορά τη στρατηγική κατάρτισης, το Janus-Pro έχει κάνει περισσότερες βελτιώσεις. Η παλαιά έκδοση του Janus χρησιμοποιούσε μια στρατηγική εκπαίδευσης τριών σταδίων, στην οποία το Στάδιο Ι εκπαιδεύει τον προσαρμογέα εισόδου και την κεφαλή παραγωγής εικόνων για την κατανόηση εικόνων και την παραγωγή εικόνων, το Στάδιο ΙΙ εκτελεί ενοποιημένη προ-εκπαίδευση και το Στάδιο ΙΙΙ τελειοποιεί τον κωδικοποιητή κατανόησης με βάση αυτό. (Η στρατηγική εκπαίδευσης του Janus παρουσιάζεται στο παρακάτω σχήμα).

Ωστόσο, αυτή η στρατηγική χρησιμοποιεί τη μέθοδο PixArt για να χωρίσει την εκπαίδευση της παραγωγής κειμένου σε εικόνα στο στάδιο ΙΙ, γεγονός που έχει ως αποτέλεσμα χαμηλή υπολογιστική απόδοση.

Για το σκοπό αυτό, επεκτείναμε το χρόνο εκπαίδευσης του σταδίου Ι και προσθέσαμε εκπαίδευση με δεδομένα ImageNet, έτσι ώστε το μοντέλο να μπορεί να μοντελοποιήσει αποτελεσματικά τις εξαρτήσεις εικονοστοιχείων με σταθερές παραμέτρους LLM. Στο στάδιο II, απορρίψαμε τα δεδομένα ImageNet και χρησιμοποιήσαμε απευθείας δεδομένα ζεύγους κειμένου-εικόνας για την εκπαίδευση, γεγονός που βελτιώνει την αποτελεσματικότητα της εκπαίδευσης. Επιπλέον, προσαρμόσαμε την αναλογία δεδομένων στο Στάδιο III (δεδομένα πολυτροπικών:μόνο κείμενο:οπτικό-σημασιολογικό γράφημα από 7:3:10 σε 5:1:4), βελτιώνοντας την πολυτροπική κατανόηση, διατηρώντας παράλληλα τις δυνατότητες οπτικής παραγωγής.

Κλιμάκωση δεδομένων εκπαίδευσης

Το Janus-Pro κλιμακώνει επίσης τα δεδομένα εκπαίδευσης του Janus όσον αφορά την πολυτροπική κατανόηση και την οπτική παραγωγή.

Πολυτροπική κατανόηση: και περιλαμβάνει περίπου 90 εκατομμύρια νέα δείγματα, συμπεριλαμβανομένων δεδομένων για λεζάντες εικόνων (όπως το YFCC) και δεδομένων για την κατανόηση πινάκων, διαγραμμάτων και εγγράφων (όπως το Docmatix).

Το στάδιο επιτηρούμενης τελειοποίησης του σταδίου ΙΙΙ εισάγει περαιτέρω την κατανόηση MEME, δεδομένα κινεζικών διαλόγων κ.λπ., για να βελτιώσει την απόδοση του μοντέλου στην επεξεργασία πολλαπλών εργασιών και τις δυνατότητες διαλόγου.

Οπτική παραγωγή: Οι προηγούμενες εκδόσεις χρησιμοποιούσαν πραγματικά δεδομένα χαμηλής ποιότητας και υψηλού θορύβου, τα οποία επηρέαζαν τη σταθερότητα και την αισθητική των εικόνων που δημιουργούνταν από το κείμενο.

Το Janus-Pro εισάγει περίπου 72 εκατομμύρια συνθετικά αισθητικά δεδομένα, φέρνοντας την αναλογία πραγματικών δεδομένων προς συνθετικά δεδομένα στο 1:1. Τα πειράματα έδειξαν ότι τα συνθετικά δεδομένα επιταχύνουν τη σύγκλιση του μοντέλου και βελτιώνουν σημαντικά τη σταθερότητα και την αισθητική ποιότητα των παραγόμενων εικόνων.

Μοντέλο κλιμάκωσης

Το Janus Pro επεκτείνει το μέγεθος του μοντέλου σε 7B, ενώ η προηγούμενη έκδοση του Janus χρησιμοποιούσε 1,5B DeepSeek-LLM για να επαληθεύσει την αποτελεσματικότητα της αποσύνδεσης της οπτικής κωδικοποίησης. Τα πειράματα δείχνουν ότι ένα μεγαλύτερο LLM επιταχύνει σημαντικά τη σύγκλιση της πολυτροπικής κατανόησης και της οπτικής παραγωγής, επαληθεύοντας περαιτέρω την ισχυρή επεκτασιμότητα της μεθόδου.

Το πείραμα χρησιμοποιεί το DeepSeek-LLM (1.5B και 7B, που υποστηρίζει μια μέγιστη ακολουθία 4096) ως το βασικό γλωσσικό μοντέλο. Για την εργασία πολυτροπικής κατανόησης, χρησιμοποιείται το SigLIP-Large-Patch16-384 ως οπτικός κωδικοποιητής, το μέγεθος λεξικού του κωδικοποιητή είναι 16384, το πολλαπλάσιο υποδειγματοληψίας εικόνας είναι 16 και τόσο ο προσαρμογέας κατανόησης όσο και ο προσαρμογέας παραγωγής είναι MLP δύο επιπέδων.

Το στάδιο II της εκπαίδευσης χρησιμοποιεί μια στρατηγική πρώιμης διακοπής 270K, όλες οι εικόνες προσαρμόζονται ομοιόμορφα σε ανάλυση 384×384 και χρησιμοποιείται η συσκευασία ακολουθιών για τη βελτίωση της αποτελεσματικότητας της εκπαίδευσης. Το Janus-Pro εκπαιδεύεται και αξιολογείται με τη χρήση του HAI-LLM. Οι εκδόσεις 1.5B/7B εκπαιδεύτηκαν σε 16/32 κόμβους (8×Nvidia A100 40GB ανά κόμβο) για 9/14 ημέρες αντίστοιχα.

Αξιολόγηση μοντέλου

Το Janus-Pro αξιολογήθηκε χωριστά στην πολυτροπική κατανόηση και παραγωγή. Συνολικά, η κατανόηση μπορεί να είναι ελαφρώς αδύναμη, αλλά θεωρείται εξαιρετική μεταξύ των μοντέλων ανοικτού κώδικα του ίδιου μεγέθους (υποθέτουμε ότι περιορίζεται σε μεγάλο βαθμό από την σταθερή ανάλυση εισόδου και τις δυνατότητες OCR).

Ο Janus-Pro-7B σημείωσε 79,2 βαθμούς στη δοκιμή αναφοράς MMBench, η οποία είναι κοντά στο επίπεδο των πρωτοβάθμιων μοντέλων ανοικτού κώδικα (το ίδιο μέγεθος των InternVL2.5 και Qwen2-VL είναι περίπου 82 βαθμοί). Ωστόσο, πρόκειται για μια καλή βελτίωση σε σχέση με την προηγούμενη γενιά του Janus.

Όσον αφορά τη δημιουργία εικόνων, η βελτίωση σε σχέση με την προηγούμενη γενιά είναι ακόμη πιο σημαντική και θεωρείται εξαιρετικό επίπεδο μεταξύ των μοντέλων ανοικτού κώδικα. Η βαθμολογία του Janus-Pro στη δοκιμή αναφοράς GenEval (0,80) ξεπερνά επίσης μοντέλα όπως το DALL-E 3 (0,67) και το Stable Diffusion 3 Medium (0,74).

Παρόμοιες θέσεις

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *