Η DeepSeek ενημέρωσε τον ιστότοπό της.

Τις πρώτες πρωινές ώρες της παραμονής της Πρωτοχρονιάς, η DeepSeek ανακοίνωσε ξαφνικά στο GitHub ότι ο χώρος του έργου Janus είχε ανοίξει την πηγή του μοντέλου Janus-Pro και της τεχνικής έκθεσης.

Κατ' αρχάς, ας επισημάνουμε μερικά βασικά σημεία:

  1. Το Μοντέλο Janus-Pro που κυκλοφόρησε αυτή τη φορά είναι ένα πολυτροπικό μοντέλο που μπορεί να εκτελεί ταυτόχρονα εργασίες πολυτροπικής κατανόησης και δημιουργίας εικόνων. Διαθέτει συνολικά δύο εκδόσεις παραμέτρων, Janus-Pro-1B και Janus-Pro-7B.
  2. Η βασική καινοτομία του Janus-Pro είναι η αποσύνδεση πολυτροπική κατανόηση και παραγωγή, δύο διαφορετικά καθήκοντα. Αυτό επιτρέπει την αποτελεσματική ολοκλήρωση αυτών των δύο εργασιών στο ίδιο μοντέλο.
  3. Το Janus-Pro είναι σύμφωνο με την αρχιτεκτονική του μοντέλου Janus που κυκλοφόρησε από την DeepSeek τον περασμένο Οκτώβριο, αλλά εκείνη τη στιγμή ο Janus δεν είχε μεγάλο όγκο. Ο Dr. Charles, ειδικός σε θέματα αλγορίθμων στον τομέα της όρασης, μας είπε ότι το προηγούμενο Janus ήταν "μέτριο" και "όχι τόσο καλό όσο το γλωσσικό μοντέλο της DeepSeek".

Σκοπός του είναι να λύσει το δύσκολο πρόβλημα της βιομηχανίας: εξισορρόπηση της πολυτροπικής κατανόησης και της δημιουργίας εικόνων.

Σύμφωνα με την επίσημη εισαγωγή του DeepSeek, Janus-Pro μπορεί όχι μόνο να κατανοεί εικόνες, να εξάγει και να κατανοεί το κείμενο στις εικόνες, αλλά και να δημιουργεί εικόνες ταυτόχρονα.

Η τεχνική έκθεση αναφέρει ότι σε σύγκριση με άλλα μοντέλα του ίδιου τύπου και της ίδιας τάξης μεγέθους, οι βαθμολογίες του Janus-Pro-7B στα σύνολα δοκιμών GenEval και DPG-Bench ξεπερνούν εκείνες άλλων μοντέλων όπως το SD3-Medium και το DALL-E 3.

Ο αξιωματούχος δίνει επίσης παραδείγματα 👇:

Υπάρχουν επίσης πολλοί netizens στο X που δοκιμάζουν τις νέες λειτουργίες.

Υπάρχουν όμως και περιστασιακά ατυχήματα.

Συμβουλευόμενοι τα τεχνικά έγγραφα για DeepSeek, διαπιστώσαμε ότι το Janus Pro είναι μια βελτιστοποίηση που βασίζεται στον Janus, ο οποίος κυκλοφόρησε πριν από τρεις μήνες.

Η βασική καινοτομία αυτής της σειράς μοντέλων είναι να να αποσυνδέσει τις εργασίες οπτικής κατανόησης από τις εργασίες οπτικής παραγωγής, ώστε να εξισορροπηθούν οι επιδράσεις των δύο εργασιών.

Δεν είναι ασυνήθιστο για ένα μοντέλο να εκτελεί πολυτροπική κατανόηση και παραγωγή ταυτόχρονα. Το D-DiT και το TokenFlow-XL σε αυτό το σύνολο δοκιμών έχουν και τα δύο αυτή τη δυνατότητα.

Ωστόσο, αυτό που χαρακτηρίζει τον Janus είναι ότι με την αποσύνδεση της επεξεργασίας, ένα μοντέλο που μπορεί να εκτελεί πολυτροπική κατανόηση και παραγωγή εξισορροπεί την αποτελεσματικότητα των δύο εργασιών.

Η εξισορρόπηση της αποτελεσματικότητας των δύο καθηκόντων αποτελεί δύσκολο πρόβλημα στον κλάδο. Προηγουμένως, το σκεπτικό ήταν να χρησιμοποιηθεί ο ίδιος κωδικοποιητής για να υλοποιηθεί όσο το δυνατόν περισσότερο η πολυτροπική κατανόηση και παραγωγή.

Τα πλεονεκτήματα αυτής της προσέγγισης είναι η απλή αρχιτεκτονική, η απουσία περιττής ανάπτυξης και η ευθυγράμμιση με τα μοντέλα κειμένου (τα οποία χρησιμοποιούν επίσης τις ίδιες μεθόδους για να επιτύχουν την παραγωγή κειμένου και την κατανόηση κειμένου). Ένα άλλο επιχείρημα είναι ότι αυτή η συγχώνευση πολλαπλών ικανοτήτων μπορεί να οδηγήσει σε έναν ορισμένο βαθμό ανάδυσης.

Ωστόσο, στην πραγματικότητα, μετά τη συγχώνευση της παραγωγής και της κατανόησης, οι δύο εργασίες θα συγκρουστούν - η κατανόηση της εικόνας απαιτεί από το μοντέλο να κάνει αφαίρεση σε υψηλές διαστάσεις και να εξάγει τον πυρήνα της σημασιολογίας της εικόνας, η οποία είναι προκατειλημμένη προς το μακροσκοπικό. Η παραγωγή εικόνας, από την άλλη πλευρά, επικεντρώνεται στην έκφραση και την παραγωγή τοπικών λεπτομερειών σε επίπεδο εικονοστοιχείου.

Η συνήθης πρακτική της βιομηχανίας είναι να δίνει προτεραιότητα στις δυνατότητες παραγωγής εικόνας. Αυτό έχει ως αποτέλεσμα πολυτροπικά μοντέλα που μπορούν να δημιουργήσουν εικόνες υψηλότερης ποιότητας, αλλά τα αποτελέσματα της κατανόησης των εικόνων είναι συχνά μέτρια.

Η αποσυνδεδεμένη αρχιτεκτονική του Janus και η βελτιστοποιημένη στρατηγική εκπαίδευσης του Janus-Pro

Η αποσυνδεδεμένη αρχιτεκτονική του Janus επιτρέπει στο μοντέλο να εξισορροπεί από μόνο του τα καθήκοντα της κατανόησης και της παραγωγής.

Σύμφωνα με τα αποτελέσματα της επίσημης τεχνικής έκθεσης, είτε πρόκειται για πολυτροπική κατανόηση είτε για παραγωγή εικόνων, το Janus-Pro-7B έχει καλές επιδόσεις σε πολλαπλά σύνολα δοκιμών.

Για πολυτροπική κατανόηση, Το Janus-Pro-7B κατέκτησε την πρώτη θέση σε τέσσερα από τα επτά σύνολα δεδομένων αξιολόγησης και τη δεύτερη θέση στα υπόλοιπα τρία, ελαφρώς πίσω από το μοντέλο που κατέλαβε την πρώτη θέση.

Για τη δημιουργία εικόνων, Το Janus-Pro-7B κατέκτησε την πρώτη θέση στη συνολική βαθμολογία και στα δύο σύνολα δεδομένων αξιολόγησης GenEval και DPG-Bench.

Αυτό το αποτέλεσμα πολλαπλών εργασιών οφείλεται κυρίως στη χρήση δύο οπτικών κωδικοποιητών για διαφορετικές εργασίες στη σειρά Janus:

  1. Κατανόηση του κωδικοποιητή: χρησιμοποιούνται για την εξαγωγή σημασιολογικών χαρακτηριστικών σε εικόνες για εργασίες κατανόησης εικόνων (όπως ερωτήσεις και απαντήσεις εικόνων, οπτική ταξινόμηση κ.λπ.).
  2. Γενετικός κωδικοποιητής: μετατρέπει τις εικόνες σε διακριτή αναπαράσταση (π.χ. με χρήση κωδικοποιητή VQ) για εργασίες παραγωγής κειμένου σε εικόνα.

Με αυτή την αρχιτεκτονική, το μοντέλο μπορεί να βελτιστοποιήσει ανεξάρτητα την απόδοση κάθε κωδικοποιητή, έτσι ώστε οι εργασίες πολυτροπικής κατανόησης και παραγωγής να επιτυγχάνουν την καλύτερη δυνατή απόδοση.

Αυτή η αποσυνδεδεμένη αρχιτεκτονική είναι κοινή για το Janus-Pro και το Janus. Λοιπόν, τι επαναλήψεις είχε το Janus-Pro τους τελευταίους μήνες;

Όπως φαίνεται από τα αποτελέσματα του συνόλου αξιολόγησης, η τρέχουσα έκδοση του Janus-Pro-1B παρουσιάζει βελτίωση κατά περίπου 10% έως 20% στις βαθμολογίες των διαφόρων συνόλων αξιολόγησης σε σύγκριση με το προηγούμενο Janus. Το Janus-Pro-7B έχει τη μεγαλύτερη βελτίωση κατά περίπου 45% σε σύγκριση με το Janus μετά την επέκταση του αριθμού των παραμέτρων.

Όσον αφορά τις λεπτομέρειες της εκπαίδευσης, η τεχνική έκθεση αναφέρει ότι η τρέχουσα έκδοση του Janus-Pro, σε σύγκριση με το προηγούμενο μοντέλο Janus, διατηρεί τον βασικό σχεδιασμό της αποσυνδεδεμένης αρχιτεκτονικής και επιπλέον επαναλαμβάνει την μέγεθος παραμέτρων, στρατηγική εκπαίδευσης και δεδομένα εκπαίδευσης.

Πρώτον, ας δούμε τις παραμέτρους.

Η πρώτη έκδοση του Janus είχε μόνο 1,3B παραμέτρους και η τρέχουσα έκδοση του Pro περιλαμβάνει μοντέλα με 1B και 7B παραμέτρους.

Αυτά τα δύο μεγέθη αντικατοπτρίζουν την επεκτασιμότητα της αρχιτεκτονικής Janus. Το μοντέλο 1B, το οποίο είναι το ελαφρύτερο, έχει ήδη χρησιμοποιηθεί από εξωτερικούς χρήστες για να εκτελεστεί στο πρόγραμμα περιήγησης με τη χρήση της WebGPU.

Υπάρχει επίσης το στρατηγική κατάρτισης.

Σύμφωνα με τον διαχωρισμό των φάσεων κατάρτισης του Janus, το Janus Pro έχει συνολικά τρεις φάσεις κατάρτισης και το έγγραφο τις διαχωρίζει άμεσα σε Στάδιο Ι, Στάδιο ΙΙ και Στάδιο ΙΙΙ.

Διατηρώντας τις βασικές εκπαιδευτικές ιδέες και τους εκπαιδευτικούς στόχους κάθε φάσης, το Janus-Pro έχει κάνει βελτιώσεις στη διάρκεια της εκπαίδευσης και στα εκπαιδευτικά δεδομένα στις τρεις φάσεις. Ακολουθούν οι συγκεκριμένες βελτιώσεις στις τρεις φάσεις:

Στάδιο I - Μεγαλύτερος χρόνος εκπαίδευσης

Σε σύγκριση με το Janus, το Janus-Pro έχει παρατείνει το χρόνο εκπαίδευσης στο στάδιο Ι, ειδικά στην εκπαίδευση των προσαρμογέων και των κεφαλών εικόνας στο οπτικό μέρος. Αυτό σημαίνει ότι η εκμάθηση των οπτικών χαρακτηριστικών έχει λάβει περισσότερο χρόνο εκπαίδευσης, και ελπίζεται ότι το μοντέλο μπορεί να κατανοήσει πλήρως τα λεπτομερή χαρακτηριστικά των εικόνων (όπως η αντιστοίχιση εικονοστοιχείου-σημασιολογίας).

Αυτή η εκτεταμένη εκπαίδευση συμβάλλει στη διασφάλιση ότι η εκπαίδευση του οπτικού μέρους δεν διαταράσσεται από άλλες ενότητες.

Στάδιο II - Αφαίρεση δεδομένων ImageNet και προσθήκη πολυτροπικών δεδομένων

Στο στάδιο ΙΙ, ο Janus αναφέρθηκε προηγουμένως στην PixArt και εκπαιδεύτηκε σε δύο μέρη. Το πρώτο μέρος εκπαιδεύτηκε χρησιμοποιώντας το σύνολο δεδομένων ImageNet για την εργασία ταξινόμησης εικόνων και το δεύτερο μέρος εκπαιδεύτηκε χρησιμοποιώντας κανονικά δεδομένα κειμένου προς εικόνα. Περίπου τα δύο τρίτα του χρόνου στο Στάδιο II δαπανήθηκαν για την εκπαίδευση στο πρώτο μέρος.

Το Janus-Pro αφαιρεί την εκπαίδευση ImageNet στο στάδιο ΙΙ. Αυτός ο σχεδιασμός επιτρέπει στο μοντέλο να επικεντρωθεί σε δεδομένα κειμένου-εικόνας κατά τη διάρκεια της εκπαίδευσης του σταδίου ΙΙ. Σύμφωνα με τα πειραματικά αποτελέσματα, αυτό μπορεί να βελτιώσει σημαντικά τη χρήση των δεδομένων κειμένου-εικόνας.

Εκτός από την προσαρμογή του σχεδιασμού της μεθόδου εκπαίδευσης, το σύνολο δεδομένων εκπαίδευσης που χρησιμοποιείται στο Στάδιο ΙΙ δεν περιορίζεται πλέον σε ένα έργο ταξινόμησης μιας εικόνας, αλλά περιλαμβάνει επίσης περισσότερους τύπους πολυτροπικών δεδομένων, όπως η περιγραφή εικόνας και ο διάλογος, για κοινή εκπαίδευση.

Στάδιο III - Βελτιστοποίηση της αναλογίας δεδομένων

Στο στάδιο ΙΙΙ της εκπαίδευσης, το Janus-Pro ρυθμίζει την αναλογία των διαφορετικών τύπων δεδομένων εκπαίδευσης.

Προηγουμένως, η αναλογία των δεδομένων πολυτροπικής κατανόησης, των δεδομένων απλού κειμένου και των δεδομένων κειμένου-εικόνας στα δεδομένα εκπαίδευσης που χρησιμοποιήθηκαν από τον Janus στο στάδιο ΙΙΙ ήταν 7:3:10. Το Janus-Pro μειώνει την αναλογία των δύο τελευταίων τύπων δεδομένων και προσαρμόζει την αναλογία των τριών τύπων δεδομένων σε 5:1:4, δηλαδή δίνει μεγαλύτερη προσοχή στην εργασία πολυτροπικής κατανόησης.

Ας δούμε τα δεδομένα εκπαίδευσης.

Σε σύγκριση με το Janus, το Janus-Pro αυτή τη φορά αυξάνει σημαντικά την ποσότητα υψηλής ποιότητας συνθετικά δεδομένα.

Διευρύνει την ποσότητα και την ποικιλία των δεδομένων εκπαίδευσης για την πολυτροπική κατανόηση και τη δημιουργία εικόνων.

Επέκταση των δεδομένων πολυτροπικής κατανόησης:

Το Janus-Pro αναφέρεται στο σύνολο δεδομένων DeepSeek-VL2 κατά τη διάρκεια της εκπαίδευσης και προσθέτει περίπου 90 εκατομμύρια επιπλέον σημεία δεδομένων, συμπεριλαμβανομένων όχι μόνο συνόλων δεδομένων περιγραφής εικόνων, αλλά και συνόλων δεδομένων σύνθετων σκηνών, όπως πίνακες, διαγράμματα και έγγραφα.

Κατά τη διάρκεια του εποπτευόμενου σταδίου τελειοποίησης (Στάδιο ΙΙΙ), συνεχίζει να προσθέτει σύνολα δεδομένων που σχετίζονται με την κατανόηση του MEME και τη βελτίωση της εμπειρίας του διαλόγου (συμπεριλαμβανομένου του κινεζικού διαλόγου).

Επέκταση των δεδομένων οπτικής παραγωγής:

Τα αρχικά δεδομένα του πραγματικού κόσμου είχαν κακή ποιότητα και υψηλά επίπεδα θορύβου, γεγονός που οδήγησε το μοντέλο να παράγει ασταθείς εξόδους και εικόνες ανεπαρκούς αισθητικής ποιότητας σε εργασίες μετατροπής κειμένου σε εικόνα.

Το Janus-Pro πρόσθεσε περίπου 72 εκατομμύρια νέα συνθετικά δεδομένα υψηλής αισθητικής στη φάση εκπαίδευσης, αυξάνοντας την αναλογία πραγματικών δεδομένων προς συνθετικά δεδομένα στη φάση προ-εκπαίδευσης σε 1:1.

Οι προτροπές για τα συνθετικά δεδομένα αντλήθηκαν όλες από δημόσιους πόρους. Τα πειράματα έδειξαν ότι η προσθήκη αυτών των δεδομένων κάνει το μοντέλο να συγκλίνει γρηγορότερα και οι παραγόμενες εικόνες έχουν εμφανείς βελτιώσεις στη σταθερότητα και την οπτική ομορφιά.

Η συνέχιση μιας επανάστασης της αποδοτικότητας;

Συνολικά, με αυτή την έκδοση, η DeepSeek έφερε την επανάσταση της αποδοτικότητας στα οπτικά μοντέλα.

Σε αντίθεση με τα οπτικά μοντέλα που επικεντρώνονται σε μία μόνο λειτουργία ή τα πολυτροπικά μοντέλα που ευνοούν ένα συγκεκριμένο έργο, το Janus-Pro εξισορροπεί τις επιδράσεις των δύο κύριων εργασιών της δημιουργίας εικόνας και της πολυτροπικής κατανόησης στο ίδιο μοντέλο.

Επιπλέον, παρά τις μικρές του παραμέτρους, νίκησε στην αξιολόγηση το OpenAI DALL-E 3 και το SD3-Medium.

Επεκτεταμένη στο έδαφος, η επιχείρηση χρειάζεται μόνο να αναπτύξει ένα μοντέλο για την άμεση εφαρμογή των δύο λειτουργιών της δημιουργίας και της κατανόησης της εικόνας. Σε συνδυασμό με ένα μέγεθος μόνο 7B, η δυσκολία και το κόστος ανάπτυξης είναι πολύ χαμηλότερα.

Σε σχέση με τις προηγούμενες κυκλοφορίες των R1 και V3, η DeepSeek αμφισβητεί τους υφιστάμενους κανόνες του παιχνιδιού με "συμπαγής αρχιτεκτονική καινοτομία, ελαφριά μοντέλα, μοντέλα ανοικτού κώδικα και εξαιρετικά χαμηλό κόστος εκπαίδευσης". Αυτός είναι ο λόγος για τον πανικό μεταξύ των δυτικών τεχνολογικών κολοσσών και ακόμη και της Wall Street.

Μόλις τώρα, ο Sam Altman, ο οποίος έχει παρασυρθεί από την κοινή γνώμη εδώ και αρκετές ημέρες, απάντησε τελικά θετικά στις πληροφορίες σχετικά με το DeepSeek στο X - ενώ εξήρε το R1, είπε ότι το OpenAI θα κάνει κάποιες ανακοινώσεις.

Παρόμοιες θέσεις

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *