Έκρηξη! DeepSeekτο δώρο του Κινέζικου Νέου Έτους - μια λεπτομερής εξήγηση του πολυτροπικού μοντέλου Janus-Pro

Το τελευταίο μοντέλο Janus-Pro της DeepSeek συνδέει άμεσα τον "αριστερό και τον δεξιό εγκέφαλο" της πολυτροπικής τεχνητής νοημοσύνης!

Αυτός ο δολοφόνος με τα δύο πρόσωπα, ο οποίος μπορεί ταυτόχρονα να κατανοεί εικόνες και κείμενα και να δημιουργεί εικόνες, ξαναγράφει τους κανόνες του κλάδου με το πλαίσιο που έχει αναπτύξει ο ίδιος.

Αυτό δεν είναι μια απλή υπέρθεση λειτουργιών, αλλά με την αποσύνδεση της οπτικής διαδρομής κωδικοποίησης, το μοντέλο πέτυχε το πραγματικό "ένα μυαλό, δύο χρήσεις".

Τα παραδοσιακά πολυτροπικά μοντέλα είναι σαν να χρησιμοποιείς το ίδιο χέρι για να γράψεις και να σχεδιάσεις, ενώ το Janus-Pro εξοπλίζει άμεσα την ΤΝ με δύο νευρωνικά συστήματα!

Επανάσταση του πλαισίου: επίλυση του αιωνόβιου προβλήματος της πολυτροπικότητας

Η πιο ανελέητη καινοτομία του Janus-Pro είναι ο διαχωρισμός της οπτικής κωδικοποίησης σε δύο ανεξάρτητα κανάλια.

Είναι σαν να εξοπλίζετε την ΤΝ με το μάτι της κατανόησης και το χέρι της δημιουργίας, ώστε το μοντέλο να μην δυσκολεύεται πλέον κατά την επεξεργασία της "περιγραφής εικόνας" και της "μετατροπής κειμένου σε εικόνα".

Η μεγαλύτερη καινοτομία του έγκειται στον ολοκαίνουργιο σχεδιασμό της ενοποιημένης αρχιτεκτονικής του. Αυτή η αρχιτεκτονική αποτελείται από τρία βασικά στοιχεία:

Αυτόματος κωδικοποιητής: ως το βασικό γλωσσικό μοντέλο

SigLIP-L@384: υπεύθυνος για την κωδικοποίηση της κατανόησης της εικόνας

VQ-VAE με βάση το LlamaGen: για τη δημιουργία εικόνων

Αποσυνδέοντας την οπτική κωδικοποίηση σε ανεξάρτητες διαδρομές, διατηρώντας παράλληλα μια ενιαία αρχιτεκτονική μετασχηματιστή, το Janus-Pro λύνει με έξυπνο τρόπο τη σύγκρουση ρόλων των προηγούμενων μοντέλων στον οπτικό κωδικοποιητή.

Ο @reach_vb επισημαίνει τη βασική καινοτομία στην αρχιτεκτονική:

Το μοντέλο βασίζεται στο DeepSeek-LLM-1.5b/7b, χρησιμοποιεί το SigLIP-L για την επεξεργασία των εισόδων εικόνας 384×384 και αποσυνδέει τη διαδικασία κωδικοποίησης μέσω μονοπατιών ειδικών εργασιών.

Αυτός ο σχεδιασμός επιτρέπει στο μοντέλο να εναλλάσσεται απρόσκοπτα μεταξύ πολυτροπικών εργασιών, διατηρώντας παράλληλα μια ενιαία αρχιτεκτονική Transformer.

Στρατηγική κατάρτισης: η εξελικτική πορεία προς την επιτυχία τριών βημάτων

Η ομάδα DeepSeek υιοθέτησε μια προσεκτικά σχεδιασμένη διαδικασία εκπαίδευσης τριών σταδίων:

Στάδιο 1: Εκπαίδευση νέων παραμέτρων στο σύνολο δεδομένων ImageNet για τη δημιουργία εννοιολογικών συνδέσεων μεταξύ οπτικών και γλωσσικών στοιχείων

Στάδιο 2: Εισαγωγή ενός πολυτροπικού υβριδικού συνόλου δεδομένων για πλήρη ρύθμιση των παραμέτρων

Στάδιο 3: Βελτίωση των δυνατοτήτων παρακολούθησης εντολών και διαλόγου μέσω επιτηρούμενης τελειοποίησης

Καινοτόμες προσαρμογές έγιναν επίσης στην αναλογία δεδομένων:

Εργασία κατανόησης εικόνας: 50% (σημαντική αύξηση)

Εργασία δημιουργίας εικόνας: 40

Εργασία κειμένου: 10%

Ο @iScienceLuvr επισημαίνει το μυστικό της εκπαίδευσης:

Το ποσοστό των εργασιών κειμένου μειώθηκε σκόπιμα κατά το τρίτο στάδιο της τελειοποίησης.

Αυτό αναγκάζει το μοντέλο να εστιάσει την υπολογιστική του ισχύ στη διατροπική μετατροπή

Δάσκαλος επιδόσεων

Αυτό το "πολυτάλαντο" τέρας σκοτώνει στις δύο βασικές μετρήσεις!

Οι επίσημες δοκιμές δείχνουν ότι το Janus-Pro όχι μόνο ξεπερνά το προηγούμενο ενοποιημένο μοντέλο, αλλά μπορεί να τα βάλει ακόμα και με εξειδικευμένα μοντέλα - σημειώνοντας τόσο υψηλή βαθμολογία όσο το LLaVA στην εργασία κατανόησης και ξεπερνώντας το DALL-E 3 στην ποιότητα της γενιάς!

Με βαθμολογία GenEval 0,8, ντροπιάζει το SD3-Medium.

και βαθμολογία DPG-Bench 84,19, η ποιότητα της οπτικής δημιουργίας του είναι κοντά σε αυτή των επαγγελματιών σχεδιαστών

Αυτό βασίζεται σε μια στρατηγική εκπαίδευσης 72 εκατομμυρίων συνθετικών εικόνων και σε τρία στάδια εκπαίδευσης (εκπαίδευση προσαρμογής → ενοποιημένη προ-εκπαίδευση → επιτηρούμενη τελειοποίηση), η οποία έχει κυριολεκτικά μετατρέψει το μοντέλο σε έναν "πολυτροπικό δάσκαλο".

Ο @dr_cintas δημοσίευσε μια σύγκριση των πραγματικών μετρήσεων:

Εκτελώντας μια κβαντισμένη έκδοση 4-bit σε ένα iPhone, η ταχύτητα εξαγωγής συμπερασμάτων είναι σχεδόν 60 tokens/s.

Η μικρογραφία 384×384 που δημιουργείται μπορεί πραγματικά να διαβάσει το κείμενο της πινακίδας κυκλοφορίας

Στη δοκιμή αναφοράς πολυτροπικής κατανόησης, το Janus-Pro-7B έδειξε εκπληκτική δύναμη:

ΠΆΠΑΣ: 87.4%

MME-PT: 1567.1

MMBench: 79.2

SEED: 72.1

MMMU: 41.0

MM-Vet: 50.0

Όσον αφορά τη δημιουργία εικόνων, το μοντέλο πέτυχε βαθμολογία GenEval 0,8 και βαθμολογία DPG-Bench 84,19, ξεπερνώντας πολλά mainstream μοντέλα, όπως το DALL-E 3 και το SD3-Medium.

MIT open source: παίξτε ελεύθερα!

Η DeepSeek έχει αλλάξει τα δεδομένα αυτή τη φορά - η διπλή έκδοση 7B/1B είναι πλήρως ανοιχτού κώδικα και η άδεια MIT επιτρέπει εμπορικές τροποποιήσεις!

Το Hugging Face μπορείτε να το κατεβάσετε αμέσως, και ακόμη και η ελαφριά έκδοση 1B μπορεί να εκτελεστεί τοπικά σε ένα iPhone.

Ο προγραμματιστής @angrypenguinPNG έκανε μια ζωντανή επίδειξη:

Πληκτρολογήστε "future city night scene" και σε δευτερόλεπτα εμφανίστηκε ένα cyberpunk street view.

Κάντε ζουμ για να εξετάσετε τις λεπτομέρειες της σκηνής και το μοντέλο μπορεί να περιγράψει με ακρίβεια την κλίση των φώτων νέον.

Πρακτική αξία: μείωση του φραγμού εισόδου

Για να καλύψει τις ανάγκες διαφορετικών σεναρίων, το DeepSeek παρέχει δύο εκδόσεις:

Janus-Pro-7B: η πλήρης έκδοση, με ισχυρές επιδόσεις

Janus-Pro-1B: μια ελαφριά έκδοση που μπορεί να εκτελεστεί απευθείας στο πρόγραμμα περιήγησης

Και οι δύο εκδόσεις έχουν ανοιχτή πηγή στην πλατφόρμα Hugging Face και έχουν κυκλοφορήσει με την άδεια MIT, ώστε οι προγραμματιστές να μπορούν να τις χρησιμοποιούν και να τις τροποποιούν ελεύθερα.

Η ολοκληρωμένη επανάσταση της DeepSeek

Τώρα το πιο συναρπαστικό ερώτημα είναι: όταν η κατανόηση και η παραγωγή δεν απαιτούν πλέον δύο ξεχωριστά μοντέλα, θα διαταραχθεί συλλογικά η υπάρχουσα αρχιτεκτονική εφαρμογών ΤΝ;

Όσοι εξακολουθούν να παλεύουν με εφαρμογές ενός τρόπου θα πρέπει να εξετάσουν το ενδεχόμενο ανάπτυξης συνεργατικών εφαρμογών για τον αριστερό και τον δεξιό εγκέφαλο.

Εξάλλου, ένα μοντέλο που μπορεί να παίζει ταυτόχρονα με κείμενο και γραφικά είναι η πραγματική ενσάρκωση της πολυτροπικότητας.

Αξίζει να σημειωθεί ότι η απελευθέρωση του Janus-Pro είναι μόνο μία από μια σειρά πρόσφατων σημαντικών ανακαλύψεων της DeepSeek:

Η Perplexity ενσωμάτωσε το μοντέλο DeepSeek R1 για αναζήτηση σε βάθος στον ιστό

Η αποσταγμένη έκδοση DeepSeek R1 επιτυγχάνει τοπική ταχύτητα εξαγωγής συμπερασμάτων 60 tokens/s στο iPhone

Το DeepSeek AI Assistant ανέβηκε στην κορυφή της δωρεάν λίστας του App Store

και κατέδειξε εξαιρετικά γρήγορες επιδόσεις εξαγωγής συμπερασμάτων στην πλατφόρμα Groq.

Αυτά τα επιτεύγματα καταδεικνύουν την ολοκληρωμένη δύναμη της DeepSeek στον τομέα της τεχνητής νοημοσύνης και η πρωτοποριακή πρόοδος του Janus-Pro έχει ανοίξει νέες κατευθύνσεις για την ανάπτυξη της πολυτροπικής τεχνητής νοημοσύνης.

Janus pro Σχετικοί σύνδεσμοι και έγγραφα

Διεύθυνση του έργου:

Αποθετήριο GitHub

Τεχνική έκθεση

Λήψεις μοντέλων:

Janus-Pro-7B

Janus-Pro-1B

Γρήγορη εμπειρία:

Χωρίς ανάπτυξη, δωρεάν, online χρήση janus pro

Τεκμηρίωση αναφοράς:

Οδηγός γρήγορης εκκίνησης

Επίσημη εκδήλωση DeepSeek

Τέλος, θα θέλαμε να πούμε: Το όνομα της εταιρείας του Σαμ Άλτμαν, η πίτα που ζωγράφισε και η διαδρομή που σκέφτηκε φαίνεται να περνάει σε αυτή την κινεζική εταιρεία με γνώμονα την περιέργεια, η οποία θα συνεχίσει την εις βάθος εξερεύνηση των ορίων της νοημοσύνης!

Παρόμοιες θέσεις

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *