Μήνυμα για το σπίτι: Το Janus είναι ένα απλό, ενοποιημένο και επεκτάσιμο μοντέλο πολυτροπικής κατανόησης και παραγωγής που αποσυνδέει την πολυτροπική κατανόηση και την παραγόμενη οπτική κωδικοποίηση, αμβλύνοντας τις πιθανές συγκρούσεις μεταξύ των δύο εργασιών. Μπορεί να επεκταθεί για να ενσωματώσει στο μέλλον πρόσθετες μορφές εισόδου. Το Janus-Pro βασίζεται σε αυτό το θεμέλιο βελτιστοποιώντας τη στρατηγική εκπαίδευσης (συμπεριλαμβανομένης της αύξησης του αριθμού των βημάτων εκπαίδευσης, της προσαρμογής των αναλογιών δεδομένων κ.λπ.), της προσθήκης περισσότερων δεδομένων (συμπεριλαμβανομένης της χρήσης συνθετικών δεδομένων κ.λπ.) και της κλιμάκωσης του μεγέθους του μοντέλου (σε 7 δισεκατομμύρια παραμέτρους), γεγονός που οδηγεί σε πρόοδο των δυνατοτήτων του μοντέλου όσον αφορά την πολυτροπική κατανόηση και την προσκόλληση των οδηγιών από κείμενο σε εικόνα.
Janus-Pro είναι μια προηγμένη έκδοση της προηγούμενης εργασίας Janus, συγκεκριμένα, περιλαμβάνοντας (1) μια βελτιστοποιημένη στρατηγική εκπαίδευσης, (2) διευρυμένα δεδομένα εκπαίδευσης και (3) μεγαλύτερα μεγέθη μοντέλων. Με αυτές τις βελτιώσεις, το Janus-Pro σημειώνει σημαντική πρόοδο στις δυνατότητες πολυτροπικής κατανόησης και προσκόλλησης οδηγιών από κείμενο σε εικόνα, ενώ παράλληλα ενισχύει τη σταθερότητα της δημιουργίας κειμένου σε εικόνα. Πριν από την ανάλυση του Janus-Pro, ας κάνουμε μια ανασκόπηση του Janus.
Ανασκόπηση του Janus
Ο προκάτοχος Janus είναι ένα αυτοπαλίνδρομο πλαίσιο για ενοποιημένη πολυτροπική κατανόηση και παραγωγή, το οποίο χρησιμοποιείται για την αποσύνδεση της οπτικής κωδικοποίησης για ενοποιημένη πολυτροπική κατανόηση και παραγωγή. Για την πολυτροπική κατανόηση, ο σχεδιασμός ακολουθεί συνήθως την LLaVA, χρησιμοποιώντας οπτικούς κωδικοποιητές ως γέφυρα για να μπορέσουν τα μεγάλα γλωσσικά μοντέλα να κατανοήσουν εικόνες. Για την παραγωγή, βασίζεται συνήθως σε μοντέλα διάχυσης, ενώ ορισμένα βασίζονται σε αυτοπαλίνδρομες μεθόδους. Ορισμένες προσεγγίσεις επιχειρούν να χρησιμοποιήσουν έναν ενιαίο μετασχηματιστή για να προσπαθήσουν να ενοποιήσουν τις εργασίες πολυτροπικής κατανόησης και παραγωγής, ο οποίος συνήθως χρησιμοποιεί έναν ενιαίο οπτικό κωδικοποιητή για την επεξεργασία των εισόδων και των δύο εργασιών.
Ωστόσο, υπάρχουν διαφορές στις αναπαραστάσεις που απαιτούνται για τις εργασίες πολυτροπικής κατανόησης και παραγωγής. Στην εργασία πολυτροπικής κατανόησης, ο οπτικός κωδικοποιητής στοχεύει στην εξαγωγή σημασιολογικών πληροφοριών υψηλού επιπέδου (π.χ. κατηγορίες αντικειμένων ή οπτικά χαρακτηριστικά) και η παραγωγή περιλαμβάνει όχι μόνο την εξαγωγή πληροφοριών από την εικόνα, αλλά και σύνθετους σημασιολογικούς συλλογισμούς, με τον κωδικοποιητή να εστιάζει κυρίως σε σημασιολογικές αναπαραστάσεις υψηλής διάστασης. Η εργασία παραγωγής αφορά κυρίως τη δημιουργία τοπικών λεπτομερειών και τη διατήρηση της συνολικής συνοχής στην εικόνα, απαιτώντας έτσι χαμηλής διάστασης κωδικοποιημένες αναπαραστάσεις χωρικών δομών και λεπτομερειών υφής. Η ενοποίηση των αναπαραστάσεων και των δύο εργασιών στον ίδιο χώρο μπορεί να οδηγήσει σε συγκρούσεις.
Το Janus περιέχει 2 ανεξάρτητες οπτικές διαδρομές κωδικοποίησης για πολυτροπική κατανόηση και παραγωγή και προσφέρει δύο πλεονεκτήματα: 1) αμβλύνει τις συγκρούσεις που απορρέουν από τις διαφορετικές απαιτήσεις κοκκομετρίας της πολυτροπικής κατανόησης και της παραγωγής και 2) είναι ευέλικτη και κλιμακούμενη, αποσυνδέοντας έτσι ώστε τόσο οι εργασίες κατανόησης όσο και οι εργασίες παραγωγής να μπορούν να κωδικοποιηθούν με τη χρήση σύγχρονων τεχνικών κωδικοποίησης ειδικά για τους τομείς τους και στο μέλλον να μπορούν να τροφοδοτηθούν με σημειακά νέφη, σήματα EEG ή δεδομένα ήχου και να υποβληθούν σε επεξεργασία με τη χρήση ενός ενοποιημένου Στο μέλλον, σημειακά νέφη, σήματα EEG ή δεδομένα ήχου μπορούν να εισαχθούν και να υποβληθούν σε επεξεργασία με τη χρήση ενός ενοποιημένου μετασχηματιστή.
Για την κατανόηση κειμένου, το κείμενο μετατρέπεται σε διακριτά αναγνωριστικά χρησιμοποιώντας τον ενσωματωμένο Tokenizer του LLM,
Για την πολυτροπική κατανόηση, τα υψηλής διάστασης σημασιολογικά χαρακτηριστικά στις εικόνες εξάγονται χρησιμοποιώντας κωδικοποιητές SigLIP (σημείωση του συγγραφέα: το Cosmos χρησιμοποιεί επίσης κωδικοποιητές SigLIP στην ενότητα Guardrails), και τα εξαγόμενα χαρακτηριστικά αντιστοιχίζονται στο χώρο χαρακτηριστικών κειμένου του LLM χρησιμοποιώντας Adaptor (MLP 2 επιπέδων),
Η μεγάλη πλευρά προσαρμόστηκε στα 384 pixels και η μικρή πλευρά συμπληρώθηκε στα 384 pixels χρησιμοποιώντας RGB(127, 127, 127),
Για την οπτική παραγωγή, η εικόνα μετατράπηκε σε διακριτές ταυτότητες με τη χρήση του VQ Tokenizer και κάθε ταυτότητα αντιστοιχήθηκε στο χώρο κειμενικών χαρακτηριστικών του LLM με τη χρήση του Adaptor (MLP 2 επιπέδων),
Οι κοντές άκρες προσαρμόστηκαν στα 384 pixels και οι μακριές άκρες περικόπηκαν στα 384 pixels,
Η συνολική εκπαίδευση πραγματοποιήθηκε με τη χρήση 16 κόμβων, καθένας από τους οποίους περιείχε 8 GPU Nvidia A100,
Τόσο για τις εργασίες οπτικής παραγωγής όσο και για τις εργασίες πολυτροπικής κατανόησης, οι ακολουθίες χαρακτηριστικών εικόνας και οι ακολουθίες χαρακτηριστικών κειμένου συνδέονται μαζί ως είσοδος στον LLM (στο κείμενο χρησιμοποιείται το DeepSeek-LLM 1.3B),
Η ενσωματωμένη κεφαλή πρόβλεψης του LLM χρησιμοποιείται για τις προβλέψεις κειμένου τόσο στις εργασίες κατανόησης καθαρού κειμένου όσο και στις εργασίες πολυτροπικής κατανόησης, ενώ μια τυχαία αρχικοποιημένη κεφαλή πρόβλεψης χρησιμοποιείται για τις προβλέψεις εικόνας στην εργασία οπτικής δημιουργίας. Ολόκληρο το μοντέλο ακολουθεί ένα αυτοπαλίνδρομο πλαίσιο χωρίς την ανάγκη ειδικά σχεδιασμένων μασκών προσοχής.
Εκπαίδευση Janus χωρίζεται σε 3 φάσεις:
Φάση 1
Προσαρμογέας τρένου και κεφαλή εικόνας να δημιουργήσει συνδέσεις μεταξύ γλωσσικών και οπτικών στοιχείων στο χώρο ενσωμάτωσης, επιτρέποντας στο LLM να κατανοεί οντότητες στην εικόνα και να έχει αρχικές δυνατότητες οπτικής παραγωγής,
Για την πολυτροπική κατανόηση, χρησιμοποιήστε 1,25 εκατομμύρια δεδομένα εικόνας-κειμένου σε ζεύγη λεζάντας από το SHareGPT4V στη μορφή: ,
Για την οπτική παραγωγή, χρησιμοποιώντας 1,2 εκατομμύρια δείγματα από το ImageNet1k στη μορφή: ,
Φάση 2
Ενοποιημένη προ-εκπαίδευση, χρησιμοποιώντας ένα πολυτροπικό σώμα κειμένων για ενοποιημένη προ-εκπαίδευση για την εκμάθηση της πολυτροπικής κατανόησης και παραγωγής. Σε αυτή τη φάση χρησιμοποιούνται δεδομένα απλού κειμένου, δεδομένα πολυτροπικής κατανόησης και δεδομένα οπτικής παραγωγής. Απλή εκπαίδευση οπτικής παραγωγής με τη χρήση του ImageNet-1k, ακολουθούμενη από τη χρήση γενικών δεδομένων κειμένου προς εικόνα για την ενίσχυση της οπτικής παραγωγής στον ανοιχτό τομέα του μοντέλου,
Δεδομένα απλού κειμένου: DeepSeek-LLM,
Διασυνδεδεμένα δεδομένα εικόνας-κειμένου: WikiHow και WIT,
Δεδομένα λεζάντας εικόνας: Εικόνες από πολλαπλές πηγές και επαναπροσδιορισμός των λεζάντων σε ορισμένες από τις εικόνες χρησιμοποιώντας πολυτροπικά μοντέλα ανοικτού κώδικα, με δεδομένα διαμορφωμένα ως ζεύγη ερωτήσεων και απαντήσεων, π.χ. Περιγράψτε την εικόνα λεπτομερώς.
Πίνακες και γραφικά δεδομένα: αντίστοιχα δεδομένα σε πίνακες και γραφικά από το DeepSeek-VL με τη μορφή ,
Οπτικά παραγόμενα δεδομένα: ζεύγη εικόνων-επικεφαλίδων από πολλαπλά σύνολα δεδομένων και 2 εκατομμύρια εσωτερικά δεδομένα,
Κατά τη διάρκεια της εκπαίδευσης, μόνο η πρώτη πρόταση της λεζάντας χρησιμοποιείται τυχαία με πιθανότητα 25%,
Τα δείγματα του ImageNet εμφανίζονται μόνο στα αρχικά 120K βήματα εκπαίδευσης, ενώ εικόνες από άλλα σύνολα δεδομένων εμφανίζονται στα επόμενα 60K βήματα,
Φάση 3
Επιβλεπόμενη τελειοποίηση, όπου τα προ-εκπαιδευμένα μοντέλα τελειοποιούνται χρησιμοποιώντας δεδομένα τελειοποίησης οδηγιών για να βελτιώσουν την ικανότητά τους να ακολουθούν οδηγίες και διαλόγους. Λεπτή ρύθμιση όλων των παραμέτρων εκτός από τον κωδικοποιητή παραγωγής. Απόκρυψη των ενδείξεων του συστήματος και του χρήστη κατά την εποπτεία των απαντήσεων. Για να διασφαλιστεί ότι ο Janus έχει επάρκεια τόσο στην πολυτροπική κατανόηση όσο και στην παραγωγή, τα μοντέλα δεν τελειοποιούνται ξεχωριστά για συγκεκριμένες εργασίες. Αντ' αυτού, χρησιμοποιούμε ένα μείγμα δεδομένων διαλόγου μόνο για κείμενο, δεδομένων πολυτροπικής κατανόησης και δεδομένων οπτικής παραγωγής, ώστε να εξασφαλίσουμε ευελιξία σε διάφορα σενάρια,
Κατανόηση κειμένου: χρησιμοποιεί δεδομένα από συγκεκριμένες πηγές,
Πολυτροπική κατανόηση: χρήση δεδομένων από πολλαπλές πηγές για τον συντονισμό της διδασκαλίας,
Οπτική παραγωγή: χρησιμοποιώντας ένα υποσύνολο ζευγών εικόνας-κειμένου από ορισμένα από τα σύνολα δεδομένων της φάσης ΙΙ καθώς και 4 εκατομμύρια εσωτερικά δεδομένα,
Η μορφή των δεδομένων είναι: \n Βοηθός: ,
Στόχοι κατάρτισης
Το Janus είναι ένα αυτοπαλίνδρομο μοντέλο που εκπαιδεύεται χρησιμοποιώντας μια συνάρτηση απώλειας διασταυρούμενης εντροπίας, για εργασίες κατανόησης απλού κειμένου και πολυτροπικής κατανόησης η απώλεια υπολογίζεται στην ακολουθία κειμένου. Για εργασίες οπτικής παραγωγής, η απώλεια υπολογίζεται μόνο στην ακολουθία εικόνων. Για να διατηρηθεί ο απλός σχεδιασμός, δεν αποδίδονται διαφορετικά βάρη απωλειών στις διάφορες εργασίες.
Συλλογισμός
Χρησιμοποιώντας την επόμενη μέθοδο πρόβλεψης λεξικών στοιχείων, για την κατανόηση απλού κειμένου και την πολυτροπική κατανόηση, τα λεξικά στοιχεία λαμβάνονται διαδοχικά από την κατανομή πρόβλεψης. Για τη δημιουργία εικόνων, χρησιμοποιείται μια διαδικασία εκκίνησης χωρίς ταξινομητή.
Πιθανές επεκτάσεις
Για την πολυτροπική κατανόηση, 1) θα μπορούσε να επιλεγεί ένας ισχυρότερος οπτικός κωδικοποιητής και 2) να χρησιμοποιηθούν δυναμικές τεχνικές υψηλής ανάλυσης,
Για τη δημιουργία όρασης, θα μπορούσαν να επιλεγούν 1) πιο λεπτοί κωδικοποιητές, 2) χρήση συναρτήσεων απώλειας ειδικά σχεδιασμένων για τη δημιουργία όρασης και 3) συνδυασμός αιτιώδους προσοχής και παράλληλων μεθόδων,
Περισσότερες λειτουργίες, με τη δυνατότητα ενσωμάτωσης τρισδιάστατων νεφών σημείων, απτικών στοιχείων, ηλεκτροεγκεφαλογραφήματος και άλλων εισόδων για λειτουργίες απώλειας,
Αναβάθμιση Janus-Pro
Με περιορισμένα δεδομένα εκπαίδευσης και σχετικά μικρή χωρητικότητα μοντέλου (1B), το Janus παρουσιάζει ελλείψεις σε ορισμένες πτυχές, όπως η ανεπαρκής αναπαράσταση της παραγωγής εικόνων υπό σύντομες ενδείξεις και η ασυνεχής ποιότητα της παραγωγής κειμένου σε εικόνα.Η αρχιτεκτονική του Janus-Pro είναι η ίδια με αυτή του Janus, όπως φαίνεται στο παρακάτω σχήμα:
Κύριες βελτιώσεις
Στρατηγική κατάρτισης
Στάδιο 1: Αύξηση του αριθμού των βημάτων εκπαίδευσης και πλήρης εκπαίδευση στο ImageNet,
Στάδιο 2: Δεν χρησιμοποιείται πλέον το ImageNet, χρησιμοποιούνται απευθείας κανονικά δεδομένα κειμένου-εικόνας για εκπαίδευση,
Στάδιο 3: Τροποποιήστε τις αναλογίες των συνόλων δεδομένων κατά τη διαδικασία τελειοποίησης, αλλάζοντας την αναλογία των πολυτροπικών δεδομένων, των δεδομένων απλού κειμένου και των δεδομένων κειμένου προς εικόνα από 7:3:10 σε 5:1:4,
Κλίμακα δεδομένων
Πολυτροπική κατανόηση
Στάδιο 2: Προσθήκη 90 εκατομμυρίων δειγμάτων, συμπεριλαμβανομένου του YFCC για τη λεζάντα εικόνας και του Doc-matrix για την κατανόηση εγγράφων πινάκων και διαγραμμάτων,
Στάδιο 3: Προσθήκη πρόσθετων συνόλων δεδομένων DeepSeek-VL2, όπως η κατανόηση MEME,
Οπτική παραγωγή: τα δεδομένα του πραγματικού κόσμου μπορεί να περιέχουν κακή ποιότητα, με αποτέλεσμα την ασταθή παραγωγή κειμένου σε εικόνα και την κακή αισθητική απόδοση, το Janus-Pro χρησιμοποιεί 72 εκατομμύρια δείγματα συνθετικών αισθητικών δεδομένων, με μια ομοιόμορφη φάση προ-εκπαίδευσης (στάδιο 2) με αναλογία 1:1 μεταξύ πραγματικών δεδομένων και συνθετικών δεδομένων,
Μοντέλο κλίμακας
Κλιμάκωση των παραμέτρων του μοντέλου σε κλίμακα 7 δισεκατομμυρίων παραμέτρων,
Πειραματικές λεπτομέρειες
Σε σύγκριση με το Janus, οι λεπτομέρειες των πειραμάτων Janus-Pro είναι βασικά οι ίδιες. Αντίθετα, το μοντέλο με τις μεγαλύτερες παραμέτρους χρησιμοποίησε περισσότερους κόμβους συστάδας (16 έως 32).
Janus-Pro υπερπαράμετροι εκπαίδευσης
Ανεπαρκές
Για την πολυτροπική κατανόηση, η ανάλυση εισόδου περιορίζεται σε 384×384, γεγονός που επηρεάζει την απόδοση σε λεπτόκοκκες οπτικές εργασίες. Για την παραγωγή κειμένου σε εικόνα, η χαμηλή ανάλυση έχει ως αποτέλεσμα την έλλειψη λεπτομέρειας στα παραγόμενα αποτελέσματα.