Die komplette Erklärung: von DeepSeek Janus bis Janus-Pro!

Botschaft zum Mitnehmen: Janus ist ein einfaches, einheitliches und erweiterbares Modell für multimodales Verstehen und Generieren, das multimodales Verstehen und generierte visuelle Kodierung entkoppelt und potenzielle Konflikte zwischen den beiden Aufgaben entschärft. Es kann erweitert werden, um in Zukunft weitere Eingabemodalitäten einzubeziehen. Janus-Pro baut auf dieser Grundlage auf, indem es die Trainingsstrategie optimiert (einschließlich der Erhöhung der Anzahl der Trainingsschritte, der Anpassung der Datenverhältnisse usw.), mehr Daten hinzufügt (einschließlich der Verwendung synthetischer Daten usw.) und die Modellgröße erhöht (auf 7 Milliarden Parameter), was zu Fortschritten beim multimodalen Verständnis und bei der Befolgung von Text-zu-Bild-Instruktionen des Modells führt.

Adresse des Codes

Janus Pro-Adresse

Janus-Pro ist eine erweiterte Version der früheren Arbeit Janus, insbesondere mit (1) einer optimierten Trainingsstrategie, (2) erweiterten Trainingsdaten und (3) größeren Modellgrößen. Mit diesen Verbesserungen macht Janus-Pro erhebliche Fortschritte beim multimodalen Verstehen und bei der Befolgung von Text-zu-Bild-Anweisungen, während gleichzeitig die Stabilität der Text-zu-Bild-Generierung verbessert wird. Bevor wir Janus-Pro auspacken, wollen wir uns Janus ansehen.

Inhaltsübersicht

Überprüfung von Janus

Der Vorgänger Janus ist ein autoregressiver Rahmen für einheitliches multimodales Verstehen und Generieren, der zur Entkopplung der visuellen Kodierung für einheitliches multimodales Verstehen und Generieren verwendet wird. Für das multimodale Verstehen folgt das Design typischerweise LLaVA, wobei visuelle Kodierer als Brücke verwendet werden, um große Sprachmodelle zum Verstehen von Bildern zu befähigen. Für die Generierung wird in der Regel auf Diffusionsmodelle zurückgegriffen, und einige basieren auf autoregressiven Methoden. Einige Ansätze versuchen, die multimodalen Verstehens- und Generierungsaufgaben mit einem einzigen Transformer zu vereinen, der in der Regel einen einzigen visuellen Codierer zur Verarbeitung der Eingaben beider Aufgaben verwendet.

Es gibt jedoch Unterschiede in den Repräsentationen, die für multimodale Verstehens- und Generierungsaufgaben erforderlich sind. Bei der multimodalen Verstehensaufgabe zielt der visuelle Encoder darauf ab, semantische Informationen auf hoher Ebene zu extrahieren (z. B. Objektkategorien oder visuelle Attribute), und die Ausgabe umfasst nicht nur die Extraktion von Informationen aus dem Bild, sondern auch komplexe semantische Schlussfolgerungen, wobei sich der Encoder hauptsächlich auf hochdimensionale semantische Repräsentationen konzentriert. Die Generierungsaufgabe befasst sich hauptsächlich mit der Erzeugung lokaler Details und der Aufrechterhaltung der globalen Konsistenz im Bild, was niedrigdimensionale kodierte Repräsentationen räumlicher Strukturen und Texturdetails erfordert. Die Vereinheitlichung der Repräsentationen beider Aufgaben in demselben Raum kann zu Konflikten führen.

Janus enthält zwei unabhängige visuelle Kodierungspfade für multimodales Verstehen und Generieren und bietet zwei Vorteile: 1) entschärft Konflikte, die sich aus den unterschiedlichen Granularitätsanforderungen des multimodalen Verstehens und Erzeugens ergeben, und 2) ist flexibel und skalierbar und entkoppelt, so dass sowohl die Verstehens- als auch die Erzeugungsaufgaben mit modernsten, domänenspezifischen Kodierungstechniken kodiert und in Zukunft mit Punktwolken, EEG-Signalen oder Audiodaten gespeist und mit einem einheitlichen Transformator verarbeitet werden können.

Für das Textverständnis wird der Text mit Hilfe des in LLM integrierten Tokenizers in diskrete IDs umgewandelt;

Für das multimodale Verstehen werden hochdimensionale semantische Merkmale in den Bildern mit Hilfe von SigLIP-Encodern extrahiert (Anmerkung des Autors: Cosmos verwendet ebenfalls SigLIP-Encoder im Abschnitt Guardrails), und die extrahierten Merkmale werden mit Hilfe von Adaptor (2-Schicht-MLP) in den Textmerkmalsraum von LLM abgebildet;

Die lange Seite wurde auf 384 Pixel eingestellt und die kurze Seite wurde mit RGB(127, 127, 127) auf 384 Pixel gefüllt;

Für die visuelle Erzeugung wurde das Bild mit dem VQ Tokenizer in diskrete IDs umgewandelt, und jede ID wurde mit dem Adaptor (2-Schicht-MLP) in den textuellen Merkmalsraum des LLM abgebildet;

Kurze Kanten wurden auf 384 Pixel verkleinert und lange Kanten wurden auf 384 Pixel beschnitten;

Das gesamte Training wurde mit 16 Knoten durchgeführt, die jeweils 8 Nvidia A100 GPUs enthielten;

Sowohl für die visuelle Generierung als auch für die multimodalen Verstehensaufgaben werden die Bildmerkmalssequenzen und die Textmerkmalssequenzen als Eingabe für den LLM miteinander verknüpft (im Text wird DeepSeek-LLM 1.3B verwendet);

Der eingebaute Vorhersagekopf des LLM wird für Textvorhersagen sowohl in der reinen Textverstehens- als auch in der multimodalen Verstehensaufgabe verwendet, während ein zufällig initialisierter Vorhersagekopf für Bildvorhersagen in der visuellen Generierungsaufgabe eingesetzt wird. Das gesamte Modell folgt einem autoregressiven Rahmen, ohne dass speziell entwickelte Aufmerksamkeitsmasken erforderlich sind.

Janus-Ausbildung ist in 3 Phasen unterteilt:

Phase 1

Zugadapter und Bildkopf um Verbindungen zwischen sprachlichen und visuellen Elementen im Einbettungsraum zu schaffen, die es dem LLM ermöglichen, Entitäten im Bild zu verstehen und erste visuelle Generierungsfähigkeiten zu haben;

Für das multimodale Verständnis verwenden Sie 1,25 Millionen Bild-Text-Paare aus SHareGPT4V im Format: ;

Für die visuelle Erzeugung werden 1,2 Millionen Beispiele aus ImageNet1k im Format: ;

Phase 2

Einheitliche VorschulungIn dieser Phase wird ein multimodaler Korpus für ein einheitliches Vortraining verwendet, um multimodales Verstehen und Generieren zu lernen. In dieser Phase werden einfache Textdaten, multimodale Verständnisdaten und visuelle Generierungsdaten verwendet. Einfaches Training der visuellen Generierung unter Verwendung von ImageNet-1k, gefolgt von der Verwendung von generischen Text-Bild-Daten zur Verbesserung der visuellen Generierung im offenen Bereich des Modells;

Klartext-Daten: DeepSeek-LLM-Korpus vortrainiert;

Verschachtelte Bild-Text-Daten: WikiHow- und WIT-Datensätze;

Bildunterschriftsdaten: Bilder aus mehreren Quellen und Neuuntertitelung einiger Bilder unter Verwendung von multimodalen Open-Source-Modellen, wobei die Daten als Q&A-Paare formatiert sind, z. B. Beschreiben Sie das Bild im Detail.;

Tabellarische und grafische Daten: entsprechende tabellarische und grafische Daten aus DeepSeek-VL im Format ;

Visuell generierte Daten: Bild-Beschriftungspaare aus mehreren Datensätzen und 2 Millionen interne Daten;

Beim Training wird nur der erste Satz der Überschrift mit einer Wahrscheinlichkeit von 25% zufällig verwendet;

ImageNet-Beispiele erscheinen nur in den ersten 120K Trainingsschritten, während Bilder aus anderen Datensätzen in den nachfolgenden 60K Schritten erscheinen;

Phase 3

Überwachte FeinabstimmungDie zuvor trainierten Modelle werden mit Hilfe von Daten zur Feinabstimmung von Anweisungen feinabgestimmt, um ihre Fähigkeit zu verbessern, Anweisungen und Dialogen zu folgen. Feinabstimmung aller Parameter mit Ausnahme des generierenden Encoders. Ausblenden von System- und Benutzerhinweisen bei der Überwachung der Antworten. Um sicherzustellen, dass Janus sowohl das multimodale Verstehen als auch die Generierung beherrscht, werden die Modelle nicht separat für spezifische Aufgaben feinabgestimmt. Stattdessen verwenden wir eine Mischung aus reinen Textdialogdaten, multimodalen Verstehensdaten und visuellen Generierungsdaten, um die Vielseitigkeit in einer Vielzahl von Szenarien zu gewährleisten;

Textverständnis: verwendet Daten aus bestimmten Quellen;

Multimodales Verstehen: Nutzung von Daten aus verschiedenen Quellen zur Optimierung des Unterrichts;

Visuelle Generierung: Verwendung einer Teilmenge von Bild-Text-Paaren aus einigen der Phase-II-Datensätze sowie von 4 Millionen internen Daten;

Das Datenformat ist: Benutzer: \n Assistent: ;

Ziele der Ausbildung

Janus ist ein autoregressives Modell, das mit einer Kreuzentropie-Verlustfunktion trainiert wird. Bei Aufgaben zum Textverständnis und zum multimodalen Verständnis wird der Verlust auf der Textsequenz berechnet. Für visuelle Generierungsaufgaben wird der Verlust nur auf der Bildsequenz berechnet. Um das Design einfach zu halten, werden den verschiedenen Aufgaben keine unterschiedlichen Verlustgewichte zugewiesen.

Begründung

Mit der nächsten Methode zur Vorhersage lexikalischer Elemente werden für das Textverständnis und das multimodale Verständnis lexikalische Elemente nacheinander aus der Vorhersageverteilung gezogen. Für die Bilderzeugung wird ein klassifikatorloser Bootstrap verwendet.

Mögliche Erweiterungen

Für das multimodale Verstehen könnte 1) ein stärkerer visueller Kodierer gewählt werden und 2) dynamische hochauflösende Techniken verwendet werden;

Für die Generierung von Visionen könnten 1) feinkörnigere Encoder gewählt werden, 2) speziell für die Generierung von Visionen entwickelte Verlustfunktionen verwendet werden und 3) kausale Aufmerksamkeit und parallele Methoden kombiniert werden;

Mehr Modalitäten, mit der Möglichkeit, 3D-Punktwolken, Haptik, EEG und andere Eingaben für Verlustmodalitäten zu integrieren;

Janus-Pro Upgrade

Aufgrund der begrenzten Trainingsdaten und der relativ geringen Modellkapazität (1B) ist Janus in einigen Aspekten mangelhaft, wie z.B. die schlechte Repräsentation der Bilderzeugung bei kurzen Hinweisen und die uneinheitliche Qualität der Text-Bild-Generierung. Janus-Pro hat die gleiche Architektur wie Janus, wie in der Abbildung unten zu sehen ist:

Hauptverbesserungen

Ausbildungsstrategie

Stufe 1: Erhöhen Sie die Anzahl der Trainingsschritte und trainieren Sie vollständig auf ImageNet;

Stufe 2: Keine Verwendung von ImageNet mehr, direkte Verwendung von regulären Text-Bild-Daten für das Training;

Stufe 3: Ändern Sie die Verhältnisse der Datensätze im Feinabstimmungsprozess, indem Sie das Verhältnis von multimodalen Daten, reinen Textdaten und Text-zu-Bild-Daten von 7:3:10 auf 5:1:4 ändern;

Daten-Skala

Multimodales Verständnis

Stufe 2: Hinzufügen von 90 Millionen Beispielen, einschließlich YFCC für Bildunterschriften und Doc-matrix für das Verständnis von Tabellen und Diagrammen;

Stufe 3: Hinzufügen zusätzlicher DeepSeek-VL2-Datensätze, z. B. zum Verständnis von MEME;

Visuelle Generierung: Daten aus der realen Welt können von schlechter Qualität sein, was zu einer instabilen Text-Bild-Generierung und einer schlechten ästhetischen Ausgabe führt. Janus-Pro verwendet 72 Millionen Samples von synthetischen ästhetischen Daten, mit einer einheitlichen Vor-Trainings-Phase (Stufe 2) von 1:1 Verhältnis von realen Daten zu synthetischen Daten;

Modell Skala

Skalierung der Modellparameter auf 7 Milliarden Parameter;

Experimentelle Details

Im Vergleich zu Janus sind die Details der Janus-Pro-Experimente im Wesentlichen gleich. Im Gegensatz dazu wurden bei dem Modell mit den größeren Parametern mehr Clusterknoten verwendet (16 bis 32).

Janus-Pro Trainings-Hyper-Parameter

Unzureichend

Für das multimodale Verstehen ist die Eingabeauflösung auf 384×384 begrenzt, was die Leistung bei feinkörnigen visuellen Aufgaben beeinträchtigt. Bei der Text-zu-Bild-Erzeugung führt die geringe Auflösung zu einem Mangel an Details in den erzeugten Ergebnissen.

Die vollständige Erklärung: von DeepSeek Janus bis Janus-Pro!

Überprüfung von Janus