ShareGPT-4o-Image ist ein umfangreicher, hochwertiger Datensatz zur Bildgenerierung, bei dem alle Bilder mit den Bildgenerierungsfunktionen von GPT-4o generiert werden.

Dieser Datensatz zielt darauf ab, die Vorteile multimodaler Open-Source-Modelle mit den Stärken von GPT-4o bei der Erstellung visueller Inhalte zu kombinieren.

Es enthält 45.000 Text-zu-Bild- und 46.000 Bild-zu-Text-Beispiele und ist somit eine praktische Ressource zur Verbesserung multimodaler Modelle bei der Bildgenerierung und -bearbeitung.

Janus-4o ist ein multimodales LLM, das Text-zu-Bild- und Text-und-Bild-zu-Bild-Generierung ermöglicht. Es basiert auf Janus-Pro und wurde mithilfe des ShareGPT-4o-Image-Datensatzes optimiert. Im Vergleich zu Janus-Pro bietet Janus-4o die Möglichkeit zur Text-und-Bild-zu-Bild-Generierung und erzielt deutliche Verbesserungen bei der Text-zu-Bild-Generierung.

Datensatzübersicht

Der ShareGPT-4o-Image-Datensatz enthält 91.000 Beispiele für die GPT-4o-Bildgenerierung, die wie folgt kategorisiert sind:

  • Text-zu-Bild: 45.717
  • Text-plus-Bild-zu-Bild: 46.539

Weiterführende Links

Code: Github, klicken Sie hier

Modell: Holen Sie sich das ShareGPT-4o-Image-Modell

Papier: hier klicken

Einführung

Jüngste Fortschritte bei multimodalen Generierungsmodellen haben eine realistische, anweisungsorientierte Bildgenerierung ermöglicht. Führende Systeme wie GPT-4o-Image bleiben jedoch proprietär und unzugänglich.

Um diese Funktionen der Öffentlichkeit zugänglich zu machen, stellt das Papier ShareGPT-4o-Image vor, den ersten Datensatz mit 45.000 Text-zu-Bild- und 46.000 Text-plus-Bild-zu-Bild-Beispielen, die alle mithilfe der Bildgenerierungsfunktionen von GPT-4o synthetisiert wurden, um seine erweiterten Bildgenerierungsfähigkeiten zu verfeinern. Unter Verwendung dieses Datensatzes entwickelte das Papier Janus-4o, ein multimodales großes Sprachmodell, das Text-zu-Bild- und Text-plus-Bild-zu-Bild-Generierung ermöglicht.

Janus-4o verbessert im Vergleich zu seinem Vorgänger Janus-Pro nicht nur die Möglichkeiten zur Text-zu-Bild-Generierung erheblich, sondern führt auch Möglichkeiten zur Text-plus-Bild-zu-Bild-Generierung ein. Insbesondere erreicht es eine beeindruckende Leistung bei der Generierung von Bildern aus Text und Bildern von Grund auf mit nur 91.000 synthetischen Samples und einem 6-stündigen Training auf einer 8×A800-GPU-Maschine.

Wir hoffen, dass die Veröffentlichung von ShareGPT-4o-Image und Janus-4o die offene Forschung zur fotorealistischen, anweisungsorientierten Bilderzeugung fördern wird.

Methodenübersicht

ShareGPT-4o-Image verbessert die Leistung der Bildgenerierung. Durch die Feinabstimmung von Janus-Pro mit ShareGPT-4o-Image haben wir Janus-4o generiert, das eine deutlich verbesserte Bildgenerierungsleistung aufweist. Janus-4o unterstützt auch die Text-zu-Bild- und Bild-zu-Bild-Generierung und übertrifft andere Benchmarks mit nur 91.000 Trainingsbeispielen.

Übersicht über das Janus-4o-Modell. Das Modell basiert auf Janus-Pro und wurde durch Feinabstimmung auf ShareGPT-4o-Image erstellt. Es enthält Verbesserungen zur Unterstützung der Text-zu-Bild- und Bild-zu-Bild-Generierung. Sowohl Text-zu-Bild- als auch Text-zu-Bild-Aufgaben werden gemeinsam trainiert.

Experimentelle Ergebnisse

Schlussfolgerungen

ShareGPT-4o-Image ist der erste groß angelegte Datensatz, der die fortschrittlichen Bildgenerierungsfunktionen von GPT-4o in der Text-zu-Bild- und Text-zu-Bild-Generierung erfasst. Basierend auf diesem Datensatz entwickelte das Paper Janus-4o, ein maschinelles Lernmodell (MLLM), das hochwertige Bilder aus reinem Text oder Bild-Text-Kombinationen generieren kann.

Janus-4o erzielt erhebliche Verbesserungen bei der Text-zu-Bild-Generierung und erzielt bei Text-zu-Bild-Aufgaben äußerst wettbewerbsfähige Ergebnisse, was die hohe Qualität und Praktikabilität von ShareGPT-4o-Image demonstriert.

Dank der Effizienz der selbstregressiven Bildgenerierung auf Basis von MLLM kann Janus-4o in nur 6 Stunden auf einer 8×A800-GPU-Maschine trainiert werden und erzielt erhebliche Leistungsverbesserungen bei extrem geringem Rechenaufwand.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert