Distribuiți imaginea GPT-4o este un set de date de generare a imaginilor la scară largă și de înaltă calitate, în care toate imaginile sunt generate folosind capacitățile de generare a imaginilor ale GPT-4o.
Acest set de date își propune să combine avantajele modelelor multimodale open-source cu punctele forte ale GPT-4o în crearea de conținut vizual.
Include 45.000 de exemple de conversii text-imagine și 46.000 de conversii imagine-text, ceea ce îl face o resursă practică pentru îmbunătățirea modelelor multimodale în sarcinile de generare și editare a imaginilor.

Janus-4o este un LLM multimodal capabil de generare text-imagine și text+imagine-imagine. Se bazează pe Janus-Pro și este optimizat folosind setul de date ShareGPT-4o-Image. Comparativ cu Janus-Pro, Janus-4o introduce capacități de generare text+imagine-imagine și realizează îmbunătățiri semnificative în generarea text-imagine.
Prezentare generală a setului de date
Setul de date ShareGPT-4o-Image conține 91.000 de mostre de generare a imaginilor GPT-4o, clasificate după cum urmează:
- Text-imagine: 45.717
- Text-plus-imagine-în-imagine: 46.539
Linkuri conexe
Cod: github click aici
Model: obțineți modelul ShareGPT-4o-Image
Hârtie: click aici
Introducere la lucrare
Progresele recente în modelele de generare multimodală au permis o generare realistă de imagini, aliniată la instrucțiuni. Cu toate acestea, sistemele de top precum GPT-4o-Image rămân proprietare și inaccesibile.
Pentru a face aceste capabilități accesibile publicului, lucrarea introduce ShareGPT-4o-Image, primul set de date care conține 45.000 de exemple de text-imagine și 46.000 de exemple de text-plus-imagine-imagine, toate sintetizate folosind capacitățile de generare de imagini ale GPT-4o pentru a-i rafina capacitățile avansate de generare de imagini. Folosind acest set de date, lucrarea a dezvoltat Janus-4o, un model de limbaj multimodal de dimensiuni mari capabil de generare text-imagine și text-plus-imagine-imagine.
Janus-4o nu numai că îmbunătățește semnificativ capacitățile de generare text-imagine față de predecesorul său Janus-Pro, dar introduce și capacități de generare text-plus-imagine-imagine. În special, obține performanțe impresionante în generarea de imagini din text și imagini de la zero folosind doar 91K eșantioane sintetice și antrenat timp de 6 ore pe o mașină GPU 8×A800.
Sperăm că lansarea ShareGPT-4o-Image și Janus-4o va promova cercetarea deschisă în generarea de imagini fotorealiste, aliniate la instrucțiuni.
Prezentare generală a metodei

ShareGPT-4o-Image îmbunătățește performanța generării de imagini. Prin ajustarea fină a Janus-Pro cu ShareGPT-4o-Image, am generat Janus-4o, care demonstrează o performanță de generare a imaginilor semnificativ îmbunătățită. Janus-4o acceptă, de asemenea, generarea text-imagine și imagine-imagine, depășind alte teste de performanță cu doar 91.000 de eșantioane de antrenament.

Prezentare generală a modelului Janus-4o. Modelul se bazează pe Janus-Pro și a fost construit prin reglarea fină a acestuia pe ShareGPT-4o-Image. Acesta încorporează îmbunătățiri pentru a sprijini generarea de text-imagine și imagine-imagine. Atât sarcinile text-imagine, cât și cele text-imagine sunt antrenate în comun.

Rezultate experimentale

Concluzii
ShareGPT-4o-Image este primul set de date la scară largă capabil să surprindă capacitățile avansate de generare de imagini ale GPT-4o în generarea text-imagine și text-imagine. Pe baza acestui set de date, lucrarea a dezvoltat Janus-4o, un model de învățare automată (MLLM) capabil să genereze imagini de înaltă calitate din text pur sau combinații imagine-text.
Janus-4o realizează îmbunătățiri semnificative în generarea text-imagine și obține rezultate extrem de competitive în sarcinile text-imagine, demonstrând calitatea înaltă și caracterul practic al ShareGPT-4o-Image.
Datorită eficienței generării de imagini autoregresive bazate pe MLLM, Janus-4o poate fi antrenat în doar 6 ore pe o mașină GPU 8×A800 și obține îmbunătățiri semnificative ale performanței cu cerințe de calcul extrem de reduse.