Distribuiți imaginea GPT-4o este un set de date de generare a imaginilor la scară largă și de înaltă calitate, în care toate imaginile sunt generate folosind capacitățile de generare a imaginilor ale GPT-4o.

Acest set de date își propune să combine avantajele modelelor multimodale open-source cu punctele forte ale GPT-4o în crearea de conținut vizual.

Include 45.000 de exemple de conversii text-imagine și 46.000 de conversii imagine-text, ceea ce îl face o resursă practică pentru îmbunătățirea modelelor multimodale în sarcinile de generare și editare a imaginilor.

Janus-4o este un LLM multimodal capabil de generare text-imagine și text+imagine-imagine. Se bazează pe Janus-Pro și este optimizat folosind setul de date ShareGPT-4o-Image. Comparativ cu Janus-Pro, Janus-4o introduce capacități de generare text+imagine-imagine și realizează îmbunătățiri semnificative în generarea text-imagine.

Prezentare generală a setului de date

Setul de date ShareGPT-4o-Image conține 91.000 de mostre de generare a imaginilor GPT-4o, clasificate după cum urmează:

  • Text-imagine: 45.717
  • Text-plus-imagine-în-imagine: 46.539

Linkuri conexe

Cod: github click aici

Model: obțineți modelul ShareGPT-4o-Image

Hârtie: click aici

Introducere la lucrare

Progresele recente în modelele de generare multimodală au permis o generare realistă de imagini, aliniată la instrucțiuni. Cu toate acestea, sistemele de top precum GPT-4o-Image rămân proprietare și inaccesibile.

Pentru a face aceste capabilități accesibile publicului, lucrarea introduce ShareGPT-4o-Image, primul set de date care conține 45.000 de exemple de text-imagine și 46.000 de exemple de text-plus-imagine-imagine, toate sintetizate folosind capacitățile de generare de imagini ale GPT-4o pentru a-i rafina capacitățile avansate de generare de imagini. Folosind acest set de date, lucrarea a dezvoltat Janus-4o, un model de limbaj multimodal de dimensiuni mari capabil de generare text-imagine și text-plus-imagine-imagine.

Janus-4o nu numai că îmbunătățește semnificativ capacitățile de generare text-imagine față de predecesorul său Janus-Pro, dar introduce și capacități de generare text-plus-imagine-imagine. În special, obține performanțe impresionante în generarea de imagini din text și imagini de la zero folosind doar 91K eșantioane sintetice și antrenat timp de 6 ore pe o mașină GPU 8×A800.

Sperăm că lansarea ShareGPT-4o-Image și Janus-4o va promova cercetarea deschisă în generarea de imagini fotorealiste, aliniate la instrucțiuni.

Prezentare generală a metodei

ShareGPT-4o-Image îmbunătățește performanța generării de imagini. Prin ajustarea fină a Janus-Pro cu ShareGPT-4o-Image, am generat Janus-4o, care demonstrează o performanță de generare a imaginilor semnificativ îmbunătățită. Janus-4o acceptă, de asemenea, generarea text-imagine și imagine-imagine, depășind alte teste de performanță cu doar 91.000 de eșantioane de antrenament.

Prezentare generală a modelului Janus-4o. Modelul se bazează pe Janus-Pro și a fost construit prin reglarea fină a acestuia pe ShareGPT-4o-Image. Acesta încorporează îmbunătățiri pentru a sprijini generarea de text-imagine și imagine-imagine. Atât sarcinile text-imagine, cât și cele text-imagine sunt antrenate în comun.

Rezultate experimentale

Concluzii

ShareGPT-4o-Image este primul set de date la scară largă capabil să surprindă capacitățile avansate de generare de imagini ale GPT-4o în generarea text-imagine și text-imagine. Pe baza acestui set de date, lucrarea a dezvoltat Janus-4o, un model de învățare automată (MLLM) capabil să genereze imagini de înaltă calitate din text pur sau combinații imagine-text.

Janus-4o realizează îmbunătățiri semnificative în generarea text-imagine și obține rezultate extrem de competitive în sarcinile text-imagine, demonstrând calitatea înaltă și caracterul practic al ShareGPT-4o-Image.

Datorită eficienței generării de imagini autoregresive bazate pe MLLM, Janus-4o poate fi antrenat în doar 6 ore pe o mașină GPU 8×A800 și obține îmbunătățiri semnificative ale performanței cu cerințe de calcul extrem de reduse.

Posturi similare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *