Noua vedetă a generării de imagini multimodale: Janus-4o? Distribuie GPT-4o-Image stabilește un nou standard pentru seturile de date, aliniind generarea de imagini cu GPT-4o.

Distribuiți imaginea GPT-4o este un set de date de generare a imaginilor la scară largă și de înaltă calitate, în care toate imaginile sunt generate folosind capacitățile de generare a imaginilor ale GPT-4o.

Acest set de date își propune să combine avantajele modelelor multimodale open-source cu punctele forte ale GPT-4o în crearea de conținut vizual.

Include 45.000 de exemple de conversii text-imagine și 46.000 de conversii imagine-text, ceea ce îl face o resursă practică pentru îmbunătățirea modelelor multimodale în sarcinile de generare și editare a imaginilor.

Janus-4o este un LLM multimodal capabil de generare text-imagine și text+imagine-imagine. Se bazează pe Janus-Pro și este optimizat folosind setul de date ShareGPT-4o-Image. Comparativ cu Janus-Pro, Janus-4o introduce capacități de generare text+imagine-imagine și realizează îmbunătățiri semnificative în generarea text-imagine.

Tabla de conținut

Prezentare generală a setului de date

Setul de date ShareGPT-4o-Image conține 91.000 de mostre de generare a imaginilor GPT-4o, clasificate după cum urmează:

Text-imagine: 45.717
Text-plus-imagine-în-imagine: 46.539

Linkuri conexe

Cod: github click aici

Model: obțineți modelul ShareGPT-4o-Image

Hârtie: click aici

Introducere la lucrare

Progresele recente în modelele de generare multimodală au permis o generare realistă de imagini, aliniată la instrucțiuni. Cu toate acestea, sistemele de top precum GPT-4o-Image rămân proprietare și inaccesibile.

Pentru a face aceste capabilități accesibile publicului, lucrarea introduce ShareGPT-4o-Image, primul set de date care conține 45.000 de exemple de text-imagine și 46.000 de exemple de text-plus-imagine-imagine, toate sintetizate folosind capacitățile de generare de imagini ale GPT-4o pentru a-i rafina capacitățile avansate de generare de imagini. Folosind acest set de date, lucrarea a dezvoltat Janus-4o, un model de limbaj multimodal de dimensiuni mari capabil de generare text-imagine și text-plus-imagine-imagine.

Janus-4o nu numai că îmbunătățește semnificativ capacitățile de generare text-imagine față de predecesorul său Janus-Pro, dar introduce și capacități de generare text-plus-imagine-imagine. În special, obține performanțe impresionante în generarea de imagini din text și imagini de la zero folosind doar 91K eșantioane sintetice și antrenat timp de 6 ore pe o mașină GPU 8×A800.

Sperăm că lansarea ShareGPT-4o-Image și Janus-4o va promova cercetarea deschisă în generarea de imagini fotorealiste, aliniate la instrucțiuni.

Prezentare generală a metodei

ShareGPT-4o-Image îmbunătățește performanța generării de imagini. Prin ajustarea fină a Janus-Pro cu ShareGPT-4o-Image, am generat Janus-4o, care demonstrează o performanță de generare a imaginilor semnificativ îmbunătățită. Janus-4o acceptă, de asemenea, generarea text-imagine și imagine-imagine, depășind alte teste de performanță cu doar 91.000 de eșantioane de antrenament.

Prezentare generală a modelului Janus-4o. Modelul se bazează pe Janus-Pro și a fost construit prin reglarea fină a acestuia pe ShareGPT-4o-Image. Acesta încorporează îmbunătățiri pentru a sprijini generarea de text-imagine și imagine-imagine. Atât sarcinile text-imagine, cât și cele text-imagine sunt antrenate în comun.

Rezultate experimentale

Concluzii

ShareGPT-4o-Image este primul set de date la scară largă capabil să surprindă capacitățile avansate de generare de imagini ale GPT-4o în generarea text-imagine și text-imagine. Pe baza acestui set de date, lucrarea a dezvoltat Janus-4o, un model de învățare automată (MLLM) capabil să genereze imagini de înaltă calitate din text pur sau combinații imagine-text.

Janus-4o realizează îmbunătățiri semnificative în generarea text-imagine și obține rezultate extrem de competitive în sarcinile text-imagine, demonstrând calitatea înaltă și caracterul practic al ShareGPT-4o-Image.

Datorită eficienței generării de imagini autoregresive bazate pe MLLM, Janus-4o poate fi antrenat în doar 6 ore pe o mașină GPU 8×A800 și obține îmbunătățiri semnificative ale performanței cu cerințe de calcul extrem de reduse.

Fără categorie

Cursorul suportă DeepSeek R1, iar noile versiuni actualizează mai multe funcții

Prinjanus-ai ianuarie 29, 2025ianuarie 29, 2025

În prezent, există prea multe instrumente de programare AI: Windsurf, Trae (The Real AI Engineer), Cursor și Copilot. Dintre acestea, Cursor este cel mai avansat și, de asemenea, cel mai scump. Am plătit deja pentru Cursor și întotdeauna acord atenție celor mai recente caracteristici pentru a obține cea mai bună valoare pentru banii mei. Odată cu apariția...

Fără categorie

Cum să instalați și să utilizați DeepSeek R1 pe computerul dvs. local

Prinjanus-ai ianuarie 30, 2025ianuarie 30, 2025

DeepSeek R1, un nou model de limbaj AI open-source dezvoltat de compania chineză de AI DeepSeek, este popular în acest moment. Unii utilizatori susțin că este comparabil sau chiar mai puternic decât o1 de la OpenAI în ceea ce privește capacitățile de inferență. În prezent, DeepSeek este gratuit, ceea ce este o veste bună pentru utilizatori, dar ridică și unele întrebări. Cum...

Fără categorie

generator de imagini deepseek

Prinwd.gstar@gmail.com ianuarie 28, 2025ianuarie 28, 2025

Generator de imagini DeepSeek: O descoperire revoluționară în domeniul creării de imagini cu ajutorul inteligenței artificiale Introducere Peisajul inteligenței artificiale a cunoscut o transformare remarcabilă odată cu apariția tehnologiei de vârf DeepSeek de generare a imaginilor. Generatorul de imagini DeepSeek, în special prin seria sa Janus Pro, s-a impus ca o soluție care schimbă regulile jocului în domeniul competitiv al creării de imagini bazate pe inteligența artificială. Acest...

Fără categorie

Grokipedia lui Elon Musk: Viitorul partajării cunoștințelor și un rival pentru Wikipedia

Prinjanus-ai 28 octombrie 202528 octombrie 2025

Introducere: Revoluționarea schimbului de cunoștințe Elon Musk este cunoscut pentru provocarea status quo-ului în numeroase industrii, de la mașinile electrice cu Tesla până la explorarea spațiului cu SpaceX. Acum, el și-a propus să transforme lumea schimbului de cunoștințe cu cel mai recent proiect al său, Grokipedia. Pe 27 octombrie, ora locală, Elon Musk a introdus un nou instrument de cunoaștere pentru...

Fără categorie

NVIDIA și Microsoft sunt primii care integrează Deepseek, în timp ce OpenAI strânge urgent 280 de miliarde în noi finanțări

Prinjanus-ai ianuarie 31, 2025ianuarie 31, 2025

Finanțare urgentă Open AI Cu DeepSeek care își face simțit impactul, Silicon Valley este pur și simplu prea interesantă. Ieri, OpenAI și Anthropic erau încă în frunte, încercând prin toate mijloacele posibile să împiedice concurența. Peste noapte, furnizorii de infrastructură au devenit brusc "foarte interesați". După Microsoft, NVIDIA și AWS au accelerat, de asemenea, lansarea modelului DeepSeek de găzduire...

Fără categorie

Janus Pro DeepSeek: Pătrundeți adânc în tehnologia și aplicarea celui mai recent model AI | Explorați puterea inovatoare din spatele acestuia

Prinjanus-ai ianuarie 29, 2025ianuarie 29, 2025

Modelul open source deepseek cu costuri reduse și performanțe ridicate a devenit viral. Un număr mare de utilizatori noi s-au înregistrat pe site-ul deepseek, ceea ce a cauzat în mod repetat blocarea site-ului. Odată cu dezvoltarea rapidă a tehnologiei inteligenței artificiale, modelele lingvistice mari (LLM) schimbă fiecare aspect al muncii și vieții noastre. Dar a văzut, de asemenea, multe...

Noua vedetă a generării de imagini multimodale: Janus-4o? Distribuie GPT-4o-Image stabilește un nou standard pentru seturile de date, aliniind generarea de imagini cu GPT-4o.

Prezentare generală a setului de date

Linkuri conexe

Introducere la lucrare

Prezentare generală a metodei

Rezultate experimentale

Concluzii

Cursorul suportă DeepSeek R1, iar noile versiuni actualizează mai multe funcții

Cum să instalați și să utilizați DeepSeek R1 pe computerul dvs. local

generator de imagini deepseek

Grokipedia lui Elon Musk: Viitorul partajării cunoștințelor și un rival pentru Wikipedia

NVIDIA și Microsoft sunt primii care integrează Deepseek, în timp ce OpenAI strânge urgent 280 de miliarde în noi finanțări

Janus Pro DeepSeek: Pătrundeți adânc în tehnologia și aplicarea celui mai recent model AI | Explorați puterea inovatoare din spatele acestuia

Lasă un răspuns Anulează răspunsul

Resurse

Prieteni

Prezentare generală a setului de date

Linkuri conexe

Introducere la lucrare

Prezentare generală a metodei

Rezultate experimentale

Concluzii

Posturi similare

Lasă un răspuns Anulează răspunsul

Resurse

Prieteni