Den nya stjärnan inom multimodal bildgenerering: Janus-4o? DelaGPT-4o-Image sätter en ny standard för datamängder och anpassar bildgenerering till GPT-4o.

DelaGPT-4o-bild är en storskalig, högkvalitativ bildgenereringsdatauppsättning där alla bilder genereras med hjälp av GPT-4os bildgenereringsfunktioner.

Denna dataset syftar till att kombinera fördelarna med multimodala modeller med öppen källkod med GPT-4os styrkor inom skapande av visuellt innehåll.

Den innehåller 45 000 text-till-bild- och 46 000 bild-till-text-exempel, vilket gör den till en praktisk resurs för att förbättra multimodala modeller vid bildgenerering och redigering.

Janus-4o är en multimodal LLM som kan generera text-till-bild och text+bild-till-bild. Den är baserad på Janus-Pro och finjusterad med hjälp av datasetet ShareGPT-4o-Image. Jämfört med Janus-Pro introducerar Janus-4o text+bild-till-bild-genereringsfunktioner och uppnår betydande förbättringar i text-till-bild-generering.

Innehållsförteckning

Översikt över datamängden

Datasetet ShareGPT-4o-Image innehåller 91 000 exempel på GPT-4o-bilder, kategoriserade enligt följande:

Text-till-bild: 45 717
Text-plus-bild-till-bild: 46 539

Relaterade länkar

Koda: github klicka här

Modell: hämta ShareGPT-4o-Image-modellen

Papper: klicka här

Introduktion till dokumentet

Nya framsteg inom multimodala genereringsmodeller har öppnat upp för realistisk, instruktionsanpassad bildgenerering. Ledande system som GPT-4o-Image är dock fortfarande proprietära och oåtkomliga.

För att göra dessa funktioner tillgängliga för allmänheten introducerar artikeln ShareGPT-4o-Image, den första datamängden som innehåller 45 000 text-till-bild- och 46 000 text-plus-bild-till-bild-exempel, alla syntetiserade med hjälp av GPT-4os bildgenereringsfunktioner för att förfina dess avancerade bildgenereringsförmåga. Med hjälp av denna datamängd utvecklade artikeln Janus-4o, en multimodal stor språkmodell som kan generera text-till-bild och text-plus-bild-till-bild.

Janus-4o förbättrar inte bara text-till-bild-genereringsfunktionerna avsevärt jämfört med föregångaren Janus-Pro, utan introducerar även text-plus-bild-till-bild-genereringsfunktioner. Det är värt att notera att den uppnår imponerande prestanda när det gäller att generera bilder från text och bilder från grunden med endast 91 000 syntetiska samplingar och tränad i 6 timmar på en 8×A800 GPU-maskin.

Vi hoppas att lanseringen av ShareGPT-4o-Image och Janus-4o kommer att främja öppen forskning inom fotorealistisk, instruktionsanpassad bildgenerering.

Metodöversikt

ShareGPT-4o-Image förbättrar prestandan för bildgenerering. Genom att finjustera Janus-Pro med ShareGPT-4o-Image genererade vi Janus-4o, vilket visar avsevärt förbättrad bildgenereringsprestanda. Janus-4o stöder även text-till-bild- och bild-till-bild-generering, vilket överträffar andra riktmärken med endast 91 000 träningsprover.

Översikt över Janus-4o-modellen. Modellen är baserad på Janus-Pro och konstruerad genom finjustering på ShareGPT-4o-Image. Den innehåller förbättringar för att stödja text-till-bild- och bild-till-bild-generering. Både text-till-bild- och text-till-bild-uppgifter tränas gemensamt.

Experimentella resultat

Slutsatser

ShareGPT-4o-Image är den första storskaliga datamängden som kan fånga GPT-4os avancerade bildgenereringsfunktioner inom text-till-bild- och text-till-bild-generering. Baserat på denna datamängd utvecklade artikeln Janus-4o, en maskininlärningsmodell (MLLM) som kan generera högkvalitativa bilder från ren text eller bild-text-kombinationer.

Janus-4o uppnår betydande förbättringar i text-till-bild-generering och mycket konkurrenskraftiga resultat i text-till-bild-uppgifter, vilket demonstrerar den höga kvaliteten och praktiska användbarheten hos ShareGPT-4o-Image.

Tack vare effektiviteten hos självregressiv bildgenerering baserad på MLLM kan Janus-4o tränas på bara 6 timmar på en 8×A800 GPU-maskin och uppnår betydande prestandaförbättringar med extremt låga beräkningskrav.

Okategoriserade

En omfattande guide till DeepSeek, en användningsteknik som 90% av människor inte känner till (rekommenderas för bokmärkning)

Avjanus-ai 29 januari 202529 januari 2025

En omfattande guide till DeepSeek, en användningsteknik som 90% av människor inte känner till (rekommenderas för bokmärkning) Sedan DeepSeek-V3 släpptes för en månad sedan har jag uppdaterat artiklar och videor relaterade till DeepSeek eftersom jag tycker att det är ett mycket fantastiskt företag. Fram till igår bevittnades historien äntligen och toppade USA: s Apple App Store, ...

Okategoriserade

Elon Musks Grokipedia: Framtiden för kunskapsdelning och en rival till Wikipedia

Avjanus-ai 28 oktober 202528 oktober 2025

Introduktion: Revolutionerande kunskapsdelning Elon Musk är känd för att utmana status quo inom många branscher, från elbilar med Tesla till rymdutforskning med SpaceX. Nu har han siktet inställt på att förändra kunskapsdelningens värld med sitt senaste projekt, Grokipedia. Den 27 oktober lokal tid introducerade Elon Musk ett nytt kunskapsverktyg för att…

Okategoriserade

Fördjupad analys: Vilka innovationer har DeepSeek's nyligen släppta Janus-Pro?

Avjanus-ai 4 februari 20254 februari 2025

DeepSeek har uppdaterat sin webbplats. Under de tidiga timmarna på nyårsafton meddelade DeepSeek plötsligt på GitHub att Janus-projektutrymmet hade öppnat källan Janus-Pro-modellen och den tekniska rapporten. Låt oss först lyfta fram några viktiga punkter: Den är avsedd att lösa branschens svåra problem: att balansera multimodal förståelse och bildgenerering Enligt...

Okategoriserade

Janus Pro DeepSeek: Djupdykning i tekniken och tillämpningen av den senaste AI-modellen | Utforska den innovativa kraften bakom den

Avjanus-ai 29 januari 202529 januari 2025

deepseeks billiga och högpresterande modell med öppen källkod har blivit viral. Ett stort antal nya användare har registrerat sig på deepseeks webbplats, vilket upprepade gånger har lett till att webbplatsen har kraschat. Med den snabba utvecklingen av artificiell intelligensteknik förändrar stora språkmodeller (LLM) alla aspekter av vårt arbete och våra liv. Men det har också sett många...

Okategoriserade

Detaljer om DeepSeek V3-papper: Hur man kringgår CUDA-monopolet!

Avjanus-ai 29 januari 202529 januari 2025

Detaljer om DeepSeek V3-papper: Hur man kringgår CUDA-monopolet! DeepSeeks två nyligen lanserade modeller, DeepSeek-V3 och DeepSeek-R1, uppnår prestanda som kan jämföras med liknande modeller från OpenAI till en mycket lägre kostnad. Enligt utländska medierapporter har de på bara två månader tränat en MoE-språkmodell med 671 miljarder parametrar på ett kluster med 2 048 datorer....

Okategoriserade

Den fullständiga förklaringen: från DeepSeek Janus till Janus-Pro!

Avjanus-ai 30 januari 202530 januari 2025

Ta med dig meddelandet hem: Janus är en enkel, enhetlig och utbyggbar modell för multimodal förståelse och generering som frikopplar multimodal förståelse och genererad visuell kodning, vilket mildrar potentiella konflikter mellan de två uppgifterna. Den kan utvidgas till att omfatta ytterligare modaliteter för inmatning i framtiden. Janus-Pro bygger vidare på denna grund genom att optimera träningsstrategin (inklusive att öka...

Den nya stjärnan inom multimodal bildgenerering: Janus-4o? DelaGPT-4o-Image sätter en ny standard för datamängder och anpassar bildgenerering till GPT-4o.

Översikt över datamängden

Relaterade länkar

Introduktion till dokumentet

Metodöversikt

Experimentella resultat

Slutsatser

En omfattande guide till DeepSeek, en användningsteknik som 90% av människor inte känner till (rekommenderas för bokmärkning)

Elon Musks Grokipedia: Framtiden för kunskapsdelning och en rival till Wikipedia

Fördjupad analys: Vilka innovationer har DeepSeek's nyligen släppta Janus-Pro?

Janus Pro DeepSeek: Djupdykning i tekniken och tillämpningen av den senaste AI-modellen | Utforska den innovativa kraften bakom den

Detaljer om DeepSeek V3-papper: Hur man kringgår CUDA-monopolet!

Den fullständiga förklaringen: från DeepSeek Janus till Janus-Pro!

Lämna ett svar Avbryt svar

Resurser

Vänner

Översikt över datamängden

Relaterade länkar

Introduktion till dokumentet

Metodöversikt

Experimentella resultat

Slutsatser

Liknande inlägg

Lämna ett svar Avbryt svar

Resurser

Vänner