DelaGPT-4o-bild är en storskalig, högkvalitativ bildgenereringsdatauppsättning där alla bilder genereras med hjälp av GPT-4os bildgenereringsfunktioner.

Denna dataset syftar till att kombinera fördelarna med multimodala modeller med öppen källkod med GPT-4os styrkor inom skapande av visuellt innehåll.

Den innehåller 45 000 text-till-bild- och 46 000 bild-till-text-exempel, vilket gör den till en praktisk resurs för att förbättra multimodala modeller vid bildgenerering och redigering.

Janus-4o är en multimodal LLM som kan generera text-till-bild och text+bild-till-bild. Den är baserad på Janus-Pro och finjusterad med hjälp av datasetet ShareGPT-4o-Image. Jämfört med Janus-Pro introducerar Janus-4o text+bild-till-bild-genereringsfunktioner och uppnår betydande förbättringar i text-till-bild-generering.

Översikt över datamängden

Datasetet ShareGPT-4o-Image innehåller 91 000 exempel på GPT-4o-bilder, kategoriserade enligt följande:

  • Text-till-bild: 45 717
  • Text-plus-bild-till-bild: 46 539

Relaterade länkar

Koda: github klicka här

Modell: hämta ShareGPT-4o-Image-modellen

Papper: klicka här

Introduktion till dokumentet

Nya framsteg inom multimodala genereringsmodeller har öppnat upp för realistisk, instruktionsanpassad bildgenerering. Ledande system som GPT-4o-Image är dock fortfarande proprietära och oåtkomliga.

För att göra dessa funktioner tillgängliga för allmänheten introducerar artikeln ShareGPT-4o-Image, den första datamängden som innehåller 45 000 text-till-bild- och 46 000 text-plus-bild-till-bild-exempel, alla syntetiserade med hjälp av GPT-4os bildgenereringsfunktioner för att förfina dess avancerade bildgenereringsförmåga. Med hjälp av denna datamängd utvecklade artikeln Janus-4o, en multimodal stor språkmodell som kan generera text-till-bild och text-plus-bild-till-bild.

Janus-4o förbättrar inte bara text-till-bild-genereringsfunktionerna avsevärt jämfört med föregångaren Janus-Pro, utan introducerar även text-plus-bild-till-bild-genereringsfunktioner. Det är värt att notera att den uppnår imponerande prestanda när det gäller att generera bilder från text och bilder från grunden med endast 91 000 syntetiska samplingar och tränad i 6 timmar på en 8×A800 GPU-maskin.

Vi hoppas att lanseringen av ShareGPT-4o-Image och Janus-4o kommer att främja öppen forskning inom fotorealistisk, instruktionsanpassad bildgenerering.

Metodöversikt

ShareGPT-4o-Image förbättrar prestandan för bildgenerering. Genom att finjustera Janus-Pro med ShareGPT-4o-Image genererade vi Janus-4o, vilket visar avsevärt förbättrad bildgenereringsprestanda. Janus-4o stöder även text-till-bild- och bild-till-bild-generering, vilket överträffar andra riktmärken med endast 91 000 träningsprover.

Översikt över Janus-4o-modellen. Modellen är baserad på Janus-Pro och konstruerad genom finjustering på ShareGPT-4o-Image. Den innehåller förbättringar för att stödja text-till-bild- och bild-till-bild-generering. Både text-till-bild- och text-till-bild-uppgifter tränas gemensamt.

Experimentella resultat

Slutsatser

ShareGPT-4o-Image är den första storskaliga datamängden som kan fånga GPT-4os avancerade bildgenereringsfunktioner inom text-till-bild- och text-till-bild-generering. Baserat på denna datamängd utvecklade artikeln Janus-4o, en maskininlärningsmodell (MLLM) som kan generera högkvalitativa bilder från ren text eller bild-text-kombinationer.

Janus-4o uppnår betydande förbättringar i text-till-bild-generering och mycket konkurrenskraftiga resultat i text-till-bild-uppgifter, vilket demonstrerar den höga kvaliteten och praktiska användbarheten hos ShareGPT-4o-Image.

Tack vare effektiviteten hos självregressiv bildgenerering baserad på MLLM kan Janus-4o tränas på bara 6 timmar på en 8×A800 GPU-maskin och uppnår betydande prestandaförbättringar med extremt låga beräkningskrav.

Liknande inlägg

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *