JaaGPT-4o-kuva on laajamittainen ja korkealaatuinen kuvanluontidatajoukko, jossa kaikki kuvat luodaan GPT-4o:n kuvanluontiominaisuuksilla.
Tämä aineisto pyrkii yhdistämään avoimen lähdekoodin multimodaalisten mallien edut GPT-4o:n vahvuuksiin visuaalisen sisällön luomisessa.
Se sisältää 45 000 tekstistä kuvaksi- ja 46 000 kuvasta tekstiksi -näytettä, mikä tekee siitä käytännöllisen resurssin multimodaalisten mallien parantamiseen kuvan luonti- ja muokkaustehtävissä.

Janus-4o on multimodaalinen oikeustieteen maisteri (LLM), joka pystyy luomaan tekstistä kuvaksi ja tekstistä + kuvasta kuvaksi -yhdistelmiä. Se perustuu Janus-Pro:hen ja sitä on hienosäädetty ShareGPT-4o-Image-aineiston avulla. Janus-Pro:hen verrattuna Janus-4o tuo mukanaan tekstistä + kuvasta kuvaksi -yhdistelmiä ja saavuttaa merkittäviä parannuksia tekstistä kuvaksi -yhdistelmien luonnissa.
Tietojoukon yleiskatsaus
ShareGPT-4o-Image-aineisto sisältää 91 000 GPT-4o-kuvan luontinäytettä, jotka on luokiteltu seuraavasti:
- Tekstistä kuvaksi: 45 717
- Teksti-plus-kuva-kuvaksi: 46 539
Aiheeseen liittyviä linkkejä
Koodi: github klikkaa tästä
Malli: hanki ShareGPT-4o-Image-malli
Paperi: klikkaa tästä
Artikkelin esittely
Viimeaikaiset edistysaskeleet multimodaalisissa generointimalleissa ovat mahdollistaneet realistisen, käskyjen mukaisen kuvan generoinnin. Johtavat järjestelmät, kuten GPT-4o-Image, ovat kuitenkin edelleen suljettuja ja saavuttamattomissa.
Jotta nämä ominaisuudet olisivat yleisön saatavilla, artikkelissa esitellään ShareGPT-4o-Image, ensimmäinen aineisto, joka sisältää 45 000 tekstistä kuvaksi- ja 46 000 tekstistä ja kuvasta kuvaksi -esimerkkiä. Kaikki nämä esimerkit on syntetisoitu GPT-4o:n kuvanluontiominaisuuksia käyttäen sen edistyneiden kuvanluontiominaisuuksien parantamiseksi. Tämän aineiston avulla artikkelissa kehitettiin Janus-4o, multimodaalinen laaja kielimalli, joka pystyy luomaan tekstistä kuvaksi ja tekstistä ja kuvasta kuvaksi -muunnoksia.
Janus-4o ei ainoastaan paranna merkittävästi tekstistä kuvaksi -generointiominaisuuksia edeltäjäänsä Janus-Pro:hen verrattuna, vaan se esittelee myös tekstistä ja kuvasta kuvaksi -generointiominaisuudet. Merkillepantavaa on, että se saavuttaa vaikuttavan suorituskyvyn kuvien luomisessa tekstistä ja kuvista tyhjästä käyttämällä vain 91 000 synteettistä näytettä ja sitä on koulutettu 6 tuntia 8×A800 GPU -koneella.
Toivomme, että ShareGPT-4o-Imagen ja Janus-4o:n julkaisu edistää avointa tutkimusta fotorealistisessa, käskyjen mukaisessa kuvanmuodostuksessa.
Menetelmän yleiskatsaus

ShareGPT-4o-Image parantaa kuvien luonnin suorituskykyä. Hienosäätämällä Janus-Pro:tä ShareGPT-4o-Image-työkalulla loimme Janus-4o:n, joka osoittaa merkittävästi parantunutta kuvanluontitehoa. Janus-4o tukee myös tekstistä kuvaksi- ja kuvasta kuvaksi -muunnoksia, ja se suoriutui muita vertailuarvoja paremmin vain 91 000 harjoitusnäytteellä.

Janus-4o-mallin yleiskatsaus. Malli perustuu Janus-Pro:hen ja se on rakennettu hienosäätämällä sitä ShareGPT-4o-Image-alustalla. Se sisältää parannuksia tekstistä kuvaksi- ja kuvasta kuvaksi -luontitoimintojen tukemiseksi. Sekä tekstistä kuvaksi- että tekstistä kuvaksi -tehtävät koulutetaan yhdessä.

Kokeelliset tulokset

Johtopäätökset
ShareGPT-4o-Image on ensimmäinen laajamittainen aineisto, joka pystyy hyödyntämään GPT-4o:n edistyneitä kuvanluontiominaisuuksia tekstistä kuvaksi ja tekstistä kuvaksi -muodossa. Tämän aineiston pohjalta artikkelissa kehitettiin Janus-4o, koneoppimismalli (MLLM), joka pystyy luomaan korkealaatuisia kuvia pelkästä tekstistä tai kuva-teksti-yhdistelmistä.
Janus-4o saavuttaa merkittäviä parannuksia tekstistä kuvaksi -generoinnissa ja erittäin kilpailukykyisiä tuloksia tekstistä kuvaksi -tehtävissä, mikä osoittaa ShareGPT-4o-Imagen korkean laadun ja käytännöllisyyden.
MLLM-pohjaisen itseregressiivisen kuvanmuodostuksen tehokkuuden ansiosta Janus-4o voidaan kouluttaa vain kuudessa tunnissa 8×A800 GPU -koneella ja saavuttaa merkittäviä suorituskyvyn parannuksia erittäin alhaisilla laskentavaatimuksilla.