JaaGPT-4o-kuva on laajamittainen ja korkealaatuinen kuvanluontidatajoukko, jossa kaikki kuvat luodaan GPT-4o:n kuvanluontiominaisuuksilla.

Tämä aineisto pyrkii yhdistämään avoimen lähdekoodin multimodaalisten mallien edut GPT-4o:n vahvuuksiin visuaalisen sisällön luomisessa.

Se sisältää 45 000 tekstistä kuvaksi- ja 46 000 kuvasta tekstiksi -näytettä, mikä tekee siitä käytännöllisen resurssin multimodaalisten mallien parantamiseen kuvan luonti- ja muokkaustehtävissä.

Janus-4o on multimodaalinen oikeustieteen maisteri (LLM), joka pystyy luomaan tekstistä kuvaksi ja tekstistä + kuvasta kuvaksi -yhdistelmiä. Se perustuu Janus-Pro:hen ja sitä on hienosäädetty ShareGPT-4o-Image-aineiston avulla. Janus-Pro:hen verrattuna Janus-4o tuo mukanaan tekstistä + kuvasta kuvaksi -yhdistelmiä ja saavuttaa merkittäviä parannuksia tekstistä kuvaksi -yhdistelmien luonnissa.

Tietojoukon yleiskatsaus

ShareGPT-4o-Image-aineisto sisältää 91 000 GPT-4o-kuvan luontinäytettä, jotka on luokiteltu seuraavasti:

  • Tekstistä kuvaksi: 45 717
  • Teksti-plus-kuva-kuvaksi: 46 539

Aiheeseen liittyviä linkkejä

Koodi: github klikkaa tästä

Malli: hanki ShareGPT-4o-Image-malli

Paperi: klikkaa tästä

Artikkelin esittely

Viimeaikaiset edistysaskeleet multimodaalisissa generointimalleissa ovat mahdollistaneet realistisen, käskyjen mukaisen kuvan generoinnin. Johtavat järjestelmät, kuten GPT-4o-Image, ovat kuitenkin edelleen suljettuja ja saavuttamattomissa.

Jotta nämä ominaisuudet olisivat yleisön saatavilla, artikkelissa esitellään ShareGPT-4o-Image, ensimmäinen aineisto, joka sisältää 45 000 tekstistä kuvaksi- ja 46 000 tekstistä ja kuvasta kuvaksi -esimerkkiä. Kaikki nämä esimerkit on syntetisoitu GPT-4o:n kuvanluontiominaisuuksia käyttäen sen edistyneiden kuvanluontiominaisuuksien parantamiseksi. Tämän aineiston avulla artikkelissa kehitettiin Janus-4o, multimodaalinen laaja kielimalli, joka pystyy luomaan tekstistä kuvaksi ja tekstistä ja kuvasta kuvaksi -muunnoksia.

Janus-4o ei ainoastaan paranna merkittävästi tekstistä kuvaksi -generointiominaisuuksia edeltäjäänsä Janus-Pro:hen verrattuna, vaan se esittelee myös tekstistä ja kuvasta kuvaksi -generointiominaisuudet. Merkillepantavaa on, että se saavuttaa vaikuttavan suorituskyvyn kuvien luomisessa tekstistä ja kuvista tyhjästä käyttämällä vain 91 000 synteettistä näytettä ja sitä on koulutettu 6 tuntia 8×A800 GPU -koneella.

Toivomme, että ShareGPT-4o-Imagen ja Janus-4o:n julkaisu edistää avointa tutkimusta fotorealistisessa, käskyjen mukaisessa kuvanmuodostuksessa.

Menetelmän yleiskatsaus

ShareGPT-4o-Image parantaa kuvien luonnin suorituskykyä. Hienosäätämällä Janus-Pro:tä ShareGPT-4o-Image-työkalulla loimme Janus-4o:n, joka osoittaa merkittävästi parantunutta kuvanluontitehoa. Janus-4o tukee myös tekstistä kuvaksi- ja kuvasta kuvaksi -muunnoksia, ja se suoriutui muita vertailuarvoja paremmin vain 91 000 harjoitusnäytteellä.

Janus-4o-mallin yleiskatsaus. Malli perustuu Janus-Pro:hen ja se on rakennettu hienosäätämällä sitä ShareGPT-4o-Image-alustalla. Se sisältää parannuksia tekstistä kuvaksi- ja kuvasta kuvaksi -luontitoimintojen tukemiseksi. Sekä tekstistä kuvaksi- että tekstistä kuvaksi -tehtävät koulutetaan yhdessä.

Kokeelliset tulokset

Johtopäätökset

ShareGPT-4o-Image on ensimmäinen laajamittainen aineisto, joka pystyy hyödyntämään GPT-4o:n edistyneitä kuvanluontiominaisuuksia tekstistä kuvaksi ja tekstistä kuvaksi -muodossa. Tämän aineiston pohjalta artikkelissa kehitettiin Janus-4o, koneoppimismalli (MLLM), joka pystyy luomaan korkealaatuisia kuvia pelkästä tekstistä tai kuva-teksti-yhdistelmistä.

Janus-4o saavuttaa merkittäviä parannuksia tekstistä kuvaksi -generoinnissa ja erittäin kilpailukykyisiä tuloksia tekstistä kuvaksi -tehtävissä, mikä osoittaa ShareGPT-4o-Imagen korkean laadun ja käytännöllisyyden.

MLLM-pohjaisen itseregressiivisen kuvanmuodostuksen tehokkuuden ansiosta Janus-4o voidaan kouluttaa vain kuudessa tunnissa 8×A800 GPU -koneella ja saavuttaa merkittäviä suorituskyvyn parannuksia erittäin alhaisilla laskentavaatimuksilla.

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *