MegosztásGPT-4o-kép egy nagyméretű, kiváló minőségű képgeneráló adatkészlet, ahol minden kép a GPT-4o képgeneráló képességeivel készül.

Ez az adathalmaz a nyílt forráskódú multimodális modellek előnyeit kívánja ötvözni a GPT-4o erősségeivel a vizuális tartalomkészítésben.

45 000 szöveg-kép és 46 000 kép-szöveg mintát tartalmaz, így praktikus eszközzé válik a multimodális modellek fejlesztéséhez a képgenerálási és -szerkesztési feladatokban.

A Janus-4o egy multimodális LLM, amely képes szövegből képbe és szöveg+képből képbe konvertálásra. Az Janus-Pro-n alapul, és a ShareGPT-4o-Image adatkészlettel finomhangolták. Az Janus-Pro-hez képest a Janus-4o bevezeti a szöveg+képből képbe konvertálás képességeit, és jelentős fejlesztéseket ér el a szövegből képbe konvertálás terén.

Adatkészlet áttekintése

A ShareGPT-4o-Image adatkészlet 91 000 GPT-4o képgenerálási mintát tartalmaz, a következő kategóriákba sorolva:

  • Szövegből képpé alakítás: 45 717
  • Szövegből képbe konvertálás: 46 539

Kapcsolódó linkek

Kód: github kattints ide

Modell: Szerezd meg a ShareGPT-4o-Image modellt

Papír: kattintson ide

Bevezetés a tanulmányba

A multimodális generálási modellek legújabb fejlesztései lehetővé tették a valósághű, utasítás-illesztő képgenerálást. Azonban a vezető rendszerek, mint például a GPT-4o-Image, továbbra is zártkörűen használtak és elérhetetlenek.

Annak érdekében, hogy ezek a képességek a nyilvánosság számára is elérhetővé váljanak, a cikk bemutatja a ShareGPT-4o-Image adathalmazt, az első olyan adathalmazt, amely 45 000 szöveg-kép és 46 000 szöveg-plusz-kép-kép példát tartalmaz, mindegyiket a GPT-4o képgenerálási képességeivel szintetizálták a fejlett képgenerálási képességek finomítása érdekében. Ezt az adathalmazt felhasználva a cikk kifejlesztette a Janus-4o-t, egy multimodális nagyméretű nyelvi modellt, amely képes szöveg-kép és szöveg-plusz-kép-kép generálására.

A Janus-4o nemcsak jelentősen javítja a szövegből képpé generálási képességeit az Janus-Pro elődjéhez képest, hanem szöveg-plusz-képből képpé generálási képességeket is bevezet. Figyelemre méltó, hogy lenyűgöző teljesítményt ér el szövegből és képekből történő képgenerálásban a semmiből, mindössze 91K szintetikus mintát használva, és 6 órán át betanítva egy 8×A800 GPU-s gépen.

Reméljük, hogy a ShareGPT-4o-Image és a Janus-4o megjelenése elősegíti a fotorealisztikus, utasításokhoz igazított képgenerálás nyílt kutatását.

Módszer áttekintése

A ShareGPT-4o-Image javítja a képgenerálási teljesítményt. Az Janus-Pro és a ShareGPT-4o-Image finomhangolásával létrehoztuk a Janus-4o-t, amely jelentősen jobb képgenerálási teljesítményt mutat. A Janus-4o támogatja a szövegből képpé és képből képpé generálást is, és mindössze 91 000 betanító mintával felülmúlta a többi benchmarkot.

Janus-4o modell áttekintése. A modell az Janus-Pro-n alapul, és a ShareGPT-4o-Image finomhangolásával készült. Továbbfejlesztett funkciókat tartalmaz a szövegből képbe és a képből képbe generálás támogatására. Mind a szövegből képbe, mind a szövegből képbe feladatok közösen vannak betanítva.

Kísérleti eredmények

Következtetések

A ShareGPT-4o-Image az első nagyméretű adathalmaz, amely képes rögzíteni a GPT-4o fejlett képgenerálási képességeit a szövegből képbe és a szövegből képbe konvertálás során. Ezen adathalmaz alapján a tanulmány kifejlesztette a Janus-4o-t, egy gépi tanulási modellt (MLLM), amely képes kiváló minőségű képek előállítására tiszta szövegből vagy kép-szöveg kombinációkból.

A Janus-4o jelentős fejlesztéseket ér el a szövegből képpé generálásban, és rendkívül versenyképes eredményeket ér el a szövegből képpé alakítási feladatokban, ami demonstrálja a ShareGPT-4o-Image magas minőségét és praktikusságát.

Az MLLM-en alapuló önregresszív képgenerálás hatékonyságának köszönhetően a Janus-4o mindössze 6 óra alatt betanítható egy 8×A800 GPU-s gépen, és jelentős teljesítménynövekedést ér el rendkívül alacsony számítási igény mellett.

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük