SdíletGPT-4o-Image je rozsáhlá datová sada pro generování vysoce kvalitních obrázků, kde jsou všechny obrázky generovány pomocí funkcí generování obrázků GPT-4o.
Tato datová sada si klade za cíl spojit výhody multimodálních modelů s otevřeným zdrojovým kódem se silnými stránkami GPT-4o v oblasti tvorby vizuálního obsahu.
Obsahuje 45 000 vzorků pro převod textu do obrázku a 46 000 vzorků pro převod obrazu do textu, což z něj činí praktický zdroj pro vylepšení multimodálních modelů při generování a úpravách obrázků.

Janus-4o je multimodální LLM schopný generovat text do obrázku a text + obrázek do obrázku. Je založen na Janus-Pro a je doladěn pomocí datové sady ShareGPT-4o-Image. Ve srovnání s Janus-Pro zavádí Janus-4o možnosti generování textu + obrázku do obrázku a dosahuje významného zlepšení v generování textu do obrázku.
Přehled datové sady
Datová sada ShareGPT-4o-Image obsahuje 91 000 vzorků generovaných obrázků GPT-4o, které jsou rozděleny do následujících kategorií:
- Převod textu do obrázku: 45 717
- Text plus obrázek do obrázku: 46 539
Související odkazy
Kód: github klikněte zde
Model: získat model ShareGPT-4o-Image
Papír: klikněte zde
Úvod k článku
Nedávný pokrok v modelech multimodálního generování odemkl realistické generování obrazu zarovnané s instrukcemi. Přední systémy, jako je GPT-4o-Image, však zůstávají proprietární a nepřístupné.
Aby byly tyto funkce přístupné veřejnosti, článek představuje ShareGPT-4o-Image, první datovou sadu obsahující 45 000 příkladů převodu textu do obrazu a 46 000 příkladů převodu textu a obrazu do obrazu, všechny syntetizované s využitím schopností generování obrázků GPT-4o k vylepšení jeho pokročilých schopností generování obrázků. S využitím této datové sady článek vyvinul Janus-4o, multimodální model velkého jazyka schopný generování textu do obrazu a textu a obrazu do obrazu.
Janus-4o nejen výrazně vylepšuje možnosti generování textu do obrázků oproti svému předchůdci Janus-Pro, ale také zavádí možnosti generování textu a obrázku do obrázků. Je pozoruhodné, že dosahuje působivého výkonu při generování obrázků z textu a obrázků od nuly s použitím pouze 91 tisíc syntetických vzorků a trénován po dobu 6 hodin na počítači s GPU 8×A800.
Doufáme, že vydání ShareGPT-4o-Image a Janus-4o podpoří otevřený výzkum v oblasti fotorealistického generování obrázků zarovnaných s instrukcemi.
Přehled metody

ShareGPT-4o-Image vylepšuje výkon generování obrázků. Doladěním Janus-Pro pomocí ShareGPT-4o-Image jsme vygenerovali Janus-4o, který vykazuje výrazně lepší výkon generování obrázků. Janus-4o také podporuje generování textu do obrázku a z obrázku do obrázku a s pouhými 91 000 trénovacími vzorky překonává ostatní benchmarky.

Přehled modelu Janus-4o. Model je založen na Janus-Pro a byl vytvořen jeho jemným doladěním na ShareGPT-4o-Image. Zahrnuje vylepšení pro podporu generování textu do obrázku a obrázků do obrázku. Úlohy převodu textu do obrázku i textu do obrázku jsou trénovány společně.

Experimentální výsledky

Závěry
ShareGPT-4o-Image je první rozsáhlá datová sada schopná zachytit pokročilé schopnosti GPT-4o generovat obrazy v oblasti převodu textu do obrazu a z textu do obrazu. Na základě této datové sady byl v článku vyvinut Janus-4o, model strojového učení (MLLM) schopný generovat vysoce kvalitní obrazy z čistého textu nebo z kombinací obrázek-text.
Janus-4o dosahuje významného zlepšení v generování textu do obrázků a dosahuje vysoce konkurenceschopných výsledků v úlohách převodu textu do obrázků, což dokazuje vysokou kvalitu a praktičnost ShareGPT-4o-Image.
Díky efektivitě samoregresního generování obrazu založeného na MLLM lze Janus-4o natrénovat za pouhých 6 hodin na stroji s 8×A800 GPU a dosahuje významného zlepšení výkonu s extrémně nízkými výpočetními nároky.