SdíletGPT-4o-Image je rozsáhlá datová sada pro generování vysoce kvalitních obrázků, kde jsou všechny obrázky generovány pomocí funkcí generování obrázků GPT-4o.

Tato datová sada si klade za cíl spojit výhody multimodálních modelů s otevřeným zdrojovým kódem se silnými stránkami GPT-4o v oblasti tvorby vizuálního obsahu.

Obsahuje 45 000 vzorků pro převod textu do obrázku a 46 000 vzorků pro převod obrazu do textu, což z něj činí praktický zdroj pro vylepšení multimodálních modelů při generování a úpravách obrázků.

Janus-4o je multimodální LLM schopný generovat text do obrázku a text + obrázek do obrázku. Je založen na Janus-Pro a je doladěn pomocí datové sady ShareGPT-4o-Image. Ve srovnání s Janus-Pro zavádí Janus-4o možnosti generování textu + obrázku do obrázku a dosahuje významného zlepšení v generování textu do obrázku.

Přehled datové sady

Datová sada ShareGPT-4o-Image obsahuje 91 000 vzorků generovaných obrázků GPT-4o, které jsou rozděleny do následujících kategorií:

  • Převod textu do obrázku: 45 717
  • Text plus obrázek do obrázku: 46 539

Související odkazy

Kód: github klikněte zde

Model: získat model ShareGPT-4o-Image

Papír: klikněte zde

Úvod k článku

Nedávný pokrok v modelech multimodálního generování odemkl realistické generování obrazu zarovnané s instrukcemi. Přední systémy, jako je GPT-4o-Image, však zůstávají proprietární a nepřístupné.

Aby byly tyto funkce přístupné veřejnosti, článek představuje ShareGPT-4o-Image, první datovou sadu obsahující 45 000 příkladů převodu textu do obrazu a 46 000 příkladů převodu textu a obrazu do obrazu, všechny syntetizované s využitím schopností generování obrázků GPT-4o k vylepšení jeho pokročilých schopností generování obrázků. S využitím této datové sady článek vyvinul Janus-4o, multimodální model velkého jazyka schopný generování textu do obrazu a textu a obrazu do obrazu.

Janus-4o nejen výrazně vylepšuje možnosti generování textu do obrázků oproti svému předchůdci Janus-Pro, ale také zavádí možnosti generování textu a obrázku do obrázků. Je pozoruhodné, že dosahuje působivého výkonu při generování obrázků z textu a obrázků od nuly s použitím pouze 91 tisíc syntetických vzorků a trénován po dobu 6 hodin na počítači s GPU 8×A800.

Doufáme, že vydání ShareGPT-4o-Image a Janus-4o podpoří otevřený výzkum v oblasti fotorealistického generování obrázků zarovnaných s instrukcemi.

Přehled metody

ShareGPT-4o-Image vylepšuje výkon generování obrázků. Doladěním Janus-Pro pomocí ShareGPT-4o-Image jsme vygenerovali Janus-4o, který vykazuje výrazně lepší výkon generování obrázků. Janus-4o také podporuje generování textu do obrázku a z obrázku do obrázku a s pouhými 91 000 trénovacími vzorky překonává ostatní benchmarky.

Přehled modelu Janus-4o. Model je založen na Janus-Pro a byl vytvořen jeho jemným doladěním na ShareGPT-4o-Image. Zahrnuje vylepšení pro podporu generování textu do obrázku a obrázků do obrázku. Úlohy převodu textu do obrázku i textu do obrázku jsou trénovány společně.

Experimentální výsledky

Závěry

ShareGPT-4o-Image je první rozsáhlá datová sada schopná zachytit pokročilé schopnosti GPT-4o generovat obrazy v oblasti převodu textu do obrazu a z textu do obrazu. Na základě této datové sady byl v článku vyvinut Janus-4o, model strojového učení (MLLM) schopný generovat vysoce kvalitní obrazy z čistého textu nebo z kombinací obrázek-text.

Janus-4o dosahuje významného zlepšení v generování textu do obrázků a dosahuje vysoce konkurenceschopných výsledků v úlohách převodu textu do obrázků, což dokazuje vysokou kvalitu a praktičnost ShareGPT-4o-Image.

Díky efektivitě samoregresního generování obrazu založeného na MLLM lze Janus-4o natrénovat za pouhých 6 hodin na stroji s 8×A800 GPU a dosahuje významného zlepšení výkonu s extrémně nízkými výpočetními nároky.

Podobné příspěvky

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *