Nová hvězda generování multimodálních obrazů: Janus-4o? SdíletGPT-4o-Image nastavuje nový standard pro datové sady a sladí generování obrazů s GPT-4o.

SdíletGPT-4o-Image je rozsáhlá datová sada pro generování vysoce kvalitních obrázků, kde jsou všechny obrázky generovány pomocí funkcí generování obrázků GPT-4o.

Tato datová sada si klade za cíl spojit výhody multimodálních modelů s otevřeným zdrojovým kódem se silnými stránkami GPT-4o v oblasti tvorby vizuálního obsahu.

Obsahuje 45 000 vzorků pro převod textu do obrázku a 46 000 vzorků pro převod obrazu do textu, což z něj činí praktický zdroj pro vylepšení multimodálních modelů při generování a úpravách obrázků.

Janus-4o je multimodální LLM schopný generovat text do obrázku a text + obrázek do obrázku. Je založen na Janus-Pro a je doladěn pomocí datové sady ShareGPT-4o-Image. Ve srovnání s Janus-Pro zavádí Janus-4o možnosti generování textu + obrázku do obrázku a dosahuje významného zlepšení v generování textu do obrázku.

Obsah

Přehled datové sady

Datová sada ShareGPT-4o-Image obsahuje 91 000 vzorků generovaných obrázků GPT-4o, které jsou rozděleny do následujících kategorií:

Převod textu do obrázku: 45 717
Text plus obrázek do obrázku: 46 539

Související odkazy

Kód: github klikněte zde

Model: získat model ShareGPT-4o-Image

Papír: klikněte zde

Úvod k článku

Nedávný pokrok v modelech multimodálního generování odemkl realistické generování obrazu zarovnané s instrukcemi. Přední systémy, jako je GPT-4o-Image, však zůstávají proprietární a nepřístupné.

Aby byly tyto funkce přístupné veřejnosti, článek představuje ShareGPT-4o-Image, první datovou sadu obsahující 45 000 příkladů převodu textu do obrazu a 46 000 příkladů převodu textu a obrazu do obrazu, všechny syntetizované s využitím schopností generování obrázků GPT-4o k vylepšení jeho pokročilých schopností generování obrázků. S využitím této datové sady článek vyvinul Janus-4o, multimodální model velkého jazyka schopný generování textu do obrazu a textu a obrazu do obrazu.

Janus-4o nejen výrazně vylepšuje možnosti generování textu do obrázků oproti svému předchůdci Janus-Pro, ale také zavádí možnosti generování textu a obrázku do obrázků. Je pozoruhodné, že dosahuje působivého výkonu při generování obrázků z textu a obrázků od nuly s použitím pouze 91 tisíc syntetických vzorků a trénován po dobu 6 hodin na počítači s GPU 8×A800.

Doufáme, že vydání ShareGPT-4o-Image a Janus-4o podpoří otevřený výzkum v oblasti fotorealistického generování obrázků zarovnaných s instrukcemi.

Přehled metody

ShareGPT-4o-Image vylepšuje výkon generování obrázků. Doladěním Janus-Pro pomocí ShareGPT-4o-Image jsme vygenerovali Janus-4o, který vykazuje výrazně lepší výkon generování obrázků. Janus-4o také podporuje generování textu do obrázku a z obrázku do obrázku a s pouhými 91 000 trénovacími vzorky překonává ostatní benchmarky.

Přehled modelu Janus-4o. Model je založen na Janus-Pro a byl vytvořen jeho jemným doladěním na ShareGPT-4o-Image. Zahrnuje vylepšení pro podporu generování textu do obrázku a obrázků do obrázku. Úlohy převodu textu do obrázku i textu do obrázku jsou trénovány společně.

Experimentální výsledky

Závěry

ShareGPT-4o-Image je první rozsáhlá datová sada schopná zachytit pokročilé schopnosti GPT-4o generovat obrazy v oblasti převodu textu do obrazu a z textu do obrazu. Na základě této datové sady byl v článku vyvinut Janus-4o, model strojového učení (MLLM) schopný generovat vysoce kvalitní obrazy z čistého textu nebo z kombinací obrázek-text.

Janus-4o dosahuje významného zlepšení v generování textu do obrázků a dosahuje vysoce konkurenceschopných výsledků v úlohách převodu textu do obrázků, což dokazuje vysokou kvalitu a praktičnost ShareGPT-4o-Image.

Díky efektivitě samoregresního generování obrazu založeného na MLLM lze Janus-4o natrénovat za pouhých 6 hodin na stroji s 8×A800 GPU a dosahuje významného zlepšení výkonu s extrémně nízkými výpočetními nároky.

Nezařazené

Podrobnosti o dokumentu DeepSeek V3: Jak obejít monopol CUDA!

Podlejanus-ai Leden 29, 2025Leden 29, 2025

Podrobnosti o dokumentu DeepSeek V3: Jak obejít monopol CUDA! Dva nedávno vydané modely DeepSeek, DeepSeek-V3 a DeepSeek-R1, dosahují výkonu srovnatelného s podobnými modely od OpenAI za mnohem nižší cenu. Podle zpráv zahraničních médií se jim za pouhé dva měsíce podařilo vytrénovat model jazyka MoE s 671 miliardami parametrů na clusteru s 2 048...

Nezařazené

Grokipedie Elona Muska: Budoucnost sdílení znalostí a rival Wikipedie

Podlejanus-ai 28. října 202528. října 2025

Úvod: Revoluce ve sdílení znalostí Elon Musk je známý tím, že zpochybňuje status quo v mnoha odvětvích, od elektromobilů s Teslou až po průzkum vesmíru se SpaceX. Nyní se zaměřil na transformaci světa sdílení znalostí se svým nejnovějším projektem Grokipedia. 27. října místního času představil Elon Musk nový znalostní nástroj pro…

Nezařazené

Hloubková analýza: Jaké inovace má nově vydaný model Janus-Pro společnosti DeepSeek?

Podlejanus-ai Únor 4, 2025Únor 4, 2025

Společnost DeepSeek aktualizovala své webové stránky. V časných hodinách na Nový rok společnost DeepSeek na GitHubu náhle oznámila, že v prostoru projektu Janus otevřela zdrojové kódy modelu Janus-Pro a technické zprávy. Nejprve zdůrazněme několik klíčových bodů: Jeho cílem je vyřešit obtížný problém v oboru: vyvážit multimodální porozumění a generování obrazu Podle...

Nezařazené

Komplexní průvodce technikou DeepSeek, kterou 90% lidí nezná (doporučeno pro záložky)

Podlejanus-ai Leden 29, 2025Leden 29, 2025

Komplexní průvodce technikou DeepSeek, kterou 90% lidí nezná (doporučeno k záložkám) Od vydání DeepSeek-V3 před měsícem jsem aktualizoval články a videa týkající se DeepSeek, protože si myslím, že je to velmi úžasná společnost. Až včera se konečně stala svědkem historie, když se dostala na první místo v americkém Apple App Store,...

Nezařazené

Jak dobrý je Janus-Pro společnosti DeepSeek?

Podlejanus-ai Únor 4, 2025Únor 4, 2025

V předvečer jarního festivalu byl vydán model DeepSeek-R1. Díky své čistě RL architektuře se poučil z velkých inovací CoT a v matematice, kódu a logickém uvažování překonává ChatGPT. Navíc díky svým otevřeným zdrojovým kódům vah modelu, nízkým nákladům na trénování a levným cenám API se DeepSeek stal hitem napříč internetem, a to i...

Nezařazené

Janus Pro DeepSeek: Hluboký ponor do technologie a použití nejnovějšího modelu umělé inteligence | Prozkoumejte inovativní sílu, která se za ním skrývá

Podlejanus-ai Leden 29, 2025Leden 29, 2025

nízkonákladový a vysoce výkonný open source model deepseek se stal virálním. Na webové stránky deepseek se zaregistrovalo velké množství nových uživatelů, což opakovaně způsobilo pád webových stránek. S rychlým rozvojem technologií umělé inteligence mění velké jazykové modely (LLM) všechny aspekty naší práce a života. Zároveň se však projevily i v mnoha...

Nová hvězda multimodálního generování obrazu: Janus-4o? SdíletGPT-4o-Image nastavuje nový standard pro datové sady a sladí generování obrazu s GPT-4o.

Přehled datové sady

Související odkazy

Úvod k článku

Přehled metody

Experimentální výsledky

Závěry

Podrobnosti o dokumentu DeepSeek V3: Jak obejít monopol CUDA!

Grokipedie Elona Muska: Budoucnost sdílení znalostí a rival Wikipedie

Hloubková analýza: Jaké inovace má nově vydaný model Janus-Pro společnosti DeepSeek?

Komplexní průvodce technikou DeepSeek, kterou 90% lidí nezná (doporučeno pro záložky)

Jak dobrý je Janus-Pro společnosti DeepSeek?

Janus Pro DeepSeek: Hluboký ponor do technologie a použití nejnovějšího modelu umělé inteligence | Prozkoumejte inovativní sílu, která se za ním skrývá

Napsat komentář Zrušit odpověď na komentář

Zdroje

Přátelé

Přehled datové sady

Související odkazy

Úvod k článku

Přehled metody

Experimentální výsledky

Závěry

Podobné příspěvky

Napsat komentář Zrušit odpověď na komentář

Zdroje

Přátelé