Deepseek vydal další kombinaci: právě vydal multimodální model Janus Pro, který překonává DALL-E3

a v tichosti nastala éra umělé inteligence.

Pravděpodobně nikdo nečekal, že tento čínský nový rok už nebude nejžhavějším tématem tradiční internetová bitva o červenou obálku, která se spojila s galavečerem Jarního festivalu, ale společnosti zabývající se umělou inteligencí.

S blížícím se svátkem jara velké modelářské společnosti vůbec nepolevily a aktualizovaly vlnu modelů a produktů. Nejvíce se však mluvilo o společnosti DeepSeek, "významné modelářské společnosti", která se objevila v loňském roce.

Večer 20. ledna Deep S eek vydala oficiální verzi svého argumentačního modelu DeepSeek-R1. Pomocí nízkých nákladů na trénink přímo vytrénoval výkon, který není horší než u uvažovacího modelu o1 od OpenAI. Navíc je zcela zdarma a s otevřeným zdrojovým kódem, což přímo vyvolalo průmyslové zemětřesení.

Je to poprvé, co domácí umělá inteligence vyvolala ve světě technologií velký rozruch, zejména ve Spojených státech. Vývojáři se vyjádřili, že zvažují využití DeepSeek k "přestavbě všeho". V návaznosti na tuto vlnu se mobilní aplikace DeepSeek po týdnu kvašení, a dokonce teprve po vydání v lednu, rychle dostala na vrchol žebříčku bezplatných aplikací v Apple App Store v USA a předstihla nejen ChatGPT, ale i další populární aplikace v USA.

Úspěch DeepSeek dokonce přímo ovlivnil americký akciový trh. Model vycvičený bez použití obrovského množství drahých grafických procesorů přiměl lidi přehodnotit cestu trénování umělé inteligence, což přímo způsobilo největší pokles 17% u první akcie umělé inteligence, společnosti NVIDIA.

A to není všechno.

28. ledna brzy ráno, v noci před Silvestrem, společnost DeepSeek opět otevřela zdrojové kódy svého multimodálního modelu Janus-Pro-7B a oznámila, že v benchmarkových testech GenEval a DPG-Bench porazil DALL-E 3 (od OpenAI) a Stable Diffusion.

Opravdu DeepSeek ovládne komunitu AI? Od inferenčních modelů k multimodálním modelům - restrukturalizuje DeepSeek vše, co je prvním tématem roku hada?

Obsah

Janus Pro, ověření inovativní multimodální modelové architektury

Společnost DeepSeek tentokrát pozdě v noci vydala celkem dva modely: Janus-Pro-7B a Janus-Pro-1B (parametry 1,5B).

Jak už název napovídá, model je vylepšen oproti předchozímu modelu Janus.

Společnost DeepSeek vydala model Janus poprvé až v říjnu 2024. Jak je u společnosti DeepSeek obvyklé, model využívá inovativní architekturu. V mnoha modelech pro generování vidění model přijímá jednotnou architekturu Transformer, která dokáže současně zpracovávat úlohy převodu textu na obraz a obrazu na text.

DeepSeek navrhuje novou myšlenku, která odděluje vizuální kódování úloh porozumění (graf-text) a generování (text-graf), což zlepšuje flexibilitu trénování modelu a účinně zmírňuje konflikty a výkonnostní překážky způsobené použitím jediného vizuálního kódování.

Proto společnost DeepSeek pojmenovala model Janus. Janus je starořímský bůh dveří a je zobrazován se dvěma tvářemi obrácenými do opačných směrů. Společnost DeepSeek uvedla, že model se jmenuje Janus, protože se dokáže dívat na vizuální data různýma očima, kódovat rysy odděleně a poté použít ke zpracování těchto vstupních signálů stejné tělo (Transformer).

Tato nová myšlenka přinesla dobré výsledky u modelů řady Janus. Tým uvádí, že model Janus má silnou schopnost následování příkazů, vícejazyčné schopnosti a model je inteligentnější, dokáže číst meme obrázky. Zvládá také úlohy, jako je převod vzorců z latexu a převod grafů do kódu.

U modelů řady Janus Pro tým částečně upravil proces trénování modelu, díky čemuž bylo dosaženo výsledků, které přímo překonaly modely DALL-E 3 a Stable Diffusion ve srovnávacích testech GenEval a DPG-Bench.

Spolu se samotným modelem vydala společnost DeepSeek také nový multimodální rámec umělé inteligence Janus Flow, jehož cílem je sjednotit úlohy porozumění obrazu a jeho generování.

Model Janus Pro může poskytovat stabilnější výstup pomocí krátkých výzev, s lepší vizuální kvalitou, bohatšími detaily a schopností generovat jednoduchý text.

Model dokáže generovat obrázky a popisovat obrázky, identifikovat pamětihodnosti (například Západní jezero v Chang-čou), rozpoznávat text na obrázcích a popisovat znalosti na obrázcích (například dorty "Tom a Jerry").

One x.com, Mnoho lidí již začalo s novým modelem experimentovat.

Test rozpoznávání obrazu je na obrázku výše zobrazen vlevo, zatímco test generování obrazu je zobrazen vpravo.

Jak je vidět, Janus Pro také dobře čte obrázky s vysokou přesností. Dokáže rozpoznat smíšené písmo matematických výrazů a textu. V budoucnu může mít větší význam jeho použití s modelem uvažování.

Parametry 1B a 7B mohou odemknout nové scénáře použití.

V multimodálních úlohách porozumění používá nový model Janus-Pro jako vizuální kodér SigLIP-L a podporuje obrazové vstupy o velikosti 384 x 384 pixelů. V úlohách generování obrazu používá Janus-Pro tokenizér z konkrétního zdroje s rychlostí snižování vzorkování 16.

Stále se jedná o poměrně malou velikost obrázku. X Při analýze uživatele je model Janus Pro spíše směrovým ověřením. Pokud bude ověření spolehlivé, bude vydán model, který bude možné uvést do výroby.

Stojí však za zmínku, že nový model, který společnost Janus tentokrát vydala, je nejen architektonicky inovativní pro multimodální modely, ale také novým objevem, pokud jde o počet parametrů.

Tentokrát porovnávaný model DeepSeek Janus Pro, DALL-E 3, již dříve oznámil, že má 12 miliard parametrů, zatímco velkorozměrový model Janus Pro má pouze 7 miliard parametrů. Při tak kompaktní velikosti je již velmi dobré, že Janus Pro může dosáhnout takových výsledků.

Konkrétně model 1B Janus Pro používá pouze 1,5 miliardy parametrů. Uživatelé již přidali podporu tohoto modelu do transformers.js na externí síti. To znamená, že model 100% nyní může běžet v prohlížečích na WebGPU!

Ačkoli v době tisku autor ještě nebyl schopen úspěšně použít nový model Janus Pro na webové verzi, skutečnost, že počet parametrů je dostatečně malý, aby mohl být spuštěn přímo na webové straně, je stále úžasným zlepšením.

To znamená, že náklady na tvorbu/porozumění obrazu se stále snižují. Máme příležitost vidět využití umělé inteligence na více místech, kde dříve nebylo možné použít nezpracované obrazy a porozumění obrazu, což změní náš život.

Hlavním tématem roku 2024 je, jak může hardware s umělou inteligencí a přidanou multimodální znalostí zasahovat do našich životů. Modely multimodálního porozumění se stále nižšími parametry nebo modely, u nichž lze očekávat, že budou pracovat na hraně, mohou umožnit další rozmach hardwaru AI.

Společnost DeepSeek vstoupila do nového roku. Může být vše znovu vytvořeno čínskou umělou inteligencí?

Svět umělé inteligence se mění každým dnem.

Loni na jarním festivalu vzbudil svět velký rozruch model Sora od společnosti OpenAI. V průběhu roku však čínské společnosti zcela dohnaly, co se týče generování videí, takže vydání Sory na konci roku se zdá být poněkud chmurné.

V letošním roce vzbudil svět velký rozruch čínský DeepSeek.

DeepSeek není tradiční technologická společnost, ale vyrobila mimořádně inovativní modely za cenu mnohem nižší než u GPU karet velkých amerických modelářských společností, což přímo šokovalo její americké protějšky. Američané vykřikli: "Výcvik modelu R1 stál pouze 5,6 milionu amerických dolarů, což odpovídá i platu kteréhokoli vedoucího pracovníka týmu Meta GenAI. Co je to za tajemnou východní sílu?"

Parodický účet napodobující zakladatele DeepSeek Lianga Wenfenga zveřejnil zajímavý obrázek přímo na X:

Na obrázku byl použit trendový mem světoznámého tureckého střelce v roce 2024.

Ve finále střelby ze vzduchové pistole na 10 metrů na olympijských hrách v Paříži si 51letý turecký střelec Mithat Dikec, který měl na očích jen obyčejné krátkozraké brýle a špunty do uší, s klidem a s jednou rukou v kapse vybojoval stříbrnou medaili. Všichni ostatní přítomní střelci potřebovali na start soutěže dvě profesionální čočky pro zaostření a blokování světla a pár špuntů do uší tlumících hluk.

Vzhledem k tomu, že DeepSeek "prolomil" Model uvažování OpenAI, velké americké technologické společnosti se dostaly pod silný tlak. Dnes Sam Altman konečně reagoval oficiálním prohlášením.

Bude rok 2025 rokem, kdy čínská umělá inteligence ovlivní vnímání Ameriky?

Společnost DeepSeek má stále v rukávu několik tajemství - tento jarní festival bude mimořádný.

Společnost Deepseek vydala další kombinaci: právě vydala multimodální model Janus Pro, který překonává DALL-E3.

Janus Pro, ověření inovativní multimodální modelové architektury

Parametry 1B a 7B mohou odemknout nové scénáře použití.

Společnost DeepSeek vstoupila do nového roku. Může být vše znovu vytvořeno čínskou umělou inteligencí?

Janus Pro DeepSeek: Hluboký ponor do technologie a použití nejnovějšího modelu umělé inteligence | Prozkoumejte inovativní sílu, která se za ním skrývá

Komplexní průvodce technikou DeepSeek, kterou 90% lidí nezná (doporučeno pro záložky)

Jak dobrý je Janus-Pro společnosti DeepSeek?

Vydáno pozdě v noci! DeepSeek definuje generování a porozumění obrazu umělou inteligencí, když debutuje přelomový komplexní model Janus-Pro!

Nová hvězda multimodálního generování obrazu: Janus-4o? SdíletGPT-4o-Image nastavuje nový standard pro datové sady a sladí generování obrazu s GPT-4o.

Řada Janus: Jednotné multimodální modely porozumění a generování

Napsat komentář Zrušit odpověď na komentář

Zdroje

Přátelé

Janus Pro, ověření inovativní multimodální modelové architektury

Parametry 1B a 7B mohou odemknout nové scénáře použití.

Společnost DeepSeek vstoupila do nového roku. Může být vše znovu vytvořeno čínskou umělou inteligencí?

Podobné příspěvky

Napsat komentář Zrušit odpověď na komentář

Zdroje

Přátelé