Eksplozja! DeepSeekChiński prezent noworoczny - szczegółowe wyjaśnienie multimodalnego modelu Janus-Pro

Najnowszy model DeepSeek Janus-Pro bezpośrednio łączy "lewy i prawy mózg" multimodalnej sztucznej inteligencji!

Ten dwulicowy zabójca, który może jednocześnie rozumieć obraz i tekst oraz generować obrazy, zmienia zasady branży dzięki samodzielnie opracowanej strukturze.

Nie jest to prosta superpozycja funkcji, ale poprzez oddzielenie ścieżki kodowania wizualnego, model osiągnął prawdziwy "jeden umysł, dwa zastosowania".

Tradycyjne modele multimodalne są jak używanie tej samej ręki do pisania i rysowania, podczas gdy Janus-Pro bezpośrednio wyposaża sztuczną inteligencję w dwa systemy neuronowe!

Rewolucja ramowa: rozwiązanie stuletniego problemu multimodalności

Najbardziej bezwzględną innowacją Janus-Pro jest podzielenie kodowania wizualnego na dwa niezależne kanały.

To tak, jakby wyposażyć sztuczną inteligencję w oko zrozumienia i rękę tworzenia, aby model nie zmagał się już z przetwarzaniem "opisu obrazu" i "tekstu na obraz".

Jego największym przełomem jest zupełnie nowa, zunifikowana architektura. Architektura ta składa się z trzech podstawowych komponentów:

Autoenkoder: jako główny model językowy

SigLIP-L@384: odpowiedzialny za kodowanie rozumienia obrazu

VQ-VAE oparty na LlamaGen: do generowania obrazów

Dzięki rozdzieleniu kodowania wizualnego na niezależne ścieżki, przy jednoczesnym zachowaniu ujednoliconej architektury transformatora, Janus-Pro genialnie rozwiązuje konflikt ról poprzednich modeli w koderze wizualnym.

@reach_vb wskazuje na kluczowy przełom w architekturze:

Model jest zbudowany na DeepSeek-LLM-1.5b/7b, wykorzystuje SigLIP-L do przetwarzania 384×384 obrazów wejściowych i oddziela proces kodowania poprzez ścieżki specyficzne dla zadania

Taka konstrukcja pozwala modelowi płynnie przełączać się między zadaniami multimodalnymi przy zachowaniu pojedynczej architektury Transformera.

Strategia szkoleniowa: ewolucyjna ścieżka do trzyetapowego sukcesu

Zespół DeepSeek przyjął starannie zaprojektowany trzyetapowy proces szkoleniowy:

Etap 1: Trenowanie nowych parametrów na zbiorze danych ImageNet w celu ustanowienia konceptualnych połączeń między elementami wizualnymi i językowymi.

Etap 2: Wprowadzenie multimodalnego hybrydowego zestawu danych w celu pełnego dostrojenia parametrów

Etap 3: Poprawa śledzenia poleceń i możliwości dialogu poprzez nadzorowane dostrajanie

Wprowadzono również innowacyjne korekty współczynnika danych:

Zadanie rozumienia obrazu: 50% (znaczący wzrost)

Zadanie generowania obrazu: 40

Zadanie tekstowe: 10%

@iScienceLuvr zwraca uwagę na sekret treningu:

Odsetek zadań tekstowych został celowo zmniejszony podczas trzeciego etapu dostrajania

Zmusza to model do skupienia swojej mocy obliczeniowej na konwersji międzymodalnej

Mistrz wydajności

Ten "wszechstronny" potwór zabija go w dwóch podstawowych wskaźnikach!

Oficjalne testy pokazują, że Janus-Pro nie tylko bije na głowę poprzedni zunifikowany model, ale może nawet zmierzyć się z wyspecjalizowanymi modelami - uzyskując tak wysokie wyniki jak LLaVA w zadaniu rozumienia i przewyższając DALL-E 3 pod względem jakości generacji!

Z wynikiem GenEval wynoszącym 0,8 stawia SD3-Medium na przegranej pozycji

Wynik DPG-Bench na poziomie 84,19 oznacza, że jakość kreacji wizualnej jest bliska profesjonalnym projektantom.

Opiera się to na strategii treningowej obejmującej 72 miliony syntetycznych obrazów i trzy etapy treningu (trening adaptera → ujednolicony trening wstępny → nadzorowane dostrajanie), co dosłownie zmieniło model w "multimodalnego mistrza".

@dr_cintas opublikował porównanie rzeczywistych pomiarów:

Uruchamiając 4-bitową skwantyzowaną wersję na iPhonie, szybkość wnioskowania wynosi prawie 60 tokenów/s

Wygenerowana miniatura 384×384 umożliwia odczytanie tekstu tablicy rejestracyjnej

W teście porównawczym multimodalnego rozumienia, Janus-Pro-7B wykazał się niesamowitą siłą:

PAPIEŻ: 87.4%

MME-PT: 1567.1

MMBench: 79,2

SEED: 72.1

MMMU: 41,0

MM-Vet: 50.0

Jeśli chodzi o generowanie obrazu, model ten uzyskał wynik GenEval na poziomie 0,8 i wynik DPG-Bench na poziomie 84,19, przewyższając wiele modeli głównego nurtu, w tym DALL-E 3 i SD3-Medium.

MIT open source: nie krępuj się!

DeepSeek tym razem odwrócił sytuację - podwójna wersja 7B/1B jest w pełni open source, a licencja MIT pozwala na komercyjne modyfikacje!

Hugging Face można pobrać natychmiast, a nawet lekką wersję 1B można uruchomić lokalnie na iPhonie.

Deweloper @angrypenguinPNG przeprowadził demonstrację na żywo:

Wpisz "future city night scene", a cyberpunkowy widok ulicy pojawi się w ciągu kilku sekund

Powiększ, aby zbadać szczegóły sceny, a model może dokładnie opisać gradient neonów

Wartość praktyczna: obniżenie bariery wejścia

Aby zaspokoić potrzeby różnych scenariuszy, DeepSeek oferuje dwie wersje:

Janus-Pro-7B: pełna wersja o wysokiej wydajności

Janus-Pro-1B: lekka wersja, którą można uruchomić bezpośrednio w przeglądarce.

Obie wersje zostały udostępnione na platformie Hugging Face i wydane na licencji MIT, dzięki czemu deweloperzy mogą je swobodnie wykorzystywać i modyfikować.

Kompleksowy przełom DeepSeek

Teraz najbardziej ekscytujące pytanie brzmi: kiedy zrozumienie i generowanie nie wymagają już dwóch oddzielnych modeli, czy istniejąca architektura aplikacji AI zostanie wspólnie zakłócona?

Ci, którzy wciąż zmagają się z aplikacjami jednomodalnymi, powinni rozważyć opracowanie aplikacji współpracujących dla lewego i prawego mózgu.

W końcu model, który może jednocześnie grać zarówno tekstem, jak i grafiką, jest prawdziwym ucieleśnieniem multimodalności.

Warto zauważyć, że wydanie Janus-Pro jest tylko jednym z serii ostatnich przełomowych odkryć DeepSeek:

Perplexity zintegrowało model DeepSeek R1 do głębokiego wyszukiwania w sieci

DeepSeek R1 w wersji destylowanej osiąga prędkość lokalnego wnioskowania na poziomie 60 tokenów/s na iPhonie.

DeepSeek AI Assistant wskoczył na szczyt bezpłatnej listy App Store

i zademonstrował niezwykle szybką wydajność wnioskowania na platformie Groq.

Osiągnięcia te pokazują wszechstronną siłę DeepSeek w dziedzinie sztucznej inteligencji, a przełomowy postęp Janus-Pro otworzył nowe kierunki rozwoju multimodalnej sztucznej inteligencji.

Janus pro Powiązane linki i dokumenty

Adres projektu:

Repozytorium GitHub

Raport techniczny

Pobieranie modeli:

Janus-Pro-7B

Janus-Pro-1B

Szybkie doświadczenie:

Bez wdrażania, bezpłatnie, do użytku online janus pro

Dokumentacja referencyjna:

Skrócona instrukcja obsługi

Oficjalne wydarzenie DeepSeek

Na koniec chcielibyśmy powiedzieć: Nazwa firmy Sama Altmana, tort, który namalował, i ścieżka, o której myślał, wydają się być przekazywane tej napędzanej ciekawością chińskiej firmie, która będzie kontynuować dogłębne badanie granic inteligencji!

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *