Tani i wydajny model open source deepseek stał się wirusowy. Duża liczba nowych użytkowników zarejestrowała się na stronie deepseek, co wielokrotnie powodowało awarie witryny.
Wraz z szybkim rozwojem technologii sztucznej inteligencji, duże modele językowe (LLM) zmieniają każdy aspekt naszej pracy i życia.
W ostatnim czasie napotkała jednak wiele trudności i wyzwań. W tej dziedzinie DeepSeek wyróżnia się innowacyjną technologią i wyjątkową wydajnością.
Zagłębimy się w Janus Pro DeepSeek, najnowszy model sztucznej inteligencji i najnowszy multimodalny duży model DeepSeek o otwartym kodzie źródłowym. Dowiemy się o jego funkcjach technicznych, historii rozwoju i praktycznych zastosowaniach.
Co to jest Janus Pro DeepSeek?

Janus Pro to multimodalny model AI o otwartym kodzie źródłowym wydany przez zespół DeepSeek, używany głównie do rozumienia i generowania obrazów.
Podstawowe funkcje
- Rozumienie i generowanie multimodalne: Janus Pro może przetwarzać zarówno tekst, jak i obrazy w tym samym czasie, zarówno rozumiejąc zawartość obrazu, jak i generując obrazy na podstawie opisu tekstowego.
- Model open source i na dużą skalę: Jest dostępny w dwóch rozmiarach parametrów, 1B i 7B, jest open source i dostępny komercyjnie
Rozwój Janus Pro DeepSeek
Ustanowienie i rozwój
- Lipiec 2023 r.: DeepSeek został oficjalnie założony, z siedzibą w Hangzhou, koncentrując się na badaniach i rozwoju w dziedzinie ogólnej sztucznej inteligencji (AGI).
- 2 listopada 2023 r.: Wydanie pierwszego otwartego modelu kodu DeepSeek Coder, który obsługuje generowanie kodu, debugowanie i zadania analizy danych w wielu językach programowania.
- 29 listopada 2023 r.: DeepSeek LLM, duży model ogólnego przeznaczenia o skali parametrów 67 miliardów, zostaje uruchomiony, w tym wersje podstawowe i czatowe 7B i 67B.
Przełomowe rozwiązania techniczne i iteracje produktów
- 7 maja 2024 r.: DeepSeek-V2, hybrydowy model ekspercki (MoE) drugiej generacji o otwartym kodzie źródłowym, został wydany z łączną liczbą 236 miliardów parametrów i kosztem wnioskowania obniżonym do zaledwie 1 RMB za milion tokenów.
- 26 grudnia 2024 r.: DeepSeek-V3 zostaje wydany z łączną liczbą 671 miliardów parametrów. Zastosowano w nim innowacyjną architekturę MoE i szkolenie o mieszanej precyzji FP8, a koszt szkolenia to tylko 5,576 miliona dolarów.
- 20 stycznia 2025 r.: DeepSeek-R1, model wnioskowania nowej generacji, został wydany, z wydajnością porównywalną z oficjalną wersją OpenAI o1 i open source.

W dniu 27 stycznia Model multimodalny janus pro został wydany i został udostępniony na zasadach open source natychmiast po wydaniu, dzięki czemu więcej osób może uczestniczyć w procesie rozwoju dużych modeli sztucznej inteligencji oraz korzystać i uczyć się najnowszej technologii sztucznej inteligencji przy ograniczonych zasobach.
Podstawowa technologia Janus Pro DeepSeek

Oddzielenie kodowania wizualnego
Janus Pro wykorzystuje technologię odsprzęgania kodowania wizualnego, aby podzielić ścieżkę kodowania wizualnego na niezależne ścieżki przetwarzania, które są wykorzystywane odpowiednio do multimodalnych zadań rozumienia i generowania. Taka konstrukcja skutecznie rozwiązuje problem konfliktu funkcjonalnego między koderem wizualnym w zadaniach rozumienia i generowania w tradycyjnych modelach multimodalnych oraz poprawia elastyczność i zdolność adaptacji modelu do zadań.
Zunifikowana architektura transformatora
Pomimo oddzielenia ścieżki kodowania wizualnego, Janus Pro nadal wykorzystuje pojedynczą architekturę Transformer do obsługi zadań multimodalnych. Ta ujednolicona architektura upraszcza projektowanie modeli, jednocześnie poprawiając ich skalowalność i zdolność do współpracy między zadaniami.
Zoptymalizowana strategia treningowa
Janus Pro dokonał szeregu optymalizacji strategii treningowej, w tym
- Wydłużenie czasu szkolenia zbioru danych ImageNet w celu poprawy możliwości rozumienia obrazu przez model.
- Koncentrując się na szkoleniu danych tekst-obraz, zdolność generatywna modelu jest zoptymalizowana.
- Dostosowanie proporcji danych treningowych zapewnia, że model działa stabilniej i wydajniej w zadaniach multimodalnych.
Rozszerzone dane treningowe
Janus Pro wykorzystuje wielkoskalowe i zróżnicowane dane treningowe, w tym multimodalne dane rozumienia i dane generowania wizualnego. Rozszerzenie tych danych nie tylko poprawia zdolność modelu do rozumienia, ale także poprawia jego jakość generatywną.
Innowacyjny koder wizualny
W przypadku multimodalnych zadań rozumienia, Janus Pro wykorzystuje SigLIP-L jako koder wizualny, który obsługuje wejścia obrazu o rozdzielczości do 384×384. Ta obsługa wysokiej rozdzielczości pozwala modelowi uchwycić więcej szczegółów obrazu, poprawiając w ten sposób dokładność rozumienia wizualnego.
Wysokowydajny moduł generatywny
W przypadku zadań generowania obrazów, Janus Pro wykorzystuje LlamaGen Tokenizer z częstotliwością downsamplingu wynoszącą 16, aby generować bardziej szczegółowe obrazy. Dzięki temu generowane obrazy są bardziej realistyczne i szczegółowe.
Innowacje w infrastrukturze
Janus Pro jest zbudowany na modelach DeepSeek-LLM-1.5b i DeepSeek-LLM-7b, które zapewniają modelowi potężne możliwości przetwarzania multimodalnego, dzięki czemu doskonale radzi sobie z multimodalnymi zadaniami rozumienia i generowania.
Możliwości multimodalnego rozumienia i generowania
Janus Pro jest w stanie nie tylko obsługiwać multimodalne zadania rozumienia (takie jak wizualne odpowiadanie na pytania i podpisywanie obrazów), ale także generować wysokiej jakości obrazy z opisów tekstowych. Ta zdolność czyni go doskonałym w scenariuszach multimodalnych.

Wydajność Janus Pro DeepSeek
Model Janus-Pro DeepSeek wyróżnia się w multimodalnych zadaniach rozumienia i generowania. Poniżej znajduje się szczegółowa analiza jego wydajności:
Wydajność rozumienia multimodalnego
- Test MMBench: Janus-Pro-7B osiągnął wynik 79,2 w teście MMBench dla multimodalnego rozumienia, przewyższając istniejące najnowocześniejsze zunifikowane modele multimodalne, w tym Janus (69,4), TokenFlow (68,9) i MetaMorph (75,2).
- Wizualne odpowiadanie na pytania: Dokładność odpowiadania na pytania wizualne Janus-Pro przewyższa GPT-4V, dokładnie identyfikując szczegóły na obrazach i odpowiadając na powiązane pytania.
Śledzenie poleceń tekst-obraz
- Test porównawczy GenEval: Janus-Pro-7B osiągnął ogólną dokładność 80% w teście GenEval, znacznie przewyższając inne modele, takie jak DALL-E 3 (67%) i Stable Diffusion 3 Medium (74%).
Zrozumienie złożonych poleceń: W teście DPG-Bench, Janus-Pro-7B uzyskał doskonały wynik 84,19 punktów i był w stanie dokładnie wygenerować złożone sceny, takie jak "ośnieżona góra z niebieskim jeziorem na szczycie".
Wydajność generowania tekstu na obraz
- Jakość i stabilność obrazu: Pomimo rozdzielczości wyjściowej 384×384, obrazy generowane przez Janus-Pro-7B wykazują wysoki stopień realizmu i bogactwo szczegółów, zwłaszcza podczas przetwarzania pomysłowych i kreatywnych scen. Potrafi dokładnie zrozumieć informacje semantyczne zawarte w słowach zachęty i generować logicznie uzasadnione i spójne obrazy.
- Szybkość generowania: Janus-Pro obsługuje generowanie obrazu 4K na jednej karcie, czyli 2 razy szybciej niż Stable Diffusion 3.
Architektura modelu i szkolenie
- Oddzielenie kodowania wizualnego: Janus-Pro wykorzystuje niezależną metodę kodowania do przekształcania oryginalnych danych wejściowych w funkcje, które są następnie przetwarzane przez ujednoliconą transformatę autoregresyjną w celu osiągnięcia oddzielenia kodowania wizualnego w multimodalnych zadaniach rozumienia i generowania.
- Dane treningowe: Janus-Pro włącza do treningu 72 miliony wysokiej jakości obrazów syntetycznych, aby zapewnić stosunek 1:1 danych rzeczywistych do syntetycznych. Dodaje również około 90 milionów próbek multimodalnych danych treningowych, znacznie poprawiając wydajność modelu.
Skalowalność i wdrażanie
Rozmiar modelu: Seria Janus-Pro oferuje modele o rozmiarach parametrów 1B i 7B, które uwzględniają zarówno wydajność, jak i koszty obliczeniowe i są odpowiednie dla większej liczby przypadków użycia.
Minimalne wdrożenie: Janus-Pro jest wydany na licencji MIT, wspiera komercyjne wykorzystanie i udostępnia dwie wersje: 1.5B (wymaga 16 GB VRAM) i 7B (wymaga 24 GB VRAM), które mogą działać na standardowych procesorach graficznych.
Praktyczne scenariusze zastosowania Janus Pro DeepSeek
Modele multimodalne AI, zwłaszcza modele tekstowo-obrazowe, mają ogromny potencjał rozwoju w sektorze komercyjnym. Po długim okresie rozwoju, modele tekstowo-obrazowe AI poczyniły już ogromne postępy
W najczęstszym scenariuszu projektowania reklam lub plakatów, projektanci lub użytkownicy mogą używać Janus pro do wprowadzania opisu tekstowego w celu szybkiego generowania wysokiej jakości plakatów. Iterując przez prototypy plakatów, mogą zaoszczędzić czas projektowania i poprawić kreatywną wydajność. Może to znacznie poprawić wydajność projektantów, którzy mogą poświęcić czas na bardziej znaczące rzeczy
Oprócz tradycyjnego projektowania plakatów lub reklam, w bardziej popularnych obecnie ustawieniach gier, duży model ai może również pomóc projektantom w generowaniu scen, postaci i przedmiotów w czasie rzeczywistym, zmniejszając koszty i trudności rozwoju, jednocześnie poprawiając efekty wizualne gry. Wierzymy, że duży model ai może nadal uwalniać potencjał i wyobraźnię twórców oraz realizować bardziej interesujące produkty
Oprócz dziedziny projektowania, w innych dziedzinach uczenia się, edukacji i profesjonalnej pionowej dziedzinie medycyny, model multimodalny również będzie miał duży rozwój.
W przyszłości możemy być świadkami pojawienia się kolejnych bardzo interesujących aplikacji, które mogą znacznie poprawić wydajność i jakość naszego życia.
Tymczasem funkcje open source Janus-Pro (licencja MIT) i minimalne metody wdrażania (obsługuje uruchamianie na standardowych procesorach graficznych) dodatkowo zmniejszają barierę wejścia, dzięki czemu ma szerokie zastosowanie w powyższych dziedzinach.
Pozwala to większej liczbie użytkowników uczestniczyć w rozwoju, dzięki czemu więcej osób może ulepszać te funkcje i zwiększać możliwości całej społeczności.
Jak wybrać odpowiednią dla siebie wersję Janus Pro DeepSeek?
Janus-Pro jest open-sourcowany w dwóch wersjach: Janus-Pro-1B i Janus-Pro-7B. Wybór wersji zależy od konkretnych potrzeb, zasobów obliczeniowych i scenariuszy aplikacji. Poniżej znajduje się szczegółowe porównanie i zalecenia:
Obowiązujące scenariusze
Janus-Pro-1B:
- Lekkie aplikacje: odpowiednie do użytku na urządzeniach mobilnych, w przeglądarkach lub w środowiskach o ograniczonych zasobach. Umożliwia to większej liczbie użytkowników korzystanie z najnowszej wersji Janus pro.
- Szybkie prototypowanie: nadaje się do szybkiego rozwoju i testowania funkcji multimodalnych bez konieczności posiadania dużych zasobów obliczeniowych. Jest to bardzo ważne dla entuzjastów sztucznej inteligencji, którzy mogą szybko iterować i odkrywać problemy napotkane w badaniach bez konieczności posiadania dużych zasobów obliczeniowych.
Janus-Pro-7B:
- Generowanie obrazów wysokiej jakości: nadaje się do zastosowań wymagających generowania wysokiej jakości obrazów złożonych scen, takich jak projektowanie reklam, tworzenie gier i tworzenie artystyczne. Ten model jest bardziej odpowiedni do bardziej profesjonalnych scenariuszy projektowych, które wymagają bardziej wydajnego sprzętu i większych możliwości obliczeniowych
- Zrozumienie złożonych instrukcji: odpowiednie dla scenariuszy, które wymagają przetwarzania złożonych instrukcji tekstowych i generowania dokładnych obrazów, takich jak rzeczywistość wirtualna (VR) i rzeczywistość rozszerzona (AR).
Wymagania dotyczące wdrożenia
Janus-Pro-1B:
- Wymagania sprzętowe: nadaje się do uruchamiania na urządzeniach o ograniczonych zasobach, takich jak procesory graficzne wymagające 16 GB pamięci VRAM. Jeśli masz tylko starszą kartę graficzną, może to być bardziej odpowiednie dla ciebie
- Scenariusz aplikacji: odpowiedni do uruchamiania w przeglądarce lub wdrażania na lekkich urządzeniach.
Janus-Pro-7B:
- Wymagania sprzętowe: wymaga większych zasobów obliczeniowych, takich jak GPU z 24 GB pamięci VRAM. Będzie to bardziej odpowiednie dla użytkowników z nowszymi kartami graficznymi
- Scenariusz zastosowania: nadaje się do uruchamiania na standardowych procesorach graficznych i do scenariuszy wymagających wysokiej wydajności.
Podsumowanie
Jeśli scenariusz aplikacji wymaga wysokiej jakości obrazu i zrozumienia złożonych instrukcji, a użytkownik dysponuje wystarczającymi zasobami obliczeniowymi, zalecamy Janus-Pro-7B.
Jeśli potrzebujesz lekkiego wdrożenia lub masz ograniczone zasoby obliczeniowe, zalecamy Janus-Pro-1B.
Wsparcie i zasoby społeczności
DeepSeek zapewnia deweloperom bogate zasoby i wsparcie:
- Oficjalna dokumentacja zawiera szczegółowe opisy interfejsu API i przewodniki techniczne, w tym dostrajanie modeli, samouczki dotyczące wdrażania i inne treści.
- Społeczność deweloperów zapewnia fora i grupy dyskusyjne w celu ułatwienia wymiany doświadczeń między deweloperami. Organizowane są regularne sesje techniczne i hackathony.
- Pomoc techniczna zapewnia profesjonalne usługi wsparcia technicznego w celu rozwiązywania problemów napotkanych przez użytkowników podczas użytkowania.