Explosion! DeepSeekDas chinesische Neujahrsgeschenk - eine ausführliche Erläuterung des multimodalen Modells Janus-Pro
Das neueste Janus-Pro-Modell von DeepSeek verbindet direkt die "linke und rechte Gehirnhälfte" der multimodalen KI!
Dieser doppelgesichtige Killer, der gleichzeitig Bild- und Textverständnis und Bilderzeugung beherrscht, schreibt mit seinem selbstentwickelten Framework die Regeln der Branche neu.
Dabei handelt es sich nicht um eine einfache Überlagerung von Funktionen, sondern durch die Entkopplung des visuellen Kodierungspfads hat das Modell einen echten "one mind, two uses" erreicht.
Herkömmliche multimodale Modelle sind so, als würde man mit der gleichen Hand schreiben und zeichnen, während Janus-Pro die KI direkt mit zwei neuronalen Systemen ausstattet!
Rahmenrevolution: Lösung des jahrhundertealten Problems der Multimodalität
Die rücksichtsloseste Innovation von Janus-Pro ist die Aufteilung der visuellen Kodierung auf zwei unabhängige Kanäle.
Es ist, als würde man die KI mit dem Auge des Verstehens und der Hand der Schöpfung ausstatten, so dass das Modell bei der Verarbeitung von "Bildbeschreibung" und "Text-zu-Bild" keine Schwierigkeiten mehr hat.
Der größte Durchbruch liegt in seiner brandneuen, einheitlichen Architektur. Diese Architektur besteht aus drei Kernkomponenten:
Autoencoder: als das zentrale Sprachmodell
SigLIP-L@384: zuständig für die Kodierung des Bildverständnisses
VQ-VAE auf der Grundlage von LlamaGen: für die Bilderzeugung
Durch die Entkopplung der visuellen Kodierung in unabhängige Pfade unter Beibehaltung einer einheitlichen Transformer-Architektur löst Janus-Pro auf geniale Weise den Rollenkonflikt früherer Modelle im visuellen Kodierer.
@reach_vb weist auf den entscheidenden Durchbruch in der Architektur hin:
Das Modell basiert auf DeepSeek-LLM-1.5b/7b, verwendet SigLIP-L, um 384×384 Bildeingaben zu verarbeiten, und entkoppelt den Codierungsprozess durch aufgabenspezifische Pfade
Dieses Design ermöglicht es dem Modell, nahtlos zwischen multimodalen Aufgaben zu wechseln und dabei eine einzige Transformer-Architektur beizubehalten.
Ausbildungsstrategie: der evolutionäre Weg zum Erfolg in drei Schritten
Das DeepSeek-Team wählte einen sorgfältig konzipierten dreistufigen Schulungsprozess:
Stufe 1: Trainieren neuer Parameter auf dem ImageNet-Datensatz, um konzeptionelle Verbindungen zwischen visuellen und sprachlichen Elementen herzustellen
Stufe 2: Einführung eines multimodalen hybriden Datensatzes für die vollständige Feinabstimmung der Parameter
Stufe 3: Verbesserung der Befehlsverfolgung und der Dialogfähigkeit durch überwachte Feinabstimmung
Außerdem wurden innovative Anpassungen an das Datenverhältnis vorgenommen:
Bildverständnis-Aufgabe: 50% (eine signifikante Steigerung)
Aufgabe zur Bilderzeugung: 40
Textaufgabe: 10%
@iScienceLuvr weist auf das Geheimnis des Trainings hin:
Der Anteil der Textaufgaben wurde in der dritten Phase der Feinabstimmung bewusst reduziert
Dies zwingt das Modell, seine Rechenleistung auf die verkehrsträgerübergreifende Umwandlung zu konzentrieren
Performance Master
Dieses "Allrounder"-Monster ist in den beiden Kernmetriken ein echter Volltreffer!
Offizielle Tests zeigen, dass Janus-Pro nicht nur das vorherige, vereinheitlichte Modell übertrifft, sondern es sogar mit spezialisierten Modellen aufnehmen kann - es schneidet bei der Verständnisaufgabe genauso gut ab wie LLaVA und übertrifft DALL-E 3 bei der Generationsqualität!
Mit einem GenEval-Wert von 0,8 stellt es SD3-Medium in den Schatten.
und einem DPG-Bench-Score von 84,19 liegt die visuelle Gestaltungsqualität nahe an der von professionellen Designern
Dies basiert auf einer Trainingsstrategie mit 72 Millionen synthetischen Bildern und drei Trainingsstufen (Adaptertraining → einheitliches Vortraining → überwachtes Feintuning), die das Modell buchstäblich zu einem "multimodalen Meister" gemacht hat.
@dr_cintas hat einen Vergleich der tatsächlichen Messungen gepostet:
Mit einer quantisierten 4-Bit-Version auf einem iPhone beträgt die Inferenzgeschwindigkeit fast 60 Token/s.
Die erzeugte 384×384-Miniaturansicht kann den Text des Kennzeichens tatsächlich lesen
Im Benchmark-Test zum multimodalen Verstehen zeigte Janus-Pro-7B erstaunliche Stärke:
PAPST: 87.4%
MME-PT: 1567.1
MMBench: 79,2
SEED: 72,1
MMMU: 41,0
MM-Vet: 50,0
Bei der Bilderzeugung erreichte das Modell einen GenEval-Wert von 0,8 und einen DPG-Bench-Wert von 84,19 und übertraf damit viele Mainstream-Modelle wie DALL-E 3 und SD3-Medium.
MIT open source: Spielen Sie ruhig mit!
DeepSeek hat diesmal den Spieß umgedreht - die 7B/1B-Dualversion ist vollständig quelloffen, und die MIT-Lizenz erlaubt kommerzielle Modifikationen!
Hugging Face kann sofort heruntergeladen werden, und selbst die leichtgewichtige Version 1B kann lokal auf einem iPhone ausgeführt werden.
Entwickler @angrypenguinPNG gab eine Live-Demonstration:
Geben Sie "future city night scene" ein und in Sekundenschnelle erscheint eine Cyberpunk-Straßenansicht
Zoomen Sie heran, um die Details der Szene zu untersuchen, und das Modell kann den Farbverlauf der Neonlichter genau beschreiben
Praktischer Nutzen: Senkung der Einstiegshürden
Um den Anforderungen verschiedener Szenarien gerecht zu werden, bietet DeepSeek zwei Versionen an:
Janus-Pro-7B: die Vollversion, mit starker Leistung
Janus-Pro-1B: eine abgespeckte Version, die direkt im Browser ausgeführt werden kann
Beide Versionen wurden auf der Hugging Face-Plattform als Open Source veröffentlicht und stehen unter der MIT-Lizenz, so dass Entwickler sie frei verwenden und verändern können.
Der umfassende Durchbruch von DeepSeek
Die spannendste Frage ist nun: Wenn Verstehen und Generieren nicht mehr zwei getrennte Modelle erfordern, wird dann die bestehende KI-Anwendungsarchitektur kollektiv durchbrochen werden?
Diejenigen, die immer noch mit einmodalen Anwendungen zu kämpfen haben, sollten die Entwicklung kollaborativer Anwendungen für die linke und rechte Gehirnhälfte in Betracht ziehen.
Denn ein Modell, das gleichzeitig mit Text und Grafik spielen kann, ist die wahre Verkörperung der Multimodalität.
Es ist erwähnenswert, dass die Veröffentlichung von Janus-Pro nur einer von mehreren wichtigen Durchbrüchen ist, die DeepSeek in letzter Zeit erzielt hat:
Perplexity hat das DeepSeek R1 Modell für die Deep Web Suche integriert
Die destillierte Version von DeepSeek R1 erreicht eine lokale Inferenzgeschwindigkeit von 60 Token/s auf dem iPhone
DeepSeek AI Assistant ist an die Spitze der kostenlosen App Store-Liste gesprungen
und zeigte eine extrem schnelle Inferenzleistung auf der Groq-Plattform.
Diese Errungenschaften zeigen die umfassende Stärke von DeepSeek im Bereich der KI, und der bahnbrechende Fortschritt von Janus-Pro hat neue Wege für die Entwicklung multimodaler KI eröffnet.
Janus pro Verwandte Links und Dokumente
Adresse des Projekts:
Modell-Downloads:
Schnelle Erfahrung:
Keine Bereitstellung, kostenlos, Online-Nutzung janus pro
Referenzdokumentation:
Offizielle DeepSeek-Veranstaltung
Abschließend möchten wir feststellen: Sam Altmans Firmenname, der Kuchen, den er gemalt hat, und der Weg, über den er nachgedacht hat, scheinen an dieses neugierige chinesische Unternehmen weitergegeben zu werden, das die Grenzen der Intelligenz weiter ausloten wird!