{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"Die vollst\u00e4ndige Erkl\u00e4rung: von DeepSeek Janus bis Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Botschaft zum Mitnehmen: Janus ist ein einfaches, einheitliches und erweiterbares Modell f\u00fcr multimodales Verstehen und Generieren, das multimodales Verstehen und generierte visuelle Kodierung entkoppelt und potenzielle Konflikte zwischen den beiden Aufgaben entsch\u00e4rft. Es kann erweitert werden, um in Zukunft weitere Eingabemodalit\u00e4ten einzubeziehen. Janus-Pro baut auf dieser Grundlage auf, indem es die Trainingsstrategie optimiert (einschlie\u00dflich der Erh\u00f6hung der Anzahl der Trainingsschritte, der Anpassung der Datenverh\u00e4ltnisse usw.), mehr Daten hinzuf\u00fcgt (einschlie\u00dflich der Verwendung synthetischer Daten usw.) und die Modellgr\u00f6\u00dfe erh\u00f6ht (auf 7 Milliarden Parameter), was zu Fortschritten beim multimodalen Verst\u00e4ndnis und bei der Befolgung von Text-zu-Bild-Instruktionen des Modells f\u00fchrt.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Adresse des Codes<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus Pro-Adresse<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> ist eine erweiterte Version der fr\u00fcheren Arbeit Janus, insbesondere mit (1) einer optimierten Trainingsstrategie, (2) erweiterten Trainingsdaten und (3) gr\u00f6\u00dferen Modellgr\u00f6\u00dfen. Mit diesen Verbesserungen macht Janus-Pro erhebliche Fortschritte beim multimodalen Verstehen und bei der Befolgung von Text-zu-Bild-Anweisungen, w\u00e4hrend gleichzeitig die Stabilit\u00e4t der Text-zu-Bild-Generierung verbessert wird. Bevor wir Janus-Pro auspacken, wollen wir uns Janus ansehen.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Inhalts\u00fcbersicht<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Inhaltsverzeichnis umschalten\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Umschalten auf<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >\u00dcberpr\u00fcfung von Janus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >Die Janus-Ausbildung ist in 3 Phasen unterteilt:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Phase 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Phase 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Phase 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >Ziele der Ausbildung<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >Begr\u00fcndung<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >M\u00f6gliche Erweiterungen<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Janus-Pro Upgrade<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >Hauptverbesserungen<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Ausbildungsstrategie<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >Daten-Skala<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Modell Skala<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >Experimentelle Details<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/de\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Unzureichend<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>\u00dcberpr\u00fcfung von Janus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Der Vorg\u00e4nger Janus ist ein autoregressiver Rahmen f\u00fcr einheitliches multimodales Verstehen und Generieren, der zur Entkopplung der visuellen Kodierung f\u00fcr einheitliches multimodales Verstehen und Generieren verwendet wird. F\u00fcr das multimodale Verstehen folgt das Design typischerweise LLaVA, wobei visuelle Kodierer als Br\u00fccke verwendet werden, um gro\u00dfe Sprachmodelle zum Verstehen von Bildern zu bef\u00e4higen. F\u00fcr die Generierung wird in der Regel auf Diffusionsmodelle zur\u00fcckgegriffen, und einige basieren auf autoregressiven Methoden. Einige Ans\u00e4tze versuchen, die multimodalen Verstehens- und Generierungsaufgaben mit einem einzigen Transformer zu vereinen, der in der Regel einen einzigen visuellen Codierer zur Verarbeitung der Eingaben beider Aufgaben verwendet.<\/p>\n\n\n\n<p>Es gibt jedoch Unterschiede in den Repr\u00e4sentationen, die f\u00fcr multimodale Verstehens- und Generierungsaufgaben erforderlich sind. Bei der multimodalen Verstehensaufgabe zielt der visuelle Encoder darauf ab, semantische Informationen auf hoher Ebene zu extrahieren (z. B. Objektkategorien oder visuelle Attribute), und die Ausgabe umfasst nicht nur die Extraktion von Informationen aus dem Bild, sondern auch komplexe semantische Schlussfolgerungen, wobei sich der Encoder haupts\u00e4chlich auf hochdimensionale semantische Repr\u00e4sentationen konzentriert. Die Generierungsaufgabe befasst sich haupts\u00e4chlich mit der Erzeugung lokaler Details und der Aufrechterhaltung der globalen Konsistenz im Bild, was niedrigdimensionale kodierte Repr\u00e4sentationen r\u00e4umlicher Strukturen und Texturdetails erfordert. Die Vereinheitlichung der Repr\u00e4sentationen beider Aufgaben in demselben Raum kann zu Konflikten f\u00fchren.<\/p>\n\n\n\n<p>Janus enth\u00e4lt zwei unabh\u00e4ngige visuelle Kodierungspfade f\u00fcr multimodales Verstehen und Generieren und bietet zwei Vorteile: 1) entsch\u00e4rft Konflikte, die sich aus den unterschiedlichen Granularit\u00e4tsanforderungen des multimodalen Verstehens und Erzeugens ergeben, und 2) ist flexibel und skalierbar und entkoppelt, so dass sowohl die Verstehens- als auch die Erzeugungsaufgaben mit modernsten, dom\u00e4nenspezifischen Kodierungstechniken kodiert und in Zukunft mit Punktwolken, EEG-Signalen oder Audiodaten gespeist und mit einem einheitlichen Transformator verarbeitet werden k\u00f6nnen.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>F\u00fcr das Textverst\u00e4ndnis wird der Text mit Hilfe des in LLM integrierten Tokenizers in diskrete IDs umgewandelt;<\/p>\n\n\n\n<p>F\u00fcr das multimodale Verstehen werden hochdimensionale semantische Merkmale in den Bildern mit Hilfe von SigLIP-Encodern extrahiert (Anmerkung des Autors: Cosmos verwendet ebenfalls SigLIP-Encoder im Abschnitt Guardrails), und die extrahierten Merkmale werden mit Hilfe von Adaptor (2-Schicht-MLP) in den Textmerkmalsraum von LLM abgebildet;<\/p>\n\n\n\n<p>Die lange Seite wurde auf 384 Pixel eingestellt und die kurze Seite wurde mit RGB(127, 127, 127) auf 384 Pixel gef\u00fcllt;<\/p>\n\n\n\n<p>F\u00fcr die visuelle Erzeugung wurde das Bild mit dem VQ Tokenizer in diskrete IDs umgewandelt, und jede ID wurde mit dem Adaptor (2-Schicht-MLP) in den textuellen Merkmalsraum des LLM abgebildet;<\/p>\n\n\n\n<p>Kurze Kanten wurden auf 384 Pixel verkleinert und lange Kanten wurden auf 384 Pixel beschnitten;<\/p>\n\n\n\n<p>Das gesamte Training wurde mit 16 Knoten durchgef\u00fchrt, die jeweils 8 Nvidia A100 GPUs enthielten;<\/p>\n\n\n\n<p>Sowohl f\u00fcr die visuelle Generierung als auch f\u00fcr die multimodalen Verstehensaufgaben werden die Bildmerkmalssequenzen und die Textmerkmalssequenzen als Eingabe f\u00fcr den LLM miteinander verkn\u00fcpft (im Text wird DeepSeek-LLM 1.3B verwendet);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Der eingebaute Vorhersagekopf des LLM wird f\u00fcr Textvorhersagen sowohl in der reinen Textverstehens- als auch in der multimodalen Verstehensaufgabe verwendet, w\u00e4hrend ein zuf\u00e4llig initialisierter Vorhersagekopf f\u00fcr Bildvorhersagen in der visuellen Generierungsaufgabe eingesetzt wird. Das gesamte Modell folgt einem autoregressiven Rahmen, ohne dass speziell entwickelte Aufmerksamkeitsmasken erforderlich sind.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Ausbildung<\/a> ist in 3 Phasen unterteilt:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Phase 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Zugadapter und Bildkopf<\/strong> um Verbindungen zwischen sprachlichen und visuellen Elementen im Einbettungsraum zu schaffen, die es dem LLM erm\u00f6glichen, Entit\u00e4ten im Bild zu verstehen und erste visuelle Generierungsf\u00e4higkeiten zu haben;<\/p>\n\n\n\n<p>F\u00fcr das multimodale Verst\u00e4ndnis verwenden Sie 1,25 Millionen Bild-Text-Paare aus SHareGPT4V im Format: ;<\/p>\n\n\n\n<p>F\u00fcr die visuelle Erzeugung werden 1,2 Millionen Beispiele aus ImageNet1k im Format: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Phase 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Einheitliche Vorschulung<\/strong>In dieser Phase wird ein multimodaler Korpus f\u00fcr ein einheitliches Vortraining verwendet, um multimodales Verstehen und Generieren zu lernen. In dieser Phase werden einfache Textdaten, multimodale Verst\u00e4ndnisdaten und visuelle Generierungsdaten verwendet. Einfaches Training der visuellen Generierung unter Verwendung von ImageNet-1k, gefolgt von der Verwendung von generischen Text-Bild-Daten zur Verbesserung der visuellen Generierung im offenen Bereich des Modells;<\/p>\n\n\n\n<p>Klartext-Daten: DeepSeek-LLM-Korpus vortrainiert;<\/p>\n\n\n\n<p>Verschachtelte Bild-Text-Daten: WikiHow- und WIT-Datens\u00e4tze;<\/p>\n\n\n\n<p>Bildunterschriftsdaten: Bilder aus mehreren Quellen und Neuuntertitelung einiger Bilder unter Verwendung von multimodalen Open-Source-Modellen, wobei die Daten als Q&amp;A-Paare formatiert sind, z. B. Beschreiben Sie das Bild im Detail.;<\/p>\n\n\n\n<p>Tabellarische und grafische Daten: entsprechende tabellarische und grafische Daten aus DeepSeek-VL im Format ;<\/p>\n\n\n\n<p>Visuell generierte Daten: Bild-Beschriftungspaare aus mehreren Datens\u00e4tzen und 2 Millionen interne Daten;<\/p>\n\n\n\n<p>Beim Training wird nur der erste Satz der \u00dcberschrift mit einer Wahrscheinlichkeit von 25% zuf\u00e4llig verwendet;<\/p>\n\n\n\n<p>ImageNet-Beispiele erscheinen nur in den ersten 120K Trainingsschritten, w\u00e4hrend Bilder aus anderen Datens\u00e4tzen in den nachfolgenden 60K Schritten erscheinen;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Phase 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>\u00dcberwachte Feinabstimmung<\/strong>Die zuvor trainierten Modelle werden mit Hilfe von Daten zur Feinabstimmung von Anweisungen feinabgestimmt, um ihre F\u00e4higkeit zu verbessern, Anweisungen und Dialogen zu folgen. Feinabstimmung aller Parameter mit Ausnahme des generierenden Encoders. Ausblenden von System- und Benutzerhinweisen bei der \u00dcberwachung der Antworten. Um sicherzustellen, dass Janus sowohl das multimodale Verstehen als auch die Generierung beherrscht, werden die Modelle nicht separat f\u00fcr spezifische Aufgaben feinabgestimmt. Stattdessen verwenden wir eine Mischung aus reinen Textdialogdaten, multimodalen Verstehensdaten und visuellen Generierungsdaten, um die Vielseitigkeit in einer Vielzahl von Szenarien zu gew\u00e4hrleisten;<\/p>\n\n\n\n<p>Textverst\u00e4ndnis: verwendet Daten aus bestimmten Quellen;<\/p>\n\n\n\n<p>Multimodales Verstehen: Nutzung von Daten aus verschiedenen Quellen zur Optimierung des Unterrichts;<\/p>\n\n\n\n<p>Visuelle Generierung: Verwendung einer Teilmenge von Bild-Text-Paaren aus einigen der Phase-II-Datens\u00e4tze sowie von 4 Millionen internen Daten;<\/p>\n\n\n\n<p>Das Datenformat ist: Benutzer: \\n Assistent: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>Ziele der Ausbildung<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus ist ein autoregressives Modell, das mit einer Kreuzentropie-Verlustfunktion trainiert wird. Bei Aufgaben zum Textverst\u00e4ndnis und zum multimodalen Verst\u00e4ndnis wird der Verlust auf der Textsequenz berechnet. F\u00fcr visuelle Generierungsaufgaben wird der Verlust nur auf der Bildsequenz berechnet. Um das Design einfach zu halten, werden den verschiedenen Aufgaben keine unterschiedlichen Verlustgewichte zugewiesen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Begr\u00fcndung<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Mit der n\u00e4chsten Methode zur Vorhersage lexikalischer Elemente werden f\u00fcr das Textverst\u00e4ndnis und das multimodale Verst\u00e4ndnis lexikalische Elemente nacheinander aus der Vorhersageverteilung gezogen. F\u00fcr die Bilderzeugung wird ein klassifikatorloser Bootstrap verwendet.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>M\u00f6gliche Erweiterungen<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>F\u00fcr das multimodale Verstehen k\u00f6nnte 1) ein st\u00e4rkerer visueller Kodierer gew\u00e4hlt werden und 2) dynamische hochaufl\u00f6sende Techniken verwendet werden;<\/p>\n\n\n\n<p>F\u00fcr die Generierung von Visionen k\u00f6nnten 1) feink\u00f6rnigere Encoder gew\u00e4hlt werden, 2) speziell f\u00fcr die Generierung von Visionen entwickelte Verlustfunktionen verwendet werden und 3) kausale Aufmerksamkeit und parallele Methoden kombiniert werden;<\/p>\n\n\n\n<p>Mehr Modalit\u00e4ten, mit der M\u00f6glichkeit, 3D-Punktwolken, Haptik, EEG und andere Eingaben f\u00fcr Verlustmodalit\u00e4ten zu integrieren;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro Upgrade<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Aufgrund der begrenzten Trainingsdaten und der relativ geringen Modellkapazit\u00e4t (1B) ist Janus in einigen Aspekten mangelhaft, wie z.B. die schlechte Repr\u00e4sentation der Bilderzeugung bei kurzen Hinweisen und die uneinheitliche Qualit\u00e4t der Text-Bild-Generierung. Janus-Pro hat die gleiche Architektur wie Janus, wie in der Abbildung unten zu sehen ist:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>Hauptverbesserungen<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Ausbildungsstrategie<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Stufe 1: Erh\u00f6hen Sie die Anzahl der Trainingsschritte und trainieren Sie vollst\u00e4ndig auf ImageNet;<\/p>\n\n\n\n<p>Stufe 2: Keine Verwendung von ImageNet mehr, direkte Verwendung von regul\u00e4ren Text-Bild-Daten f\u00fcr das Training;<\/p>\n\n\n\n<p>Stufe 3: \u00c4ndern Sie die Verh\u00e4ltnisse der Datens\u00e4tze im Feinabstimmungsprozess, indem Sie das Verh\u00e4ltnis von multimodalen Daten, reinen Textdaten und Text-zu-Bild-Daten von 7:3:10 auf 5:1:4 \u00e4ndern;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Daten-Skala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Multimodales Verst\u00e4ndnis<\/p>\n\n\n\n<p>Stufe 2: Hinzuf\u00fcgen von 90 Millionen Beispielen, einschlie\u00dflich YFCC f\u00fcr Bildunterschriften und Doc-matrix f\u00fcr das Verst\u00e4ndnis von Tabellen und Diagrammen;<\/p>\n\n\n\n<p>Stufe 3: Hinzuf\u00fcgen zus\u00e4tzlicher DeepSeek-VL2-Datens\u00e4tze, z. B. zum Verst\u00e4ndnis von MEME;<\/p>\n\n\n\n<p>Visuelle Generierung: Daten aus der realen Welt k\u00f6nnen von schlechter Qualit\u00e4t sein, was zu einer instabilen Text-Bild-Generierung und einer schlechten \u00e4sthetischen Ausgabe f\u00fchrt. Janus-Pro verwendet 72 Millionen Samples von synthetischen \u00e4sthetischen Daten, mit einer einheitlichen Vor-Trainings-Phase (Stufe 2) von 1:1 Verh\u00e4ltnis von realen Daten zu synthetischen Daten;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Modell Skala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Skalierung der Modellparameter auf 7 Milliarden Parameter;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Experimentelle Details<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Im Vergleich zu Janus sind die Details der Janus-Pro-Experimente im Wesentlichen gleich. Im Gegensatz dazu wurden bei dem Modell mit den gr\u00f6\u00dferen Parametern mehr Clusterknoten verwendet (16 bis 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Janus-Pro Trainings-Hyper-Parameter<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Unzureichend<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>F\u00fcr das multimodale Verstehen ist die Eingabeaufl\u00f6sung auf 384\u00d7384 begrenzt, was die Leistung bei feink\u00f6rnigen visuellen Aufgaben beeintr\u00e4chtigt. Bei der Text-zu-Bild-Erzeugung f\u00fchrt die geringe Aufl\u00f6sung zu einem Mangel an Details in den erzeugten Ergebnissen.<\/p>","protected":false},"excerpt":{"rendered":"<p>Botschaft zum Mitnehmen: Janus ist ein einfaches, einheitliches und erweiterbares Modell f\u00fcr multimodales Verstehen und Generieren, das multimodales Verstehen und generierte visuelle Kodierung entkoppelt und potenzielle Konflikte zwischen den beiden Aufgaben entsch\u00e4rft. Es kann erweitert werden, um in Zukunft weitere Eingabemodalit\u00e4ten einzubeziehen. Janus-Pro baut auf dieser Grundlage auf, indem es die Trainingsstrategie optimiert (u. a. Erh\u00f6hung der...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}