{"id":857,"date":"2025-02-04T16:45:13","date_gmt":"2025-02-04T16:45:13","guid":{"rendered":"https:\/\/janusai.pro\/?p=857"},"modified":"2025-02-04T16:45:15","modified_gmt":"2025-02-04T16:45:15","slug":"in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have","status":"publish","type":"post","link":"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/","title":{"rendered":"Eingehende Analyse: Welche Neuerungen bietet das neue Janus-Pro von DeepSeek?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>DeepSeek hat seine Website aktualisiert.<\/p>\n\n\n\n<p>In den fr\u00fchen Morgenstunden der Silvesternacht gab DeepSeek pl\u00f6tzlich auf GitHub bekannt, dass der Janus-Projektraum die Quelle des Janus-Pro-Modells und des technischen Berichts ge\u00f6ffnet hatte.<\/p>\n\n\n\n<p>Lassen Sie uns zun\u00e4chst einige wichtige Punkte hervorheben:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li>Die <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Modell Janus-Pro<\/a> Diesmal wird ein multimodales Modell ver\u00f6ffentlicht, das<strong> kann gleichzeitig Aufgaben des multimodalen Verstehens und der Bilderzeugung \u00fcbernehmen. Es hat insgesamt zwei Parameter-Versionen, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro-1B und Janus-Pro-7B<\/a>.<\/strong><\/li>\n\n\n\n<li>Die wichtigste Innovation von Janus-Pro ist die Entkopplung<strong> multimodales Verstehen und Generieren, zwei unterschiedliche Aufgaben. So k\u00f6nnen diese beiden Aufgaben effizient in demselben Modell erledigt werden<\/strong>.<\/li>\n\n\n\n<li>Janus-Pro stimmt mit der Janus-Modellarchitektur \u00fcberein, die DeepSeek im Oktober letzten Jahres ver\u00f6ffentlicht hat, aber zu diesem Zeitpunkt hatte Janus noch nicht viel Volumen. Dr. Charles, ein Algorithmus-Experte auf dem Gebiet des Sehens, sagte uns, dass das vorherige Janus-Modell \"durchschnittlich\" und \"nicht so gut wie das Sprachmodell von DeepSeek\" war.<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1870\" height=\"1804\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png\" alt=\"\" class=\"wp-image-859\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png 1870w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-300x289.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1024x988.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-768x741.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1536x1482.png 1536w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-12x12.png 12w\" sizes=\"auto, (max-width: 1870px) 100vw, 1870px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Inhalts\u00fcbersicht<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Inhaltsverzeichnis umschalten\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Umschalten auf<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\" >Es soll das schwierige Problem der Branche l\u00f6sen: ein Gleichgewicht zwischen multimodalem Verst\u00e4ndnis und Bilderzeugung<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\" >Die entkoppelte Architektur von Janus und die optimierte Trainingsstrategie von Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#First_lets_look_at_the_parameters\" >Schauen wir uns zun\u00e4chst die Parameter an.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#There_is_also_the_training_strategy\" >Es gibt auch eine Ausbildungsstrategie.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_I_%E2%80%93_Longer_training_time\" >Stufe I - L\u00e4ngere Ausbildungszeit<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\" >Stufe II - Entfernen von ImageNet-Daten und Hinzuf\u00fcgen von multimodalen Daten<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_III_%E2%80%93_Optimizing_the_data_ratio\" >Stufe III - Optimierung des Datenverh\u00e4ltnisses<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Lets_look_at_the_training_data\" >Schauen wir uns die Trainingsdaten an.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_multimodal_understanding_data\" >Erweiterung der multimodalen Verst\u00e4ndnisdaten:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_visual_generation_data\" >Erweiterung der Daten zur visuellen Erzeugung:<\/a><\/li><\/ul><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/de\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#The_continuation_of_an_efficiency_revolution\" >Die Fortsetzung einer Effizienzrevolution?<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\"><\/span><strong>Es soll das schwierige Problem der Branche l\u00f6sen: ein Gleichgewicht zwischen multimodalem Verst\u00e4ndnis und Bilderzeugung<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Laut der offiziellen Einf\u00fchrung von DeepSeek, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro <\/a>kann nicht nur Bilder verstehen, den Text in den Bildern extrahieren und verstehen, sondern auch gleichzeitig Bilder erzeugen.<\/p>\n\n\n\n<p>Im technischen Bericht wird erw\u00e4hnt, dass die Ergebnisse des Janus-Pro-7B im Vergleich zu anderen Modellen desselben Typs und derselben Gr\u00f6\u00dfenordnung bei den Tests\u00e4tzen GenEval und DPG-Bench<strong> \u00fcbertreffen die Werte anderer Modelle wie SD3-Medium und DALL-E 3.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1067\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png\" alt=\"\" class=\"wp-image-862\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-300x296.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-1024x1012.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-768x759.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Der Beamte nennt auch Beispiele \ud83d\udc47:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1295\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png\" alt=\"\" class=\"wp-image-866\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-250x300.png 250w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-854x1024.png 854w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-768x921.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-10x12.png 10w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Es gibt auch viele Netizens auf X, die die neuen Funktionen ausprobieren.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1429\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png\" alt=\"\" class=\"wp-image-867\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-227x300.png 227w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-774x1024.png 774w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-768x1016.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-9x12.png 9w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1616\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png\" alt=\"\" class=\"wp-image-869\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-200x300.png 200w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-684x1024.png 684w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-768x1149.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-1027x1536.png 1027w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-8x12.png 8w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Aber es kommt auch gelegentlich zu Abst\u00fcrzen.<\/p>\n\n\n\n<p>Durch die Konsultation der technischen Unterlagen \u00fcber <a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a>haben wir festgestellt, dass Janus Pro eine Optimierung auf der Grundlage von Janus ist, die vor drei Monaten ver\u00f6ffentlicht wurde.<\/p>\n\n\n\n<p>Die wichtigste Innovation dieser Modellreihe besteht darin, dass<strong> Aufgaben zum visuellen Verstehen von Aufgaben zur visuellen Erzeugung zu entkoppeln, so dass die Auswirkungen der beiden Aufgaben ausgeglichen werden k\u00f6nnen.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"538\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png\" alt=\"\" class=\"wp-image-861\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-1024x510.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-768x383.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Es ist nicht ungew\u00f6hnlich, dass ein Modell multimodales Verstehen und Generieren gleichzeitig durchf\u00fchren kann. D-DiT und TokenFlow-XL in diesem Testsatz haben beide diese F\u00e4higkeit.<\/p>\n\n\n\n<p>Charakteristisch f\u00fcr Janus ist jedoch, dass<strong> Durch die Entkopplung der Verarbeitung kann ein Modell, das multimodales Verstehen und Generieren erm\u00f6glicht, die Effektivit\u00e4t der beiden Aufgaben ausgleichen.<\/strong><\/p>\n\n\n\n<p><strong>Das Gleichgewicht zwischen den beiden Aufgaben ist ein schwieriges Problem in der Branche.<\/strong> Bisher war man der Meinung, dass ein und derselbe Encoder verwendet werden sollte, um multimodales Verstehen und Generieren so weit wie m\u00f6glich zu realisieren.<\/p>\n\n\n\n<p>Die Vorteile dieses Ansatzes sind eine einfache Architektur, kein redundanter Einsatz und eine Angleichung an Textmodelle (die ebenfalls die gleichen Methoden zur Texterzeugung und zum Textverst\u00e4ndnis verwenden). Ein weiteres Argument ist, dass diese Verschmelzung mehrerer F\u00e4higkeiten zu einem gewissen Grad an Emergenz f\u00fchren kann.<\/p>\n\n\n\n<p>Nach der Verschmelzung von Generierung und Verstehen stehen die beiden Aufgaben jedoch im Widerspruch zueinander: Das Bildverst\u00e4ndnis erfordert, dass das Modell in hohen Dimensionen abstrahiert und die Kernsemantik des Bildes extrahiert, die eher makroskopisch ist. Die Bilderzeugung hingegen konzentriert sich auf den Ausdruck und die Erzeugung lokaler Details auf der Pixelebene.<\/p>\n\n\n\n<p>Die \u00fcbliche Praxis der Industrie besteht darin, den F\u00e4higkeiten zur Bilderzeugung Vorrang einzur\u00e4umen. Dies f\u00fchrt zu multimodalen Modellen, die<strong> k\u00f6nnen qualitativ hochwertigere Bilder erzeugen, aber die Ergebnisse des Bildverst\u00e4ndnisses sind oft nur mittelm\u00e4\u00dfig.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\"><\/span><strong>Die entkoppelte Architektur von Janus und die optimierte Trainingsstrategie von Janus-Pro<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Die entkoppelte Architektur von Janus erm\u00f6glicht es dem Modell, die Aufgaben des Verstehens und der Generierung selbst\u00e4ndig zu bew\u00e4ltigen.<\/p>\n\n\n\n<p>Den Ergebnissen des offiziellen technischen Berichts zufolge schneidet das Janus-Pro-7B bei mehreren Testreihen gut ab, ganz gleich, ob es um multimodales Verstehen oder Bilderzeugung geht.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"976\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png\" alt=\"\" class=\"wp-image-863\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-300x271.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-1024x925.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-768x694.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-13x12.png 13w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>F\u00fcr multimodales Verst\u00e4ndnis,<\/strong> Janus-Pro-7B erreichte den ersten Platz in vier der sieben Bewertungsdatens\u00e4tze und den zweiten Platz in den verbleibenden drei, knapp hinter dem bestplatzierten Modell.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1062\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png\" alt=\"\" class=\"wp-image-865\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-300x295.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-1024x1007.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-768x755.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>F\u00fcr die Bilderzeugung,<\/strong> Janus-Pro-7B erreichte sowohl bei den GenEval- als auch bei den DPG-Bench-Evaluierungsdatens\u00e4tzen den ersten Platz in der Gesamtbewertung.<\/p>\n\n\n\n<p>Dieser Multitasking-Effekt ist vor allem darauf zur\u00fcckzuf\u00fchren, dass die Janus-Serie zwei visuelle Encoder f\u00fcr unterschiedliche Aufgaben verwendet:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li><strong>Verst\u00e4ndnis f\u00fcr Encoder:<\/strong> zur Extraktion semantischer Merkmale in Bildern f\u00fcr Bildverstehensaufgaben (z. B. Fragen und Antworten zu Bildern, visuelle Klassifizierung usw.).<\/li>\n\n\n\n<li><strong>Generativer Kodierer:<\/strong> konvertiert Bilder in eine diskrete Darstellung (z. B. mit einem VQ-Encoder) f\u00fcr Text-Bild-Generierungsaufgaben.<\/li>\n<\/ol>\n\n\n\n<p>Mit dieser Architektur,<strong> kann das Modell die Leistung jedes Encoders unabh\u00e4ngig voneinander optimieren, so dass multimodale Verstehens- und Generierungsaufgaben jeweils ihre beste Leistung erzielen k\u00f6nnen.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"565\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png\" alt=\"\" class=\"wp-image-860\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-300x157.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-1024x536.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-768x402.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Diese entkoppelte Architektur ist Janus-Pro und Janus gemeinsam. Welche Iterationen hat Janus-Pro in den letzten Monaten durchlaufen?<\/strong><\/p>\n\n\n\n<p>Wie aus den Ergebnissen des Evaluierungssets hervorgeht, weist die aktuelle Version von Janus-Pro-1B eine Verbesserung von ca. 10% bis 20% in den Ergebnissen der verschiedenen Evaluierungssets im Vergleich zum vorherigen Janus auf. Janus-Pro-7B hat die h\u00f6chste Verbesserung von etwa 45% im Vergleich zu Janus, nachdem die Anzahl der Parameter erweitert wurde.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"185\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png\" alt=\"\" class=\"wp-image-858\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-300x51.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-1024x175.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-768x132.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-18x3.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"430\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png\" alt=\"\" class=\"wp-image-864\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-1024x408.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-768x306.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Was die Einzelheiten der Ausbildung betrifft, so hei\u00dft es in dem technischen Bericht, dass die aktuelle Version von Janus-Pro im Vergleich zum vorherigen Janus-Modell die entkoppelte Kernarchitektur beibeh\u00e4lt und zus\u00e4tzlich folgende Neuerungen aufweist<strong> Parametergr\u00f6\u00dfe, Trainingsstrategie und Trainingsdaten.<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"First_lets_look_at_the_parameters\"><\/span><strong>Schauen wir uns zun\u00e4chst die Parameter an<\/strong>.<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Die erste Version von Janus hatte nur 1,3B Parameter, und die aktuelle Version von Pro enth\u00e4lt Modelle mit 1B und 7B Parametern.<\/p>\n\n\n\n<p>Diese beiden Gr\u00f6\u00dfen spiegeln die Skalierbarkeit der Janus-Architektur wider. Das Modell 1B, das am leichtesten ist, wurde bereits von externen Nutzern f\u00fcr die Ausf\u00fchrung im Browser mit WebGPU verwendet.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"There_is_also_the_training_strategy\"><\/span><strong>Au\u00dferdem gibt es <\/strong><strong>die<\/strong><strong> Ausbildungsstrategie.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>In \u00dcbereinstimmung mit der Einteilung der Ausbildungsphasen in Janus hat das Janus Pro insgesamt drei Ausbildungsphasen, die in diesem Papier direkt in Phase I, Phase II und Phase III unterteilt werden.<\/p>\n\n\n\n<p>Unter Beibehaltung der grundlegenden Schulungsideen und -ziele jeder Phase hat Janus-Pro Verbesserungen bei der Schulungsdauer und den Schulungsdaten in den drei Phasen vorgenommen. Im Folgenden werden die spezifischen Verbesserungen in den drei Phasen beschrieben:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_I_%E2%80%93_Longer_training_time\"><\/span><strong>Stufe I - L\u00e4ngere Ausbildungszeit<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Im Vergleich zu Janus hat Janus-Pro die Trainingszeit in Phase I verl\u00e4ngert, insbesondere beim Training von Adaptern und Bildk\u00f6pfen im visuellen Teil. Das bedeutet, dass f\u00fcr das Erlernen der visuellen Merkmale mehr Trainingszeit zur Verf\u00fcgung steht, und es ist zu hoffen, dass das Modell die detaillierten Merkmale von Bildern (z. B. die Zuordnung von Pixeln zur Semantik) vollst\u00e4ndig verstehen kann.<\/p>\n\n\n\n<p>Diese erweiterte Ausbildung tr\u00e4gt dazu bei, dass die Ausbildung des visuellen Teils nicht durch andere Module gest\u00f6rt wird.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\"><\/span><strong>Stufe II - Entfernen von ImageNet-Daten und Hinzuf\u00fcgen von multimodalen Daten<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>In Phase II wurde Janus zuvor mit PixArt referenziert und in zwei Teilen trainiert. Der erste Teil wurde mit dem ImageNet-Datensatz f\u00fcr die Bildklassifikationsaufgabe trainiert, der zweite Teil mit regul\u00e4ren Text-Bild-Daten. Etwa zwei Drittel der Zeit in Phase II wurde f\u00fcr das Training des ersten Teils verwendet.<\/p>\n\n\n\n<p>Bei Janus-Pro entf\u00e4llt das ImageNet-Training in Phase II. Dadurch kann sich das Modell in Phase II des Trainings auf Text-Bild-Daten konzentrieren. Den experimentellen Ergebnissen zufolge kann dies die Nutzung von Text-Bild-Daten erheblich verbessern.<\/p>\n\n\n\n<p>Neben der Anpassung des Trainingsmethoden-Designs ist der in Stufe II verwendete Trainingsdatensatz nicht mehr auf eine Einzelbild-Klassifikationsaufgabe beschr\u00e4nkt, sondern umfasst auch mehr andere Arten von multimodalen Daten, wie z.B. Bildbeschreibungen und Dialoge, f\u00fcr das gemeinsame Training.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_III_%E2%80%93_Optimizing_the_data_ratio\"><\/span><strong>Stufe III - Optimierung des Datenverh\u00e4ltnisses<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>In Phase III des Trainings passt Janus-Pro das Verh\u00e4ltnis der verschiedenen Arten von Trainingsdaten an.<\/p>\n\n\n\n<p>Bisher betrug das Verh\u00e4ltnis von multimodalen Verstehensdaten, reinen Textdaten und Text-zu-Bild-Daten in den von Janus in Stufe III verwendeten Trainingsdaten 7:3:10. Janus-Pro reduziert das Verh\u00e4ltnis der beiden letztgenannten Datentypen und passt das Verh\u00e4ltnis der drei Datentypen auf 5:1:4 an, d.h. es wird mehr Wert auf die multimodale Verstehensaufgabe gelegt.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Lets_look_at_the_training_data\"><\/span><strong>Schauen wir uns die Trainingsdaten an.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Im Vergleich zu Janus erh\u00f6ht Janus-Pro dieses Mal die Menge an hochwertigen<strong> synthetische Daten.<\/strong><\/p>\n\n\n\n<p>Es erweitert die Menge und Vielfalt der Trainingsdaten f\u00fcr multimodales Verstehen und Bilderzeugung.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_multimodal_understanding_data\"><\/span><strong>Erweiterung der multimodalen Verst\u00e4ndnisdaten:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Janus-Pro bezieht sich beim Training auf den DeepSeek-VL2-Datensatz und f\u00fcgt etwa 90 Millionen zus\u00e4tzliche Datenpunkte hinzu, darunter nicht nur Bildbeschreibungsdatens\u00e4tze, sondern auch Datens\u00e4tze mit komplexen Szenen wie Tabellen, Diagramme und Dokumente.<\/p>\n\n\n\n<p>In der Phase der \u00fcberwachten Feinabstimmung (Phase III) werden weiterhin Datens\u00e4tze hinzugef\u00fcgt, die sich auf das Verst\u00e4ndnis von MEME und die Verbesserung der Dialogerfahrung (einschlie\u00dflich des chinesischen Dialogs) beziehen.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_visual_generation_data\"><\/span><strong>Erweiterung der Daten zur visuellen Erzeugung:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Die urspr\u00fcnglichen realen Daten hatten eine schlechte Qualit\u00e4t und ein hohes Ma\u00df an Rauschen, was dazu f\u00fchrte, dass das Modell instabile Ergebnisse und Bilder von unzureichender \u00e4sthetischer Qualit\u00e4t bei Text-Bild-Aufgaben produzierte.<\/p>\n\n\n\n<p>Janus-Pro f\u00fcgte der Trainingsphase etwa 72 Millionen neue hoch\u00e4sthetische synthetische Daten hinzu, wodurch das Verh\u00e4ltnis von realen Daten zu synthetischen Daten in der Pre-Trainingsphase auf 1:1 gebracht wurde.<\/p>\n\n\n\n<p>Die Eingabeaufforderungen f\u00fcr die synthetischen Daten stammen alle aus \u00f6ffentlichen Quellen. Experimente haben gezeigt, dass die Hinzuf\u00fcgung dieser Daten die Konvergenz des Modells beschleunigt und die erzeugten Bilder eine deutliche Verbesserung der Stabilit\u00e4t und visuellen Sch\u00f6nheit aufweisen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"The_continuation_of_an_efficiency_revolution\"><\/span>Die Fortsetzung einer Effizienzrevolution?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Insgesamt hat DeepSeek mit dieser Version die Effizienzrevolution bei visuellen Modellen eingeleitet.<\/p>\n\n\n\n<p>Im Gegensatz zu visuellen Modellen, die sich auf eine einzige Funktion konzentrieren, oder multimodalen Modellen, die eine bestimmte Aufgabe bevorzugen, gleicht Janus-Pro die Auswirkungen der beiden Hauptaufgaben der Bilderzeugung und des multimodalen Verstehens in ein und demselben Modell aus.<\/p>\n\n\n\n<p>Au\u00dferdem schlug es trotz seiner geringen Parameter OpenAI DALL-E 3 und SD3-Medium in der Bewertung.<\/p>\n\n\n\n<p>Das Unternehmen muss nur noch ein Modell einsetzen, um die beiden Funktionen der Bilderzeugung und des Bildverst\u00e4ndnisses direkt zu implementieren. In Verbindung mit einer Gr\u00f6\u00dfe von nur 7B sind die Schwierigkeit und die Kosten der Bereitstellung viel geringer.<\/p>\n\n\n\n<p>In Verbindung mit den fr\u00fcheren Ver\u00f6ffentlichungen von R1 und V3 stellt DeepSeek die bestehenden Spielregeln mit<strong> \"kompakte architektonische Innovation, leichtgewichtige Modelle, Open-Source-Modelle und extrem niedrige Ausbildungskosten\".<\/strong>. Dies ist der Grund f\u00fcr die Panik unter den westlichen Technologiegiganten und sogar an der Wall Street.<\/p>\n\n\n\n<p>Gerade hat Sam Altman, der seit einigen Tagen von der \u00f6ffentlichen Meinung mitgerissen wird, endlich positiv auf die Informationen \u00fcber DeepSeek auf X reagiert - er lobte R1 und sagte, dass OpenAI einige Ank\u00fcndigungen machen wird.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1051\" height=\"1280\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png\" alt=\"\" class=\"wp-image-868\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png 1051w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-246x300.png 246w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-841x1024.png 841w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-768x935.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-10x12.png 10w\" sizes=\"auto, (max-width: 1051px) 100vw, 1051px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>DeepSeek hat seine Website aktualisiert. In den fr\u00fchen Morgenstunden der Silvesternacht gab DeepSeek pl\u00f6tzlich auf GitHub bekannt, dass der Janus-Projektraum die Quelle des Janus-Pro-Modells und des technischen Berichts ge\u00f6ffnet hat. Lassen Sie uns zun\u00e4chst ein paar wichtige Punkte hervorheben: Es soll das schwierige Problem der Industrie l\u00f6sen: die Balance zwischen multimodalem Verstehen und Bilderzeugung...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-857","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/857","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/comments?post=857"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/857\/revisions"}],"predecessor-version":[{"id":870,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/857\/revisions\/870"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/media?parent=857"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/categories?post=857"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/tags?post=857"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}