{"id":857,"date":"2025-02-04T16:45:13","date_gmt":"2025-02-04T16:45:13","guid":{"rendered":"https:\/\/janusai.pro\/?p=857"},"modified":"2025-02-04T16:45:15","modified_gmt":"2025-02-04T16:45:15","slug":"in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have","status":"publish","type":"post","link":"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/","title":{"rendered":"An\u00e1lisis en profundidad: \u00bfQu\u00e9 innovaciones tiene el reci\u00e9n lanzado Janus-Pro de DeepSeek?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>DeepSeek ha actualizado su sitio web.<\/p>\n\n\n\n<p>En las primeras horas de la Nochevieja, DeepSeek anunci\u00f3 repentinamente en GitHub que el espacio del proyecto Janus hab\u00eda abierto el c\u00f3digo fuente del modelo Janus-Pro y el informe t\u00e9cnico.<\/p>\n\n\n\n<p>En primer lugar, destaquemos algunos puntos clave:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li>En <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Modelo Janus-Pro<\/a> lanzado esta vez es un modelo multimodal que<strong> puede realizar simult\u00e1neamente tareas de comprensi\u00f3n multimodal y de generaci\u00f3n de im\u00e1genes. Cuenta con un total de dos versiones de par\u00e1metros, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro-1B y Janus-Pro-7B<\/a>.<\/strong><\/li>\n\n\n\n<li>La principal innovaci\u00f3n de Janus-Pro es desacoplar<strong> comprensi\u00f3n y generaci\u00f3n multimodal, dos tareas diferentes. Esto permite que estas dos tareas se completen de manera eficiente en el mismo modelo<\/strong>.<\/li>\n\n\n\n<li>Janus-Pro es coherente con la arquitectura del modelo Janus presentado por DeepSeek el pasado mes de octubre, pero en aquel momento Janus no ten\u00eda mucho volumen. El Dr. Charles, experto en algoritmos en el campo de la visi\u00f3n, nos dijo que el Janus anterior era \"mediocre\" y \"no tan bueno como el modelo ling\u00fc\u00edstico de DeepSeek\".<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1870\" height=\"1804\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png\" alt=\"\" class=\"wp-image-859\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png 1870w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-300x289.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1024x988.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-768x741.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1536x1482.png 1536w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-12x12.png 12w\" sizes=\"auto, (max-width: 1870px) 100vw, 1870px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\" >Pretende resolver el dif\u00edcil problema de la industria: equilibrar la comprensi\u00f3n multimodal y la generaci\u00f3n de im\u00e1genes<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\" >La arquitectura desacoplada de Janus y la estrategia de formaci\u00f3n optimizada de Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#First_lets_look_at_the_parameters\" >En primer lugar, veamos los par\u00e1metros.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#There_is_also_the_training_strategy\" >Tambi\u00e9n est\u00e1 la estrategia de formaci\u00f3n.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_I_%E2%80%93_Longer_training_time\" >Etapa I - Mayor tiempo de entrenamiento<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\" >Fase II - Eliminaci\u00f3n de los datos de ImageNet y adici\u00f3n de datos multimodales<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_III_%E2%80%93_Optimizing_the_data_ratio\" >Etapa III - Optimizaci\u00f3n de la relaci\u00f3n de datos<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Lets_look_at_the_training_data\" >Veamos los datos de entrenamiento.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_multimodal_understanding_data\" >Ampliaci\u00f3n de los datos de comprensi\u00f3n multimodal:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_visual_generation_data\" >Ampliaci\u00f3n de los datos de generaci\u00f3n visual:<\/a><\/li><\/ul><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/es\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#The_continuation_of_an_efficiency_revolution\" >\u00bfLa continuaci\u00f3n de una revoluci\u00f3n de la eficiencia?<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\"><\/span><strong>Pretende resolver el dif\u00edcil problema de la industria: equilibrar la comprensi\u00f3n multimodal y la generaci\u00f3n de im\u00e1genes<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Seg\u00fan la presentaci\u00f3n oficial de DeepSeek, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro <\/a>no s\u00f3lo puede entender im\u00e1genes, extraer y comprender el texto de las im\u00e1genes, sino tambi\u00e9n generar im\u00e1genes al mismo tiempo.<\/p>\n\n\n\n<p>El informe t\u00e9cnico menciona que, en comparaci\u00f3n con otros modelos del mismo tipo y orden de magnitud, las puntuaciones de Janus-Pro-7B en los conjuntos de pruebas GenEval y DPG-Bench<strong> superan las de otros modelos como SD3-Medium y DALL-E 3.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1067\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png\" alt=\"\" class=\"wp-image-862\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-300x296.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-1024x1012.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-768x759.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>El funcionario tambi\u00e9n da ejemplos \ud83d\udc47:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1295\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png\" alt=\"\" class=\"wp-image-866\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-250x300.png 250w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-854x1024.png 854w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-768x921.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-10x12.png 10w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Tambi\u00e9n hay muchos internautas en X probando las nuevas funciones.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1429\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png\" alt=\"\" class=\"wp-image-867\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-227x300.png 227w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-774x1024.png 774w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-768x1016.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-9x12.png 9w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1616\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png\" alt=\"\" class=\"wp-image-869\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-200x300.png 200w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-684x1024.png 684w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-768x1149.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-1027x1536.png 1027w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-8x12.png 8w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Pero tambi\u00e9n hay ca\u00eddas ocasionales.<\/p>\n\n\n\n<p>Consultando los documentos t\u00e9cnicos sobre <a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a>, descubrimos que Janus Pro es una optimizaci\u00f3n basada en Janus, que se lanz\u00f3 hace tres meses.<\/p>\n\n\n\n<p>La principal innovaci\u00f3n de esta serie de modelos es<strong> desacoplar las tareas de comprensi\u00f3n visual de las tareas de generaci\u00f3n visual, de modo que se puedan equilibrar los efectos de ambas tareas.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"538\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png\" alt=\"\" class=\"wp-image-861\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-1024x510.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-768x383.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>No es infrecuente que un modelo realice la comprensi\u00f3n y la generaci\u00f3n multimodal al mismo tiempo. D-DiT y TokenFlow-XL tienen esta capacidad.<\/p>\n\n\n\n<p>Sin embargo, lo caracter\u00edstico de Janus es que<strong> Al desacoplar el procesamiento, un modelo capaz de realizar la comprensi\u00f3n y la generaci\u00f3n multimodales equilibra la eficacia de las dos tareas.<\/strong><\/p>\n\n\n\n<p><strong>Equilibrar la eficacia de ambas tareas es un problema dif\u00edcil en la industria.<\/strong> Antes se pensaba en utilizar el mismo codificador para aplicar la comprensi\u00f3n y la generaci\u00f3n multimodales en la medida de lo posible.<\/p>\n\n\n\n<p>Las ventajas de este enfoque son una arquitectura sencilla, la ausencia de despliegues redundantes y una alineaci\u00f3n con los modelos textuales (que tambi\u00e9n utilizan los mismos m\u00e9todos para lograr la generaci\u00f3n y comprensi\u00f3n de textos). Otro argumento es que esta fusi\u00f3n de m\u00faltiples capacidades puede conducir a un cierto grado de emergencia.<\/p>\n\n\n\n<p>Sin embargo, de hecho, tras fusionar la generaci\u00f3n y la comprensi\u00f3n, las dos tareas entrar\u00e1n en conflicto: la comprensi\u00f3n de im\u00e1genes requiere que el modelo abstraiga en altas dimensiones y extraiga la sem\u00e1ntica central de la imagen, que est\u00e1 sesgada hacia lo macrosc\u00f3pico. La generaci\u00f3n de im\u00e1genes, por su parte, se centra en la expresi\u00f3n y generaci\u00f3n de detalles locales a nivel de p\u00edxel.<\/p>\n\n\n\n<p>La pr\u00e1ctica habitual del sector es dar prioridad a las capacidades de generaci\u00f3n de im\u00e1genes. Esto da lugar a modelos multimodales que<strong> pueden generar im\u00e1genes de mayor calidad, pero los resultados de la comprensi\u00f3n de im\u00e1genes suelen ser mediocres.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\"><\/span><strong>La arquitectura desacoplada de Janus y la estrategia de formaci\u00f3n optimizada de Janus-Pro<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>La arquitectura desacoplada de Janus permite al modelo equilibrar las tareas de comprensi\u00f3n y generaci\u00f3n por s\u00ed solo.<\/p>\n\n\n\n<p>Seg\u00fan los resultados del informe t\u00e9cnico oficial, tanto en comprensi\u00f3n multimodal como en generaci\u00f3n de im\u00e1genes, Janus-Pro-7B obtiene buenos resultados en m\u00faltiples conjuntos de pruebas.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"976\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png\" alt=\"\" class=\"wp-image-863\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-300x271.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-1024x925.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-768x694.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-13x12.png 13w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Para una comprensi\u00f3n multimodal,<\/strong> Janus-Pro-7B logr\u00f3 el primer puesto en cuatro de los siete conjuntos de datos de evaluaci\u00f3n, y el segundo en los tres restantes, ligeramente por detr\u00e1s del modelo mejor clasificado.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1062\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png\" alt=\"\" class=\"wp-image-865\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-300x295.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-1024x1007.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-768x755.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Para generar im\u00e1genes,<\/strong> Janus-Pro-7B logr\u00f3 el primer puesto en la puntuaci\u00f3n global de los conjuntos de datos de evaluaci\u00f3n GenEval y DPG-Bench.<\/p>\n\n\n\n<p>Este efecto multitarea se debe principalmente a que la serie Janus utiliza dos codificadores visuales para tareas diferentes:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li><strong>Comprender el codificador:<\/strong> utilizado para extraer caracter\u00edsticas sem\u00e1nticas en im\u00e1genes para tareas de comprensi\u00f3n de im\u00e1genes (como preguntas y respuestas sobre im\u00e1genes, clasificaci\u00f3n visual, etc.).<\/li>\n\n\n\n<li><strong>Codificador generativo:<\/strong> convierte im\u00e1genes en una representaci\u00f3n discreta (por ejemplo, utilizando un codificador VQ) para tareas de generaci\u00f3n de texto a imagen.<\/li>\n<\/ol>\n\n\n\n<p>Con esta arquitectura,<strong> el modelo puede optimizar de forma independiente el rendimiento de cada codificador, de modo que las tareas de comprensi\u00f3n y generaci\u00f3n multimodal puedan alcanzar cada una su mejor rendimiento.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"565\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png\" alt=\"\" class=\"wp-image-860\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-300x157.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-1024x536.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-768x402.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Esta arquitectura desacoplada es com\u00fan a Janus-Pro y Janus. Entonces, \u00bfqu\u00e9 iteraciones ha tenido Janus-Pro en los \u00faltimos meses?<\/strong><\/p>\n\n\n\n<p>Como se desprende de los resultados del conjunto de evaluaci\u00f3n, la versi\u00f3n actual de Janus-Pro-1B presenta una mejora de entre 10% y 20% en las puntuaciones de los distintos conjuntos de evaluaci\u00f3n en comparaci\u00f3n con el anterior Janus. Janus-Pro-7B presenta la mayor mejora, de unos 45%, en comparaci\u00f3n con Janus tras ampliar el n\u00famero de par\u00e1metros.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"185\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png\" alt=\"\" class=\"wp-image-858\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-300x51.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-1024x175.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-768x132.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-18x3.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"430\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png\" alt=\"\" class=\"wp-image-864\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-1024x408.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-768x306.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>En cuanto a los detalles de la formaci\u00f3n, el informe t\u00e9cnico afirma que la versi\u00f3n actual de Janus-Pro, en comparaci\u00f3n con el modelo anterior de Janus, mantiene el dise\u00f1o b\u00e1sico de la arquitectura desacoplada y, adem\u00e1s, itera sobre<strong> tama\u00f1o de los par\u00e1metros, estrategia de entrenamiento y datos de entrenamiento.<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"First_lets_look_at_the_parameters\"><\/span><strong>En primer lugar, veamos los par\u00e1metros<\/strong>.<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>La primera versi\u00f3n de Janus s\u00f3lo ten\u00eda 1,3B par\u00e1metros, y la versi\u00f3n actual de Pro incluye modelos con 1B y 7B par\u00e1metros.<\/p>\n\n\n\n<p>Estos dos tama\u00f1os reflejan la escalabilidad de la arquitectura Janus. El modelo 1B, que es el m\u00e1s ligero, ya ha sido utilizado por usuarios externos para ejecutarlo en el navegador mediante WebGPU.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"There_is_also_the_training_strategy\"><\/span><strong>Tambi\u00e9n hay <\/strong><strong>el<\/strong><strong> estrategia de formaci\u00f3n.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>De acuerdo con la divisi\u00f3n de las fases de formaci\u00f3n de Janus, Janus Pro tiene un total de tres fases de formaci\u00f3n, y el documento las divide directamente en Fase I, Fase II y Fase III.<\/p>\n\n\n\n<p>Aunque se mantienen las ideas b\u00e1sicas de formaci\u00f3n y los objetivos de formaci\u00f3n de cada fase, Janus-Pro ha introducido mejoras en la duraci\u00f3n de la formaci\u00f3n y en los datos de formaci\u00f3n de las tres fases. A continuaci\u00f3n se exponen las mejoras espec\u00edficas en las tres fases:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_I_%E2%80%93_Longer_training_time\"><\/span><strong>Etapa I - Mayor tiempo de entrenamiento<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>En comparaci\u00f3n con Janus, Janus-Pro ha ampliado el tiempo de entrenamiento en la Fase I, especialmente en el entrenamiento de adaptadores y cabezales de imagen en la parte visual. Esto significa que se ha dado m\u00e1s tiempo de entrenamiento al aprendizaje de las caracter\u00edsticas visuales, y se espera que el modelo pueda comprender plenamente las caracter\u00edsticas detalladas de las im\u00e1genes (como el mapeo de p\u00edxel a sem\u00e1ntico).<\/p>\n\n\n\n<p>Esta formaci\u00f3n ampliada contribuye a que la formaci\u00f3n de la parte visual no se vea perturbada por otros m\u00f3dulos.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\"><\/span><strong>Fase II - Eliminaci\u00f3n de los datos de ImageNet y adici\u00f3n de datos multimodales<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>En la fase II, Janus se referenci\u00f3 previamente a PixArt y se entren\u00f3 en dos partes. La primera parte se entren\u00f3 utilizando el conjunto de datos ImageNet para la tarea de clasificaci\u00f3n de im\u00e1genes, y la segunda parte se entren\u00f3 utilizando datos normales de texto a imagen. Aproximadamente dos tercios del tiempo de la fase II se dedicaron al entrenamiento de la primera parte.<\/p>\n\n\n\n<p>Janus-Pro elimina el entrenamiento de ImageNet en la Etapa II. Este dise\u00f1o permite al modelo centrarse en los datos de texto a imagen durante el entrenamiento de la Etapa II. Seg\u00fan los resultados experimentales, esto puede mejorar significativamente la utilizaci\u00f3n de los datos de texto a imagen.<\/p>\n\n\n\n<p>Adem\u00e1s del ajuste del dise\u00f1o del m\u00e9todo de entrenamiento, el conjunto de datos de entrenamiento utilizado en la Etapa II ya no se limita a una \u00fanica tarea de clasificaci\u00f3n de im\u00e1genes, sino que tambi\u00e9n incluye m\u00e1s otros tipos de datos multimodales, como la descripci\u00f3n de im\u00e1genes y el di\u00e1logo, para el entrenamiento conjunto.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_III_%E2%80%93_Optimizing_the_data_ratio\"><\/span><strong>Etapa III - Optimizaci\u00f3n de la relaci\u00f3n de datos<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>En la fase III de entrenamiento, Janus-Pro ajusta la proporci\u00f3n de los distintos tipos de datos de entrenamiento.<\/p>\n\n\n\n<p>Anteriormente, la proporci\u00f3n de datos de comprensi\u00f3n multimodal, datos de texto sin formato y datos de texto a imagen en los datos de entrenamiento utilizados por Janus en la Fase III era de 7:3:10. Janus-Pro reduce la proporci\u00f3n de los dos \u00faltimos tipos de datos y ajusta la proporci\u00f3n de los tres tipos de datos a 5:1:4, es decir, prestando m\u00e1s atenci\u00f3n a la tarea de comprensi\u00f3n multimodal.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Lets_look_at_the_training_data\"><\/span><strong>Veamos los datos de entrenamiento.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>En comparaci\u00f3n con Janus, Janus-Pro esta vez aumenta significativamente la cantidad de<strong> datos sint\u00e9ticos.<\/strong><\/p>\n\n\n\n<p>Ampl\u00eda la cantidad y variedad de datos de formaci\u00f3n para la comprensi\u00f3n multimodal y la generaci\u00f3n de im\u00e1genes.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_multimodal_understanding_data\"><\/span><strong>Ampliaci\u00f3n de los datos de comprensi\u00f3n multimodal:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Janus-Pro hace referencia al conjunto de datos DeepSeek-VL2 durante el entrenamiento y a\u00f1ade unos 90 millones de puntos de datos adicionales, incluyendo no solo conjuntos de datos de descripci\u00f3n de im\u00e1genes, sino tambi\u00e9n conjuntos de datos de escenas complejas como tablas, gr\u00e1ficos y documentos.<\/p>\n\n\n\n<p>Durante la fase de perfeccionamiento supervisado (Fase III), sigue a\u00f1adiendo conjuntos de datos relacionados con la comprensi\u00f3n de MEME y la mejora de la experiencia de di\u00e1logo (incluido el di\u00e1logo chino).<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_visual_generation_data\"><\/span><strong>Ampliaci\u00f3n de los datos de generaci\u00f3n visual:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Los datos originales del mundo real eran de mala calidad y presentaban altos niveles de ruido, lo que hac\u00eda que el modelo produjera resultados inestables e im\u00e1genes de calidad est\u00e9tica insuficiente en tareas de conversi\u00f3n de texto en imagen.<\/p>\n\n\n\n<p>Janus-Pro a\u00f1adi\u00f3 unos 72 millones de nuevos datos sint\u00e9ticos de alta est\u00e9tica a la fase de entrenamiento, con lo que la proporci\u00f3n entre datos reales y sint\u00e9ticos en la fase de preentrenamiento fue de 1:1.<\/p>\n\n\n\n<p>Las indicaciones para los datos sint\u00e9ticos se tomaron todas de recursos p\u00fablicos. Los experimentos han demostrado que la adici\u00f3n de estos datos hace que el modelo converja m\u00e1s r\u00e1pido, y las im\u00e1genes generadas presentan mejoras evidentes en cuanto a estabilidad y belleza visual.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"The_continuation_of_an_efficiency_revolution\"><\/span>\u00bfLa continuaci\u00f3n de una revoluci\u00f3n de la eficiencia?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>En general, con esta versi\u00f3n, DeepSeek ha llevado la revoluci\u00f3n de la eficiencia a los modelos visuales.<\/p>\n\n\n\n<p>A diferencia de los modelos visuales que se centran en una \u00fanica funci\u00f3n o de los modelos multimodales que favorecen una tarea espec\u00edfica, Janus-Pro equilibra los efectos de las dos tareas principales de generaci\u00f3n de im\u00e1genes y comprensi\u00f3n multimodal en el mismo modelo.<\/p>\n\n\n\n<p>Adem\u00e1s, a pesar de sus peque\u00f1os par\u00e1metros, super\u00f3 aOpenAI DALL-E 3 y SD3-Medium en la evaluaci\u00f3n.<\/p>\n\n\n\n<p>Extendida hasta el suelo, la empresa s\u00f3lo necesita desplegar un modelo para aplicar directamente las dos funciones de generaci\u00f3n y comprensi\u00f3n de im\u00e1genes. Unido a un tama\u00f1o de solo 7B, la dificultad y el coste de despliegue son mucho menores.<\/p>\n\n\n\n<p>En relaci\u00f3n con los anteriores lanzamientos de R1 y V3, DeepSeek est\u00e1 desafiando las actuales reglas del juego con<strong> \"innovaci\u00f3n arquitect\u00f3nica compacta, modelos ligeros, modelos de c\u00f3digo abierto y costes de formaci\u00f3n ultrabajos\"<\/strong>. Esta es la raz\u00f3n del p\u00e1nico entre los gigantes tecnol\u00f3gicos occidentales e incluso Wall Street.<\/p>\n\n\n\n<p>Hace un momento, Sam Altman, que ha sido arrastrado por la opini\u00f3n p\u00fablica durante varios d\u00edas, finalmente respondi\u00f3 positivamente a la informaci\u00f3n sobre DeepSeek en X: mientras elogiaba a R1, dijo que OpenAI har\u00e1 algunos anuncios.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1051\" height=\"1280\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png\" alt=\"\" class=\"wp-image-868\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png 1051w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-246x300.png 246w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-841x1024.png 841w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-768x935.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-10x12.png 10w\" sizes=\"auto, (max-width: 1051px) 100vw, 1051px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>DeepSeek ha actualizado su sitio web. En las primeras horas de la Nochevieja, DeepSeek anunci\u00f3 repentinamente en GitHub que el espacio del proyecto Janus hab\u00eda abierto el c\u00f3digo fuente del modelo Janus-Pro y el informe t\u00e9cnico. En primer lugar, destaquemos algunos puntos clave: Pretende resolver el dif\u00edcil problema de la industria: equilibrar la comprensi\u00f3n multimodal y la generaci\u00f3n de im\u00e1genes Seg\u00fan...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-857","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts\/857","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/comments?post=857"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts\/857\/revisions"}],"predecessor-version":[{"id":870,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts\/857\/revisions\/870"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/media?parent=857"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/categories?post=857"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/tags?post=857"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}