{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"La explicaci\u00f3n completa: \u00a1de DeepSeek Janus a Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Mensaje para llevar a casa: Janus es un modelo de comprensi\u00f3n y generaci\u00f3n multimodal simple, unificado y extensible que desacopla la comprensi\u00f3n multimodal y la codificaci\u00f3n visual generada, mitigando los conflictos potenciales entre ambas tareas. Puede ampliarse para incorporar otras modalidades de entrada en el futuro. Janus-Pro se apoya en esta base optimizando la estrategia de entrenamiento (incluido el aumento del n\u00famero de pasos de entrenamiento, el ajuste de las proporciones de datos, etc.), a\u00f1adiendo m\u00e1s datos (incluido el uso de datos sint\u00e9ticos, etc.) y ampliando el tama\u00f1o del modelo (hasta 7.000 millones de par\u00e1metros), lo que da lugar a avances en las capacidades de comprensi\u00f3n multimodal del modelo y de adherencia a las instrucciones de texto a imagen.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Direcci\u00f3n del c\u00f3digo<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Direcci\u00f3n Janus Pro<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> es una versi\u00f3n avanzada del trabajo anterior Janus, en concreto, incluye (1) una estrategia de entrenamiento optimizada, (2) datos de entrenamiento ampliados y (3) modelos de mayor tama\u00f1o. Con estas mejoras, Janus-Pro logra avances significativos en las capacidades de comprensi\u00f3n multimodal y de adherencia a instrucciones de texto a imagen, al tiempo que mejora la estabilidad de la generaci\u00f3n de texto a imagen. Antes de hablar de Janus-Pro, repasemos Janus.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >Revisi\u00f3n de Janus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >La formaci\u00f3n Janus se divide en 3 fases:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Fase 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Fase 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Fase 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >Objetivos de la formaci\u00f3n<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >Razonamiento<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >Posibles ampliaciones<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Actualizaci\u00f3n Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >Principales mejoras<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Estrategia de formaci\u00f3n<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >Escala de datos<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Modelo a escala<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >Detalles experimentales<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/es\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Insuficiente<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>Revisi\u00f3n de Janus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>El predecesor Janus es un marco autorregresivo para la comprensi\u00f3n y generaci\u00f3n multimodal unificada, que se utiliza para desacoplar la codificaci\u00f3n visual para la comprensi\u00f3n y generaci\u00f3n multimodal unificada. Para la comprensi\u00f3n multimodal, el dise\u00f1o suele seguir LLaVA, utilizando codificadores visuales como puente para permitir que grandes modelos ling\u00fc\u00edsticos comprendan im\u00e1genes. Para la generaci\u00f3n, suele basarse en modelos de difusi\u00f3n, y algunos se basan en m\u00e9todos autorregresivos. Algunos enfoques intentan utilizar un \u00fanico Transformador para tratar de unificar las tareas de comprensi\u00f3n multimodal y generaci\u00f3n, que suele utilizar un \u00fanico codificador visual para procesar las entradas de ambas tareas.<\/p>\n\n\n\n<p>Sin embargo, existen diferencias en las representaciones necesarias para las tareas de comprensi\u00f3n y generaci\u00f3n multimodal. En la tarea de comprensi\u00f3n multimodal, el codificador visual tiene como objetivo extraer informaci\u00f3n sem\u00e1ntica de alto nivel (por ejemplo, categor\u00edas de objetos o atributos visuales), y la salida implica no s\u00f3lo extraer informaci\u00f3n de la imagen, sino tambi\u00e9n un razonamiento sem\u00e1ntico complejo, por lo que el codificador se centra principalmente en representaciones sem\u00e1nticas de alta dimensi\u00f3n. La tarea de generaci\u00f3n se ocupa principalmente de generar detalles locales y mantener la coherencia global de la imagen, por lo que requiere representaciones codificadas de baja dimensi\u00f3n de estructuras espaciales y detalles de textura. Unificar las representaciones de ambas tareas en el mismo espacio puede dar lugar a conflictos.<\/p>\n\n\n\n<p>Janus contiene 2 v\u00edas de codificaci\u00f3n visual independientes para la comprensi\u00f3n multimodal y la generaci\u00f3n, y aporta dos ventajas: 1) mitiga los conflictos derivados de los diferentes requisitos de granularidad de la comprensi\u00f3n y la generaci\u00f3n multimodales, y 2) es flexible y escalable, desacopl\u00e1ndose de modo que tanto las tareas de comprensi\u00f3n como las de generaci\u00f3n pueden codificarse utilizando t\u00e9cnicas de codificaci\u00f3n de vanguardia espec\u00edficas de sus dominios, y en el futuro pueden alimentarse con nubes de puntos, se\u00f1ales de EEG o datos de audio, y procesarse utilizando un Transformador unificado.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Para la comprensi\u00f3n de textos, \u00e9stos se convierten en identificadores discretos mediante el tokenizador incorporado en LLM;<\/p>\n\n\n\n<p>Para la comprensi\u00f3n multimodal, las caracter\u00edsticas sem\u00e1nticas de alta dimensi\u00f3n de las im\u00e1genes se extraen utilizando codificadores SigLIP (nota del autor: Cosmos tambi\u00e9n utiliza codificadores SigLIP en la secci\u00f3n Guardrails), y las caracter\u00edsticas extra\u00eddas se mapean en el espacio de caracter\u00edsticas de texto de LLM utilizando Adaptor (MLP de 2 capas);<\/p>\n\n\n\n<p>El lado largo se ajust\u00f3 a 384 p\u00edxeles y el lado corto se rellen\u00f3 a 384 p\u00edxeles utilizando RGB(127, 127, 127);<\/p>\n\n\n\n<p>Para la generaci\u00f3n visual, la imagen se convirti\u00f3 en ID discretos mediante el tokenizador VQ, y cada ID se mape\u00f3 en el espacio de caracter\u00edsticas textuales del LLM mediante el adaptador (MLP de 2 capas);<\/p>\n\n\n\n<p>Los bordes cortos se redimensionaron a 384 p\u00edxeles y los bordes largos se recortaron a 384 p\u00edxeles;<\/p>\n\n\n\n<p>El entrenamiento global se realiz\u00f3 utilizando 16 nodos, cada uno de ellos con 8 GPU Nvidia A100;<\/p>\n\n\n\n<p>Tanto para la generaci\u00f3n visual como para las tareas de comprensi\u00f3n multimodal, las secuencias de rasgos de imagen y las secuencias de rasgos de texto se enlazan juntas como entrada al LLM (en el texto se utiliza DeepSeek-LLM 1.3B);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>La cabeza de predicci\u00f3n incorporada del LLM se utiliza para predicciones de texto en las tareas de comprensi\u00f3n de texto puro y comprensi\u00f3n multimodal, mientras que una cabeza de predicci\u00f3n inicializada aleatoriamente se utiliza para predicciones de imagen en la tarea de generaci\u00f3n visual. Todo el modelo se adhiere a un marco autorregresivo sin necesidad de m\u00e1scaras de atenci\u00f3n especialmente dise\u00f1adas.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Formaci\u00f3n Janus<\/a> se divide en 3 fases:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Fase 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Adaptador de tren y cabezal de imagen<\/strong> crear conexiones entre elementos ling\u00fc\u00edsticos y visuales en el espacio de incrustaci\u00f3n, lo que permite al LLM comprender entidades en la imagen y disponer de capacidades iniciales de generaci\u00f3n visual;<\/p>\n\n\n\n<p>Para la comprensi\u00f3n multimodal, utilice 1,25 millones de datos de subt\u00edtulos emparejados imagen-texto de SHareGPT4V en el formato: ;<\/p>\n\n\n\n<p>Para la generaci\u00f3n visual, utilizando 1,2 millones de muestras de ImageNet1k en el formato: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Fase 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Formaci\u00f3n previa unificada<\/strong>, utilizando un corpus multimodal para el preentrenamiento unificado con el fin de aprender comprensi\u00f3n y generaci\u00f3n multimodal. En esta fase se utilizan datos de texto sin formato, datos de comprensi\u00f3n multimodal y datos de generaci\u00f3n visual. Entrenamiento simple de generaci\u00f3n visual utilizando ImageNet-1k, seguido del uso de datos gen\u00e9ricos de texto a imagen para mejorar la generaci\u00f3n visual en el dominio abierto del modelo;<\/p>\n\n\n\n<p>Datos de texto sin formato: Corpus preentrenado de DeepSeek-LLM;<\/p>\n\n\n\n<p>Datos imagen-texto intercalados: Conjuntos de datos WikiHow y WIT;<\/p>\n\n\n\n<p>Datos de subt\u00edtulos de im\u00e1genes: Im\u00e1genes de m\u00faltiples fuentes y retitulado de algunas de las im\u00e1genes utilizando modelos multimodales de c\u00f3digo abierto, con datos formateados como pares de preguntas y respuestas, por ejemplo Describe la imagen en detalle.;<\/p>\n\n\n\n<p>Datos tabulares y gr\u00e1ficos: datos tabulares y gr\u00e1ficos correspondientes de DeepSeek-VL en el formato ;<\/p>\n\n\n\n<p>Datos generados visualmente: pares imagen-capa de m\u00faltiples conjuntos de datos y 2 millones de datos internos;<\/p>\n\n\n\n<p>Durante el entrenamiento, s\u00f3lo se utiliza aleatoriamente la primera frase del pie de foto con una probabilidad 25%;<\/p>\n\n\n\n<p>Las muestras de ImageNet s\u00f3lo aparecen en los 120.000 pasos de entrenamiento iniciales, mientras que las im\u00e1genes de otros conjuntos de datos aparecen en los 60.000 pasos posteriores;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Fase 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Ajuste fino supervisado<\/strong>donde los modelos preentrenados se ajustan utilizando datos de ajuste de instrucciones para mejorar su capacidad de seguir instrucciones y di\u00e1logo. Ajuste fino de todos los par\u00e1metros excepto el codificador generador. Enmascarar las pistas del sistema y del usuario mientras se supervisan las respuestas. Para garantizar que Janus domina tanto la comprensi\u00f3n multimodal como la generaci\u00f3n, los modelos no se ajustan por separado para tareas espec\u00edficas. En su lugar, utilizamos una mezcla de datos de di\u00e1logo de s\u00f3lo texto, datos de comprensi\u00f3n multimodal y datos de generaci\u00f3n visual para garantizar la versatilidad en diversos escenarios;<\/p>\n\n\n\n<p>Comprensi\u00f3n de textos: utiliza datos de fuentes espec\u00edficas;<\/p>\n\n\n\n<p>Comprensi\u00f3n multimodal: uso de datos de m\u00faltiples fuentes para el ajuste de la instrucci\u00f3n;<\/p>\n\n\n\n<p>Generaci\u00f3n visual: utilizando un subconjunto de pares imagen-texto de algunos de los conjuntos de datos de la fase II, as\u00ed como 4 millones de datos internos;<\/p>\n\n\n\n<p>El formato de los datos es: Usuario: \\n Asistente: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>Objetivos de la formaci\u00f3n<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus es un modelo autorregresivo entrenado mediante una funci\u00f3n de p\u00e9rdida de entrop\u00eda cruzada; para las tareas de comprensi\u00f3n de texto plano y comprensi\u00f3n multimodal, la p\u00e9rdida se computa en la secuencia de texto. Para las tareas de generaci\u00f3n visual, la p\u00e9rdida se computa s\u00f3lo en la secuencia de im\u00e1genes. Para simplificar el dise\u00f1o, no se asignan diferentes pesos de p\u00e9rdida a las distintas tareas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Razonamiento<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Utilizando el siguiente m\u00e9todo de predicci\u00f3n de elementos l\u00e9xicos, para la comprensi\u00f3n de texto plano y la comprensi\u00f3n multimodal, los elementos l\u00e9xicos se muestrean secuencialmente a partir de la distribuci\u00f3n de predicci\u00f3n. Para la generaci\u00f3n de im\u00e1genes, se utiliza un bootstrap sin clasificador.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>Posibles ampliaciones<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Para la comprensi\u00f3n multimodal, 1) podr\u00eda elegirse un codificador visual m\u00e1s potente y 2) podr\u00edan utilizarse t\u00e9cnicas din\u00e1micas de alta resoluci\u00f3n;<\/p>\n\n\n\n<p>Para la generaci\u00f3n de visi\u00f3n, 1) podr\u00edan elegirse codificadores m\u00e1s finos, 2) utilizar funciones de p\u00e9rdida dise\u00f1adas espec\u00edficamente para la generaci\u00f3n de visi\u00f3n, y 3) combinar la atenci\u00f3n causal y los m\u00e9todos paralelos;<\/p>\n\n\n\n<p>M\u00e1s modalidades, con capacidad para integrar nubes de puntos 3D, h\u00e1ptica, EEG y otras entradas para modalidades de p\u00e9rdida;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Actualizaci\u00f3n Janus-Pro<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Con datos de entrenamiento limitados y una capacidad de modelo relativamente peque\u00f1a (1B), Janus es deficiente en algunos aspectos, como la mala representaci\u00f3n de la generaci\u00f3n de im\u00e1genes con pistas cortas y la calidad inconsistente de la generaci\u00f3n de texto a imagen.La arquitectura de Janus-Pro es la misma que la de Janus, que puede verse en la siguiente figura:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>Principales mejoras<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Estrategia de formaci\u00f3n<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Etapa 1: Aumentar el n\u00famero de pasos de entrenamiento y entrenar completamente en ImageNet;<\/p>\n\n\n\n<p>Fase 2: Ya no se utiliza ImageNet, sino que se emplean directamente datos normales de texto a imagen para el entrenamiento;<\/p>\n\n\n\n<p>Etapa 3: Modificar las proporciones de los conjuntos de datos en el proceso de ajuste cambiando la proporci\u00f3n de datos multimodales, datos de texto plano y datos de texto a imagen de 7:3:10 a 5:1:4;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Escala de datos<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Comprensi\u00f3n multimodal<\/p>\n\n\n\n<p>Fase 2: A\u00f1adir 90 millones de muestras, incluyendo YFCC para el subtitulado de im\u00e1genes y Doc-matrix para la comprensi\u00f3n de documentos de tablas y gr\u00e1ficos;<\/p>\n\n\n\n<p>Etapa 3: A\u00f1adir DeepSeek-VL2 conjuntos de datos adicionales, tales como la comprensi\u00f3n MEME;<\/p>\n\n\n\n<p>Generaci\u00f3n visual: los datos del mundo real pueden ser de mala calidad, lo que provoca una generaci\u00f3n de texto a imagen inestable y un resultado est\u00e9tico deficiente. Janus-Pro utiliza 72 millones de muestras de datos est\u00e9ticos sint\u00e9ticos, con una fase de preentrenamiento uniforme (Etapa 2) de proporci\u00f3n 1:1 de datos reales a datos sint\u00e9ticos;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Modelo a escala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Escala los par\u00e1metros del modelo a una escala de 7.000 millones de par\u00e1metros;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Detalles experimentales<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>En comparaci\u00f3n con Janus, los detalles de los experimentos Janus-Pro son b\u00e1sicamente los mismos. En cambio, el modelo de par\u00e1metros m\u00e1s grandes utiliz\u00f3 m\u00e1s nodos de cl\u00faster (de 16 a 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Janus-Pro hiperpar\u00e1metros de entrenamiento<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Insuficiente<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Para la comprensi\u00f3n multimodal, la resoluci\u00f3n de entrada est\u00e1 limitada a 384\u00d7384, lo que afecta al rendimiento en tareas visuales de grano fino. Para la generaci\u00f3n de texto a imagen, la baja resoluci\u00f3n provoca una falta de detalle en los resultados generados.<\/p>","protected":false},"excerpt":{"rendered":"<p>Mensaje para llevar a casa: Janus es un modelo de comprensi\u00f3n y generaci\u00f3n multimodal simple, unificado y extensible que desacopla la comprensi\u00f3n multimodal y la codificaci\u00f3n visual generada, mitigando los conflictos potenciales entre ambas tareas. Puede ampliarse para incorporar otras modalidades de entrada en el futuro. Janus-Pro parte de esta base optimizando la estrategia de entrenamiento (incluyendo el aumento...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/es\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}