Взрыв! DeepSeekКитайский новогодний подарок - подробное объяснение мультимодальной модели Janus-Pro
Последняя модель Janus-Pro от DeepSeek напрямую соединяет "левый и правый мозг" мультимодального ИИ!
Этот двуликий убийца, способный одновременно понимать изображения и тексты и генерировать изображения, переписывает правила индустрии с помощью самостоятельно разработанной структуры.
Это не простое наложение функций, но благодаря разделению пути визуального кодирования модель достигла истинного "один ум, два использования".
Традиционные мультимодальные модели похожи на использование одной и той же руки для письма и рисования, в то время как Janus-Pro напрямую оснащает ИИ двумя нейронными системами!
Революция фреймов: решение вековой проблемы мультимодальности
Самое безжалостное нововведение Janus-Pro - разделение визуального кодирования на два независимых канала.
Это как наделить ИИ "глазом понимания" и "рукой созидания", чтобы модель больше не испытывала трудностей при обработке "описание картинки" и "текст-изображение".
Его главный прорыв заключается в совершенно новой унифицированной архитектуре. Эта архитектура состоит из трех основных компонентов:
Автоэнкодер: в качестве основной языковой модели
SigLIP-L@384: отвечает за кодирование понимания изображения
VQ-VAE на основе LlamaGen: для генерации изображений
Разделяя визуальное кодирование на независимые пути, сохраняя при этом единую архитектуру трансформера, Janus-Pro оригинально решает проблему конфликта ролей в визуальном кодере, характерную для предыдущих моделей.
@reach_vb указывает на ключевой прорыв в архитектуре:
Модель построена на базе DeepSeek-LLM-1.5b/7b, использует SigLIP-L для обработки входных изображений 384×384 и разделяет процесс кодирования по специфическим для каждой задачи путям.
Такая конструкция позволяет модели плавно переключаться между мультимодальными задачами, сохраняя при этом единую архитектуру трансформера.
Стратегия обучения: эволюционный путь к трехступенчатому успеху
Команда DeepSeek использовала тщательно разработанный трехэтапный процесс обучения:
Этап 1. Обучение новых параметров на наборе данных ImageNet для установления концептуальных связей между визуальными и лингвистическими элементами
Этап 2: Ввод мультимодального гибридного набора данных для полной настройки параметров
Этап 3: Улучшение возможностей следования командам и ведения диалога с помощью контролируемой тонкой настройки
Новаторские коррективы были внесены и в соотношение данных:
Задача на понимание образов: 50% (значительное увеличение)
Задача по созданию изображений: 40
Текстовое задание: 10%
@iScienceLuvr раскрывает секрет тренировок:
Доля текстовых заданий была намеренно уменьшена на третьем этапе доработки
Это заставляет модель сосредоточить свои вычислительные мощности на кросс-модальном преобразовании
Мастер производительности
Этот "универсальный" монстр справляется с двумя основными показателями!
Официальные тесты показывают, что Janus-Pro не только превосходит предыдущую унифицированную модель, но и может помериться силами со специализированными моделями: в задаче на понимание он набрал столько же баллов, сколько и LLaVA, а по качеству генерации превзошел DALL-E 3!
С оценкой GenEval 0,8 он превосходит SD3-Medium.
DPG-Bench - 84,19 балла, а качество визуального оформления близко к профессиональным дизайнерам.
Это основано на стратегии обучения на 72 миллионах синтетических изображений и трех этапах обучения (адаптивное обучение → унифицированное предварительное обучение → контролируемая тонкая настройка), что позволило буквально превратить модель в "мультимодального мастера".
@dr_cintas опубликовал сравнение фактических измерений:
Если запустить 4-битную квантованную версию на iPhone, скорость вывода составит почти 60 токенов/с.
В сгенерированном миниатюре размером 384×384 можно прочитать текст номерного знака
В эталонном тесте на мультимодальное понимание Janus-Pro-7B продемонстрировал потрясающую производительность:
ПАПА: 87.4%
MME-PT: 1567.1
MMBench: 79,2
SEED: 72.1
МММУ: 41.0
ММ-Вет: 50.0
В плане генерации изображений модель получила оценку GenEval 0,8 и DPG-Bench 84,19, превзойдя многие основные модели, включая DALL-E 3 и SD3-Medium.
Открытый исходный код MIT: не стесняйтесь играть!
На этот раз DeepSeek перевернула ситуацию - двойная версия 7B/1B полностью открыта, а лицензия MIT разрешает коммерческие модификации!
Hugging Face можно сразу же скачать, и даже облегченная версия 1B может быть запущена локально на iPhone.
Разработчик @angrypenguinPNG провел живую демонстрацию:
Введите "ночная сцена города будущего", и через несколько секунд на экране появилось изображение улицы в стиле киберпанк.
Увеличьте масштаб, чтобы рассмотреть детали сцены, и модель сможет точно описать градиент неоновых огней
Практическая ценность: снижение барьера для входа
Чтобы удовлетворить потребности различных сценариев, DeepSeek предлагает две версии:
Janus-Pro-7B: полная версия, с мощной производительностью
Janus-Pro-1B: облегченная версия, которую можно запускать прямо в браузере
Обе версии были открыты на платформе Hugging Face и выпущены под лицензией MIT, так что разработчики могут свободно использовать и изменять их.
Всеобъемлющий прорыв DeepSeek
Теперь самый интересный вопрос: когда понимание и генерация перестанут быть двумя отдельными моделями, произойдет ли коллективное разрушение существующей архитектуры приложений ИИ?
Тем, кто все еще борется с одномодальными приложениями, стоит подумать о разработке совместных приложений для левого и правого мозга.
Ведь модель, которая может одновременно играть и с текстом, и с графикой, - это настоящее воплощение мультимодальности.
Стоит отметить, что выход Janus-Pro - лишь одно из ряда недавних крупных открытий DeepSeek:
Perplexity интегрировала модель DeepSeek R1 для глубокого веб-поиска
Дистиллированная версия DeepSeek R1 достигает скорости локального вывода 60 лексем/с на iPhone
ИИ-помощник DeepSeek поднялся на вершину списка бесплатных приложений App Store
и продемонстрировали чрезвычайно высокую производительность вычислений на платформе Groq.
Эти достижения демонстрируют всестороннюю силу DeepSeek в области ИИ, а новаторский прогресс Janus-Pro открыл новые направления для развития мультимодального ИИ.
Janus pro Связанные ссылки и документы
Адрес проекта:
Модель загружается:
Быстрый опыт:
Без развертывания, бесплатно, онлайн использование janus pro
Справочная документация:
Краткое руководство пользователя
Официальное мероприятие DeepSeek
Наконец, мы хотели бы сказать: Название компании Сэма Альтмана, пирог, который он нарисовал, и путь, о котором он думал, похоже, переходят к этой любопытной китайской компании, которая продолжит глубокое исследование границ интеллекта!