Взрыв! DeepSeekКитайский новогодний подарок - подробное объяснение мультимодальной модели Janus-Pro

Последняя модель Janus-Pro от DeepSeek напрямую соединяет "левый и правый мозг" мультимодального ИИ!

Этот двуликий убийца, способный одновременно понимать изображения и тексты и генерировать изображения, переписывает правила индустрии с помощью самостоятельно разработанной структуры.

Это не простое наложение функций, но благодаря разделению пути визуального кодирования модель достигла истинного "один ум, два использования".

Традиционные мультимодальные модели похожи на использование одной и той же руки для письма и рисования, в то время как Janus-Pro напрямую оснащает ИИ двумя нейронными системами!

Революция фреймов: решение вековой проблемы мультимодальности

Самое безжалостное нововведение Janus-Pro - разделение визуального кодирования на два независимых канала.

Это как наделить ИИ "глазом понимания" и "рукой созидания", чтобы модель больше не испытывала трудностей при обработке "описание картинки" и "текст-изображение".

Его главный прорыв заключается в совершенно новой унифицированной архитектуре. Эта архитектура состоит из трех основных компонентов:

Автоэнкодер: в качестве основной языковой модели

SigLIP-L@384: отвечает за кодирование понимания изображения

VQ-VAE на основе LlamaGen: для генерации изображений

Разделяя визуальное кодирование на независимые пути, сохраняя при этом единую архитектуру трансформера, Janus-Pro оригинально решает проблему конфликта ролей в визуальном кодере, характерную для предыдущих моделей.

@reach_vb указывает на ключевой прорыв в архитектуре:

Модель построена на базе DeepSeek-LLM-1.5b/7b, использует SigLIP-L для обработки входных изображений 384×384 и разделяет процесс кодирования по специфическим для каждой задачи путям.

Такая конструкция позволяет модели плавно переключаться между мультимодальными задачами, сохраняя при этом единую архитектуру трансформера.

Стратегия обучения: эволюционный путь к трехступенчатому успеху

Команда DeepSeek использовала тщательно разработанный трехэтапный процесс обучения:

Этап 1. Обучение новых параметров на наборе данных ImageNet для установления концептуальных связей между визуальными и лингвистическими элементами

Этап 2: Ввод мультимодального гибридного набора данных для полной настройки параметров

Этап 3: Улучшение возможностей следования командам и ведения диалога с помощью контролируемой тонкой настройки

Новаторские коррективы были внесены и в соотношение данных:

Задача на понимание образов: 50% (значительное увеличение)

Задача по созданию изображений: 40

Текстовое задание: 10%

@iScienceLuvr раскрывает секрет тренировок:

Доля текстовых заданий была намеренно уменьшена на третьем этапе доработки

Это заставляет модель сосредоточить свои вычислительные мощности на кросс-модальном преобразовании

Мастер производительности

Этот "универсальный" монстр справляется с двумя основными показателями!

Официальные тесты показывают, что Janus-Pro не только превосходит предыдущую унифицированную модель, но и может помериться силами со специализированными моделями: в задаче на понимание он набрал столько же баллов, сколько и LLaVA, а по качеству генерации превзошел DALL-E 3!

С оценкой GenEval 0,8 он превосходит SD3-Medium.

DPG-Bench - 84,19 балла, а качество визуального оформления близко к профессиональным дизайнерам.

Это основано на стратегии обучения на 72 миллионах синтетических изображений и трех этапах обучения (адаптивное обучение → унифицированное предварительное обучение → контролируемая тонкая настройка), что позволило буквально превратить модель в "мультимодального мастера".

@dr_cintas опубликовал сравнение фактических измерений:

Если запустить 4-битную квантованную версию на iPhone, скорость вывода составит почти 60 токенов/с.

В сгенерированном миниатюре размером 384×384 можно прочитать текст номерного знака

В эталонном тесте на мультимодальное понимание Janus-Pro-7B продемонстрировал потрясающую производительность:

ПАПА: 87.4%

MME-PT: 1567.1

MMBench: 79,2

SEED: 72.1

МММУ: 41.0

ММ-Вет: 50.0

В плане генерации изображений модель получила оценку GenEval 0,8 и DPG-Bench 84,19, превзойдя многие основные модели, включая DALL-E 3 и SD3-Medium.

Открытый исходный код MIT: не стесняйтесь играть!

На этот раз DeepSeek перевернула ситуацию - двойная версия 7B/1B полностью открыта, а лицензия MIT разрешает коммерческие модификации!

Hugging Face можно сразу же скачать, и даже облегченная версия 1B может быть запущена локально на iPhone.

Разработчик @angrypenguinPNG провел живую демонстрацию:

Введите "ночная сцена города будущего", и через несколько секунд на экране появилось изображение улицы в стиле киберпанк.

Увеличьте масштаб, чтобы рассмотреть детали сцены, и модель сможет точно описать градиент неоновых огней

Практическая ценность: снижение барьера для входа

Чтобы удовлетворить потребности различных сценариев, DeepSeek предлагает две версии:

Janus-Pro-7B: полная версия, с мощной производительностью

Janus-Pro-1B: облегченная версия, которую можно запускать прямо в браузере

Обе версии были открыты на платформе Hugging Face и выпущены под лицензией MIT, так что разработчики могут свободно использовать и изменять их.

Всеобъемлющий прорыв DeepSeek

Теперь самый интересный вопрос: когда понимание и генерация перестанут быть двумя отдельными моделями, произойдет ли коллективное разрушение существующей архитектуры приложений ИИ?

Тем, кто все еще борется с одномодальными приложениями, стоит подумать о разработке совместных приложений для левого и правого мозга.

Ведь модель, которая может одновременно играть и с текстом, и с графикой, - это настоящее воплощение мультимодальности.

Стоит отметить, что выход Janus-Pro - лишь одно из ряда недавних крупных открытий DeepSeek:

Perplexity интегрировала модель DeepSeek R1 для глубокого веб-поиска

Дистиллированная версия DeepSeek R1 достигает скорости локального вывода 60 лексем/с на iPhone

ИИ-помощник DeepSeek поднялся на вершину списка бесплатных приложений App Store

и продемонстрировали чрезвычайно высокую производительность вычислений на платформе Groq.

Эти достижения демонстрируют всестороннюю силу DeepSeek в области ИИ, а новаторский прогресс Janus-Pro открыл новые направления для развития мультимодального ИИ.

Janus pro Связанные ссылки и документы

Адрес проекта:

Репозиторий GitHub

Технический отчет

Модель загружается:

Janus-Pro-7B

Janus-Pro-1B

Быстрый опыт:

Без развертывания, бесплатно, онлайн использование janus pro

Справочная документация:

Краткое руководство пользователя

Официальное мероприятие DeepSeek

Наконец, мы хотели бы сказать: Название компании Сэма Альтмана, пирог, который он нарисовал, и путь, о котором он думал, похоже, переходят к этой любопытной китайской компании, которая продолжит глубокое исследование границ интеллекта!

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *