Главный вывод: Janus - это простая, унифицированная и расширяемая модель мультимодального понимания и генерации, которая разделяет мультимодальное понимание и генерируемое визуальное кодирование, смягчая потенциальные конфликты между этими двумя задачами. В будущем она может быть расширена для включения дополнительных модальностей ввода. Janus-Pro опирается на этот фундамент, оптимизируя стратегию обучения (включая увеличение количества шагов обучения, корректировку соотношения данных и т. д.), добавляя больше данных (включая использование синтетических данных и т. д.) и увеличивая размер модели (до 7 миллиардов параметров), что приводит к улучшению возможностей модели по мультимодальному пониманию и переходу от текста к изображению.
Janus-Pro является усовершенствованной версией предыдущей работы Janus, а именно: (1) оптимизированная стратегия обучения, (2) расширенные данные обучения и (3) увеличенные размеры моделей. Благодаря этим усовершенствованиям Janus-Pro значительно улучшает возможности мультимодального понимания и перехода от текста к изображению, а также повышает стабильность генерации текста к изображению. Прежде чем рассказать о Janus-Pro, давайте рассмотрим Janus.
Рецензия на книгу "Янус
Предшественник Janus - авторегрессионный фреймворк для унифицированного мультимодального понимания и генерации, который используется для разделения визуального кодирования для унифицированного мультимодального понимания и генерации. Для мультимодального понимания дизайн обычно повторяет LLaVA, используя визуальные кодеры как мост, позволяющий большим языковым моделям понимать изображения. Для генерации обычно используются диффузионные модели, а в некоторых случаях - авторегрессионные методы. Некоторые подходы пытаются использовать единый трансформатор для объединения задач мультимодального понимания и генерации, который обычно использует единый визуальный кодер для обработки входных данных обеих задач.
Однако существуют различия в представлениях, необходимых для задач мультимодального понимания и генерации. В задаче мультимодального понимания визуальный кодер нацелен на извлечение семантической информации высокого уровня (например, категорий объектов или визуальных атрибутов), а вывод предполагает не только извлечение информации из изображения, но и сложные семантические рассуждения, при этом кодер в основном фокусируется на высокоразмерных семантических репрезентациях. Задача генерации в основном связана с созданием локальных деталей и поддержанием глобальной согласованности изображения, что требует низкоразмерных кодированных представлений пространственных структур и текстурных деталей. Объединение представлений обеих задач в одном пространстве может привести к конфликтам.
Janus содержит 2 независимых пути визуального кодирования для мультимодального понимания и генерации, что дает два преимущества: 1) смягчает конфликты, возникающие из-за различных требований к гранулярности мультимодального понимания и генерации, и 2) является гибким и масштабируемым, разделяясь таким образом, что задачи понимания и генерации могут быть закодированы с использованием современных методов кодирования, специфичных для их доменов, а в будущем могут быть поданы облака точек, сигналы ЭЭГ или аудиоданные и обработаны с помощью единого В будущем облака точек, сигналы ЭЭГ или аудиоданные могут быть поданы и обработаны с помощью единого трансформатора.
Для понимания текста он преобразуется в дискретные идентификаторы с помощью встроенного в LLM токенизатора;
Для мультимодального понимания высокоразмерные семантические признаки изображений извлекаются с помощью кодировщиков SigLIP (примечание автора: Cosmos также использует кодировщики SigLIP в разделе Guardrails), а извлеченные признаки отображаются в пространство текстовых признаков LLM с помощью Adaptor (2-слойный MLP);
Длинная сторона была скорректирована до 384 пикселей, а короткая сторона заполнена до 384 пикселей с помощью RGB(127, 127, 127);
Для визуальной генерации изображение было преобразовано в дискретные идентификаторы с помощью VQ Tokenizer, и каждый идентификатор был отображен в текстовое пространство признаков LLM с помощью Adaptor (2-слойный MLP);
Размер коротких краев был изменен до 384 пикселей, а длинные края были обрезаны до 384 пикселей;
Общее обучение проводилось на 16 узлах, каждый из которых содержал 8 графических процессоров Nvidia A100;
Для задач визуальной генерации и мультимодального понимания последовательности признаков изображения и последовательности признаков текста соединяются вместе в качестве входных данных для LLM (в тексте используется DeepSeek-LLM 1.3B);
Встроенная предсказательная головка LLM используется для предсказания текста в задачах понимания чистого текста и мультимодального понимания, в то время как случайно инициализированная предсказательная головка используется для предсказания изображений в задаче визуальной генерации. Вся модель построена на основе авторегрессии без использования специально разработанных масок внимания.
Обучение на Янусе делится на 3 этапа:
Фаза 1
Адаптер и головка изображения создание связей между лингвистическими и визуальными элементами в пространстве вкраплений, что позволяет LLM понимать сущности на изображении и иметь начальные возможности визуальной генерации;
Для мультимодального понимания используйте 1,25 миллиона парных подписей к изображениям и текстам из SHareGPT4V в формате: ;
Для визуальной генерации используется 1,2 миллиона образцов из ImageNet1k в формате: ;
Фаза 2
Единая предварительная подготовкаиспользование мультимодального корпуса для унифицированного предварительного обучения мультимодальному пониманию и генерации. На этом этапе используются данные обычного текста, данные мультимодального понимания и данные визуальной генерации. Простое обучение визуальной генерации с использованием ImageNet-1k, а затем использование общих данных "текст-изображение" для улучшения визуальной генерации в открытой области модели;
Обычные текстовые данные: Предварительно обученный корпус DeepSeek-LLM;
Чередование изображений и текстов: Наборы данных WikiHow и WIT;
Данные о подписях к изображениям: Изображения из нескольких источников, некоторые из них были пересказаны с использованием мультимодальных моделей с открытым исходным кодом, а данные оформлены в виде пар "вопрос-ответ", например, Опишите изображение подробно.
Табличные и графические данные: соответствующие табличные и графические данные из DeepSeek-VL в формате ;
Визуально созданные данные: пары "изображение - подпись" из нескольких наборов данных и 2 миллиона внутренних данных;
Во время обучения случайным образом используется только первое предложение надписи с вероятностью 25%;
Образцы ImageNet появляются только на первых 120 тыс. шагов обучения, а изображения из других наборов данных - на последующих 60 тыс. шагов;
Фаза 3
Контролируемая тонкая настройкагде предварительно обученные модели подвергаются тонкой настройке с помощью данных о тонкой настройке инструкций, чтобы повысить их способность следовать инструкциям и вести диалог. Тонкая настройка всех параметров, кроме генерирующего кодера. Маскировка системных и пользовательских подсказок при контроле ответов. Чтобы убедиться, что Janus владеет навыками как мультимодального понимания, так и генерации, модели не настраиваются отдельно для конкретных задач. Вместо этого мы используем смесь данных о диалоге только с текстом, данных о мультимодальном понимании и данных о визуальной генерации, чтобы обеспечить универсальность в различных сценариях;
Понимание текста: использование данных из конкретных источников;
Мультимодальное понимание: использование данных из нескольких источников для настройки обучения;
Визуальное генерирование: использование подмножества пар "изображение-текст" из некоторых наборов данных Фазы II, а также 4 миллионов внутренних данных;
Формат данных следующий: Пользователь: \n Ассистент: ;
Цели обучения
Janus - это авторегрессионная модель, обученная с использованием функции потерь кросс-энтропии. Для задач понимания обычного текста и мультимодального понимания потери вычисляются на последовательности текста. Для задач визуальной генерации потери вычисляются только на последовательности изображений. Чтобы сохранить простоту конструкции, для разных задач не назначаются различные веса потерь.
Рассуждения
При использовании следующего метода предсказания лексических элементов для понимания обычного текста и мультимодального понимания лексические элементы последовательно выбираются из распределения предсказаний. Для генерации изображений используется бутстрап без классификатора.
Возможные расширения
Для мультимодального восприятия можно выбрать 1) более сильный визуальный кодер и 2) использовать динамические методы высокого разрешения;
Для формирования зрения можно выбрать 1) более тонкие кодировщики, 2) использовать функции потерь, специально разработанные для формирования зрения, и 3) сочетать причинное внимание и параллельные методы;
Больше модальностей, с возможностью интеграции 3D облаков точек, тактильных ощущений, ЭЭГ и других входных данных для модальностей потери;
Обновление Janus-Pro
При ограниченном количестве обучающих данных и относительно небольшом объеме модели (1B) Janus имеет некоторые недостатки, такие как плохое представление генерации изображений при коротких подсказках и несоответствующее качество генерации текста в изображение. Архитектура Janus-Pro такая же, как и у Janus, что видно на рисунке ниже:
Основные улучшения
Стратегия обучения
Этап 1: Увеличение количества шагов обучения и полное обучение на ImageNet;
Этап 2: больше не используем ImageNet, а используем для обучения обычные текстово-изобразительные данные;
Этап 3: Изменение соотношения наборов данных в процессе тонкой настройки путем изменения соотношения мультимодальных данных, обычных текстовых данных и данных "текст-изображение" с 7:3:10 до 5:1:4;
Шкала данных
Мультимодальное понимание
Этап 2: добавление 90 миллионов образцов, включая YFCC для создания надписей к изображениям и Doc-matrix для понимания таблиц и графиков;
Этап 3: добавление в DeepSeek-VL2 дополнительных наборов данных, таких как понимание MEME;
Визуальное генерирование: реальные данные могут иметь низкое качество, что приводит к нестабильному генерированию текста в изображение и плохому эстетическому результату. Janus-Pro использует 72 миллиона образцов синтетических эстетических данных, с единой фазой предварительного обучения (этап 2) с соотношением реальных и синтетических данных 1:1;
Модельная шкала
Масштабируйте параметры модели до 7-ми миллиардного масштаба параметров;
Детали эксперимента
По сравнению с Janus, детали экспериментов Janus-Pro практически не изменились. Напротив, в модели с большими параметрами используется больше узлов кластера (от 16 до 32).
Janus-Pro обучающие гиперпараметры
Недостаточно
Для мультимодального понимания разрешение входного сигнала ограничено 384×384, что сказывается на производительности при выполнении тонких визуальных задач. Для преобразования текста в изображение низкое разрешение приводит к недостатку деталей в генерируемых результатах.