ПоделитьсяGPT-4o-Image представляет собой крупномасштабный, высококачественный набор данных для генерации изображений, в котором все изображения генерируются с использованием возможностей генерации изображений GPT-4o.

Целью этого набора данных является объединение преимуществ мультимодальных моделей с открытым исходным кодом с сильными сторонами GPT-4o в создании визуального контента.

Он включает в себя 45 000 примеров преобразования текста в изображение и 46 000 примеров преобразования изображения в текст, что делает его практичным ресурсом для улучшения многомодальных моделей в задачах генерации и редактирования изображений.

Janus-4o — это многомодальный LLM, способный генерировать текст в изображение и текст+изображение в изображение. Он основан на Janus-Pro и доработан с использованием набора данных ShareGPT-4o-Image. По сравнению с Janus-Pro, Janus-4o представляет возможности генерации текста+изображения в изображение и достигает значительных улучшений в генерации текста в изображение.

Обзор набора данных

Набор данных ShareGPT-4o-Image содержит 91 000 образцов изображений GPT-4o, классифицированных следующим образом:

  • Текст в изображение: 45,717
  • Текст-плюс-изображение-в-изображение: 46,539

Ссылки по теме

Код: github нажмите здесь

Модель: получить модель ShareGPT-4o-Image

Бумага: нажмите здесь

Введение в статью

Недавние достижения в моделях мультимодальной генерации разблокировали реалистичную, согласованную с инструкциями генерацию изображений. Однако ведущие системы, такие как GPT-4o-Image, остаются запатентованными и недоступными.

Чтобы сделать эти возможности доступными для общественности, в статье представлен ShareGPT-4o-Image — первый набор данных, содержащий 45 000 примеров преобразования текста в изображение и 46 000 примеров преобразования текста и изображения в изображение, все из которых синтезированы с использованием возможностей генерации изображений GPT-4o для совершенствования его расширенных возможностей генерации изображений. Используя этот набор данных, в статье разработана Janus-4o — многомодальная большая языковая модель, способная преобразовывать текст в изображение и текст и изображение в изображение.

Janus-4o не только значительно улучшает возможности генерации текста в изображение по сравнению со своим предшественником Janus-Pro, но и представляет возможности генерации текста и изображения в изображение. В частности, он достигает впечатляющей производительности при генерации изображений из текста и изображений с нуля, используя всего 91 тыс. синтетических образцов и обучаясь в течение 6 часов на машине с 8 графическими процессорами A800.

Мы надеемся, что выпуск ShareGPT-4o-Image и Janus-4o будет способствовать открытым исследованиям в области создания фотореалистичных изображений с учетом инструкций.

Обзор метода

ShareGPT-4o-Image повышает производительность генерации изображений. Тонкая настройка Janus-Pro с ShareGPT-4o-Image позволила нам создать Janus-4o, который демонстрирует значительно улучшенную производительность генерации изображений. Janus-4o также поддерживает генерацию текста в изображение и изображения в изображение, превосходя другие бенчмарки всего с 91 000 обучающих образцов.

Обзор модели Janus-4o. Модель основана на Janus-Pro и создана путем тонкой настройки на ShareGPT-4o-Image. Она включает улучшения для поддержки генерации текста в изображение и изображения в изображение. Задачи преобразования текста в изображение и преобразования текста в изображение обучаются совместно.

Экспериментальные результаты

Выводы

ShareGPT-4o-Image — первый крупномасштабный набор данных, способный охватить расширенные возможности генерации изображений GPT-4o при генерации текста в изображение и текста в изображение. На основе этого набора данных в статье была разработана Janus-4o, модель машинного обучения (MLLM), способная генерировать высококачественные изображения из чистого текста или комбинаций изображения и текста.

Janus-4o добился значительных улучшений в генерации текста в изображение и показал весьма конкурентоспособные результаты в задачах преобразования текста в изображение, продемонстрировав высокое качество и практичность ShareGPT-4o-Image.

Благодаря эффективности саморегрессивной генерации изображений на основе MLLM, Janus-4o можно обучить всего за 6 часов на машине с 8 графическими процессорами A800, что позволяет добиться значительного повышения производительности при чрезвычайно низких вычислительных требованиях.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *