Compartir imagen GPT-4o es un conjunto de datos de generación de imágenes a gran escala y de alta calidad donde todas las imágenes se generan utilizando las capacidades de generación de imágenes de GPT-4o.

Este conjunto de datos tiene como objetivo combinar las ventajas de los modelos multimodales de código abierto con las fortalezas de GPT-4o en la creación de contenido visual.

Incluye 45.000 muestras de texto a imagen y 46.000 muestras de imagen a texto, lo que lo convierte en un recurso práctico para mejorar los modelos multimodales en tareas de generación y edición de imágenes.

Janus-4o es un LLM multimodal capaz de generar texto a imagen y texto+imagen a imagen. Se basa en Janus-Pro y se ha optimizado con el conjunto de datos ShareGPT-4o-Image. En comparación con Janus-Pro, Janus-4o introduce capacidades de generación de texto+imagen a imagen y logra mejoras significativas en la generación de texto a imagen.

Descripción general del conjunto de datos

El conjunto de datos ShareGPT-4o-Image contiene 91.000 muestras de generación de imágenes GPT-4o, categorizadas de la siguiente manera:

  • Texto a imagen: 45.717
  • Texto más imagen a imagen: 46.539

Enlaces relacionados

Código: github haga clic aquí

Modelo: obtener el modelo ShareGPT-4o-Image

Papel: pulse aquí

Introducción del artículo

Los avances recientes en modelos de generación multimodal han permitido la generación de imágenes realistas y alineadas con las instrucciones. Sin embargo, sistemas líderes como GPT-4o-Image siguen siendo propietarios e inaccesibles.

Para que estas capacidades sean accesibles al público, el documento presenta ShareGPT-4o-Image, el primer conjunto de datos que contiene 45 000 ejemplos de texto a imagen y 46 000 ejemplos de texto más imagen a imagen, todos sintetizados utilizando las capacidades de generación de imágenes de GPT-4o para refinar sus habilidades avanzadas de generación de imágenes. Utilizando este conjunto de datos, el documento desarrolló Janus-4o, un modelo de lenguaje grande multimodal capaz de generar texto a imagen y texto más imagen a imagen.

Janus-4o no solo mejora significativamente las capacidades de generación de texto a imagen con respecto a su predecesor Janus-Pro, sino que también introduce capacidades de generación de texto más imagen a imagen. En particular, logra un rendimiento impresionante al generar imágenes a partir de texto e imágenes desde cero utilizando solo 91 000 muestras sintéticas y entrenadas durante 6 horas en una máquina con GPU 8×A800.

Esperamos que el lanzamiento de ShareGPT-4o-Image y Janus-4o promueva la investigación abierta en la generación de imágenes fotorrealistas y alineadas con las instrucciones.

Descripción general del método

ShareGPT-4o-Image mejora el rendimiento de generación de imágenes. Al ajustar Janus-Pro con ShareGPT-4o-Image, generamos Janus-4o, que demuestra una mejora significativa en el rendimiento de generación de imágenes. Janus-4o también admite la generación de texto a imagen y de imagen a imagen, superando a otros benchmarks con tan solo 91 000 muestras de entrenamiento.

Descripción general del modelo Janus-4o. El modelo se basa en Janus-Pro y se construyó ajustándolo en ShareGPT-4o-Image. Incorpora mejoras para la generación de texto a imagen y de imagen a imagen. Ambas tareas se entrenan conjuntamente.

Resultados experimentales

Conclusiones

ShareGPT-4o-Image es el primer conjunto de datos a gran escala capaz de capturar las avanzadas capacidades de generación de imágenes de GPT-4o en la conversión de texto a imagen y viceversa. Basándose en este conjunto de datos, el artículo desarrolló Janus-4o, un modelo de aprendizaje automático (MLLM) capaz de generar imágenes de alta calidad a partir de texto puro o combinaciones de imagen y texto.

Janus-4o logra mejoras significativas en la generación de texto a imagen y alcanza resultados altamente competitivos en tareas de texto a imagen, demostrando la alta calidad y practicidad de ShareGPT-4o-Image.

Gracias a la eficiencia de la generación de imágenes autorregresivas basada en MLLM, Janus-4o se puede entrenar en solo 6 horas en una máquina GPU 8×A800 y logra mejoras de rendimiento significativas con requisitos computacionales extremadamente bajos.

Entradas Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *