CondividiGPT-4o-Image è un set di dati di generazione di immagini di alta qualità e su larga scala, in cui tutte le immagini vengono generate utilizzando le capacità di generazione di immagini di GPT-4o.

Questo set di dati mira a combinare i vantaggi dei modelli multimodali open source con i punti di forza di GPT-4o nella creazione di contenuti visivi.

Include 45.000 campioni di conversione da testo a immagine e 46.000 campioni di conversione da immagine a testo, il che lo rende una risorsa pratica per migliorare i modelli multimodali nelle attività di generazione e modifica delle immagini.

Janus-4o è un LLM multimodale in grado di generare testo-immagine e testo+immagine-immagine. È basato su Janus-Pro e ottimizzato utilizzando il dataset ShareGPT-4o-Image. Rispetto a Janus-Pro, Janus-4o introduce funzionalità di generazione testo+immagine-immagine e raggiunge miglioramenti significativi nella generazione testo-immagine.

Panoramica del set di dati

Il set di dati ShareGPT-4o-Image contiene 91.000 campioni di generazione di immagini GPT-4o, classificati come segue:

  • Testo-immagine: 45.717
  • Testo più immagine su immagine: 46.539

Link correlati

Codice: github clicca qui

Modello: ottenere il modello ShareGPT-4o-Image

Carta: clicca qui

Introduzione al documento

I recenti progressi nei modelli di generazione multimodale hanno reso possibile la generazione di immagini realistiche e allineate alle istruzioni. Tuttavia, sistemi leader come GPT-4o-Image rimangono proprietari e inaccessibili.

Per rendere queste capacità accessibili al pubblico, il documento presenta ShareGPT-4o-Image, il primo set di dati contenente 45.000 esempi di conversione da testo a immagine e 46.000 esempi di conversione da testo più immagine a immagine, tutti sintetizzati utilizzando le capacità di generazione di immagini di GPT-4o per perfezionare le sue avanzate capacità di generazione di immagini. Utilizzando questo set di dati, il documento ha sviluppato Janus-4o, un modello linguistico multimodale di grandi dimensioni in grado di generare testo in immagine e testo più immagine in immagine.

Janus-4o non solo migliora significativamente le capacità di generazione di testo in immagine rispetto al suo predecessore Janus-Pro, ma introduce anche capacità di generazione di testo più immagine in immagine. In particolare, raggiunge prestazioni impressionanti nella generazione di immagini da testo e immagini da zero utilizzando solo 91K campioni sintetici e addestrato per 6 ore su una macchina con 8 GPU A800.

Ci auguriamo che il rilascio di ShareGPT-4o-Image e Janus-4o promuova la ricerca aperta sulla generazione di immagini fotorealistiche e allineate alle istruzioni.

Panoramica del metodo

ShareGPT-4o-Image migliora le prestazioni di generazione delle immagini. Ottimizzando Janus-Pro con ShareGPT-4o-Image, abbiamo generato Janus-4o, che dimostra prestazioni di generazione di immagini significativamente migliorate. Janus-4o supporta anche la generazione di testo-immagine e immagine-immagine, superando altri benchmark con soli 91.000 campioni di addestramento.

Panoramica del modello Janus-4o. Il modello si basa su Janus-Pro ed è stato costruito perfezionandolo su ShareGPT-4o-Image. Incorpora miglioramenti per supportare la generazione di testo-immagine e immagine-immagine. Sia le attività testo-immagine che quelle testo-immagine vengono addestrate congiuntamente.

Risultati sperimentali

Conclusioni

ShareGPT-4o-Image è il primo dataset su larga scala in grado di catturare le avanzate capacità di generazione di immagini di GPT-4o nella generazione testo-immagine e testo-immagine. Sulla base di questo dataset, l'articolo ha sviluppato Janus-4o, un modello di apprendimento automatico (MLLM) in grado di generare immagini di alta qualità da testo puro o da combinazioni immagine-testo.

Janus-4o ottiene miglioramenti significativi nella generazione di testo in immagini e ottiene risultati altamente competitivi nelle attività di conversione da testo a immagini, dimostrando l'elevata qualità e la praticità di ShareGPT-4o-Image.

Grazie all'efficienza della generazione di immagini autoregressive basata su MLLM, Janus-4o può essere addestrato in sole 6 ore su una macchina con 8 GPU A800 e ottiene significativi miglioramenti delle prestazioni con requisiti di calcolo estremamente bassi.

Messaggi simili

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *