Κοινή χρήση εικόνας GPT-4o είναι ένα σύνολο δεδομένων δημιουργίας εικόνων μεγάλης κλίμακας και υψηλής ποιότητας, όπου όλες οι εικόνες δημιουργούνται χρησιμοποιώντας τις δυνατότητες δημιουργίας εικόνων του GPT-4o.
Αυτό το σύνολο δεδομένων στοχεύει να συνδυάσει τα πλεονεκτήματα των πολυτροπικών μοντέλων ανοιχτού κώδικα με τα δυνατά σημεία του GPT-4o στη δημιουργία οπτικού περιεχομένου.
Περιλαμβάνει 45.000 δείγματα μετατροπής κειμένου σε εικόνα και 46.000 δείγματα μετατροπής εικόνας σε κείμενο, καθιστώντας το έναν πρακτικό πόρο για την ενίσχυση πολυτροπικών μοντέλων σε εργασίες δημιουργίας και επεξεργασίας εικόνων.

Το Janus-4o είναι ένα πολυτροπικό LLM ικανό για δημιουργία κειμένου σε εικόνα και κειμένου+εικόνας σε εικόνα. Βασίζεται στο Janus-Pro και έχει βελτιστοποιηθεί χρησιμοποιώντας το σύνολο δεδομένων ShareGPT-4o-Image. Σε σύγκριση με το Janus-Pro, το Janus-4o εισάγει δυνατότητες δημιουργίας κειμένου+εικόνας σε εικόνα και επιτυγχάνει σημαντικές βελτιώσεις στη δημιουργία κειμένου σε εικόνα.
Επισκόπηση συνόλου δεδομένων
Το σύνολο δεδομένων ShareGPT-4o-Image περιέχει 91.000 δείγματα δημιουργίας εικόνων GPT-4o, τα οποία κατηγοριοποιούνται ως εξής:
- Κείμενο σε εικόνα: 45.717
- Κείμενο-συν-εικόνα-σε-εικόνα: 46.539
Σχετικοί σύνδεσμοι
Κώδικας: github κάντε κλικ εδώ
Μοντέλο: λήψη του μοντέλου ShareGPT-4o-Image
Χαρτί: κάντε κλικ εδώ
Εισαγωγή στην εργασία
Οι πρόσφατες εξελίξεις στα μοντέλα παραγωγής πολυτροπικών συστημάτων έχουν απελευθερώσει ρεαλιστική, ευθυγραμμισμένη με τις οδηγίες παραγωγή εικόνων. Ωστόσο, κορυφαία συστήματα όπως το GPT-4o-Image παραμένουν ιδιόκτητα και μη προσβάσιμα.
Για να καταστούν αυτές οι δυνατότητες προσβάσιμες στο κοινό, η εργασία παρουσιάζει το ShareGPT-4o-Image, το πρώτο σύνολο δεδομένων που περιέχει 45.000 παραδείγματα μετατροπής κειμένου σε εικόνα και 46.000 παραδείγματα μετατροπής κειμένου και εικόνας σε εικόνα, όλα συντεθειμένα χρησιμοποιώντας τις δυνατότητες δημιουργίας εικόνων του GPT-4o για τη βελτίωση των προηγμένων δυνατοτήτων δημιουργίας εικόνων. Χρησιμοποιώντας αυτό το σύνολο δεδομένων, η εργασία ανέπτυξε το Janus-4o, ένα πολυτροπικό μοντέλο μεγάλης γλώσσας ικανό για δημιουργία κειμένου σε εικόνα και μετατροπής κειμένου και εικόνας σε εικόνα.
Το Janus-4o όχι μόνο βελτιώνει σημαντικά τις δυνατότητες δημιουργίας κειμένου σε εικόνα σε σχέση με τον προκάτοχό του Janus-Pro, αλλά εισάγει επίσης δυνατότητες δημιουργίας κειμένου και εικόνας σε εικόνα. Αξίζει να σημειωθεί ότι επιτυγχάνει εντυπωσιακή απόδοση στη δημιουργία εικόνων από κείμενο και εικόνων από την αρχή χρησιμοποιώντας μόνο 91.000 συνθετικά δείγματα και εκπαιδευμένα για 6 ώρες σε μια μηχανή GPU 8×A800.
Ελπίζουμε ότι η κυκλοφορία των ShareGPT-4o-Image και Janus-4o θα προωθήσει την ανοιχτή έρευνα στη δημιουργία φωτορεαλιστικών εικόνων ευθυγραμμισμένων με τις οδηγίες.
Επισκόπηση μεθόδου

Το ShareGPT-4o-Image βελτιώνει την απόδοση δημιουργίας εικόνων. Βελτιστοποιώντας το Janus-Pro με το ShareGPT-4o-Image, δημιουργήσαμε το Janus-4o, το οποίο επιδεικνύει σημαντικά βελτιωμένη απόδοση δημιουργίας εικόνων. Το Janus-4o υποστηρίζει επίσης τη δημιουργία κειμένου σε εικόνα και εικόνας σε εικόνα, ξεπερνώντας άλλα benchmarks με μόνο 91.000 δείγματα εκπαίδευσης.

Επισκόπηση μοντέλου Janus-40. Το μοντέλο βασίζεται στο Janus-Pro και κατασκευάζεται με βελτιστοποίηση στο ShareGPT-4o-Image. Ενσωματώνει βελτιώσεις για την υποστήριξη της δημιουργίας κειμένου σε εικόνα και εικόνας σε εικόνα. Τόσο οι εργασίες μετατροπής κειμένου σε εικόνα όσο και οι εργασίες μετατροπής κειμένου σε εικόνα εκπαιδεύονται από κοινού.

Πειραματικά Αποτελέσματα

Συμπεράσματα
Το ShareGPT-4o-Image είναι το πρώτο σύνολο δεδομένων μεγάλης κλίμακας ικανό να καταγράψει τις προηγμένες δυνατότητες δημιουργίας εικόνας του GPT-4o στη δημιουργία κειμένου σε εικόνα και κειμένου σε εικόνα. Με βάση αυτό το σύνολο δεδομένων, η εργασία ανέπτυξε το Janus-4o, ένα μοντέλο μηχανικής μάθησης (MLLM) ικανό να δημιουργεί εικόνες υψηλής ποιότητας από καθαρό κείμενο ή συνδυασμούς εικόνας-κειμένου.
Το Janus-4o επιτυγχάνει σημαντικές βελτιώσεις στη δημιουργία κειμένου σε εικόνα και επιτυγχάνει εξαιρετικά ανταγωνιστικά αποτελέσματα σε εργασίες μετατροπής κειμένου σε εικόνα, επιδεικνύοντας την υψηλή ποιότητα και πρακτικότητα του ShareGPT-4o-Image.
Χάρη στην αποτελεσματικότητα της αυτο-παλινδρομικής δημιουργίας εικόνων με βάση το MLLM, το Janus-4o μπορεί να εκπαιδευτεί σε μόλις 6 ώρες σε μια μηχανή GPU 8×A800 και επιτυγχάνει σημαντικές βελτιώσεις στην απόδοση με εξαιρετικά χαμηλές υπολογιστικές απαιτήσεις.