Το Νέο Αστέρι της Πολυτροπικής Δημιουργίας Εικόνων: Janus-4o; ShareGPT-4o-Image Θέτει ένα Νέο Πρότυπο για τα Σύνολα Δεδομένων, Ευθυγραμμίζοντας τη Δημιουργία Εικόνων με το GPT-4o.

Κοινή χρήση εικόνας GPT-4o είναι ένα σύνολο δεδομένων δημιουργίας εικόνων μεγάλης κλίμακας και υψηλής ποιότητας, όπου όλες οι εικόνες δημιουργούνται χρησιμοποιώντας τις δυνατότητες δημιουργίας εικόνων του GPT-4o.

Αυτό το σύνολο δεδομένων στοχεύει να συνδυάσει τα πλεονεκτήματα των πολυτροπικών μοντέλων ανοιχτού κώδικα με τα δυνατά σημεία του GPT-4o στη δημιουργία οπτικού περιεχομένου.

Περιλαμβάνει 45.000 δείγματα μετατροπής κειμένου σε εικόνα και 46.000 δείγματα μετατροπής εικόνας σε κείμενο, καθιστώντας το έναν πρακτικό πόρο για την ενίσχυση πολυτροπικών μοντέλων σε εργασίες δημιουργίας και επεξεργασίας εικόνων.

Το Janus-4o είναι ένα πολυτροπικό LLM ικανό για δημιουργία κειμένου σε εικόνα και κειμένου+εικόνας σε εικόνα. Βασίζεται στο Janus-Pro και έχει βελτιστοποιηθεί χρησιμοποιώντας το σύνολο δεδομένων ShareGPT-4o-Image. Σε σύγκριση με το Janus-Pro, το Janus-4o εισάγει δυνατότητες δημιουργίας κειμένου+εικόνας σε εικόνα και επιτυγχάνει σημαντικές βελτιώσεις στη δημιουργία κειμένου σε εικόνα.

Πίνακας περιεχομένων

Επισκόπηση συνόλου δεδομένων

Το σύνολο δεδομένων ShareGPT-4o-Image περιέχει 91.000 δείγματα δημιουργίας εικόνων GPT-4o, τα οποία κατηγοριοποιούνται ως εξής:

Κείμενο σε εικόνα: 45.717
Κείμενο-συν-εικόνα-σε-εικόνα: 46.539

Σχετικοί σύνδεσμοι

Κώδικας: github κάντε κλικ εδώ

Μοντέλο: λήψη του μοντέλου ShareGPT-4o-Image

Χαρτί: κάντε κλικ εδώ

Εισαγωγή στην εργασία

Οι πρόσφατες εξελίξεις στα μοντέλα παραγωγής πολυτροπικών συστημάτων έχουν απελευθερώσει ρεαλιστική, ευθυγραμμισμένη με τις οδηγίες παραγωγή εικόνων. Ωστόσο, κορυφαία συστήματα όπως το GPT-4o-Image παραμένουν ιδιόκτητα και μη προσβάσιμα.

Για να καταστούν αυτές οι δυνατότητες προσβάσιμες στο κοινό, η εργασία παρουσιάζει το ShareGPT-4o-Image, το πρώτο σύνολο δεδομένων που περιέχει 45.000 παραδείγματα μετατροπής κειμένου σε εικόνα και 46.000 παραδείγματα μετατροπής κειμένου και εικόνας σε εικόνα, όλα συντεθειμένα χρησιμοποιώντας τις δυνατότητες δημιουργίας εικόνων του GPT-4o για τη βελτίωση των προηγμένων δυνατοτήτων δημιουργίας εικόνων. Χρησιμοποιώντας αυτό το σύνολο δεδομένων, η εργασία ανέπτυξε το Janus-4o, ένα πολυτροπικό μοντέλο μεγάλης γλώσσας ικανό για δημιουργία κειμένου σε εικόνα και μετατροπής κειμένου και εικόνας σε εικόνα.

Το Janus-4o όχι μόνο βελτιώνει σημαντικά τις δυνατότητες δημιουργίας κειμένου σε εικόνα σε σχέση με τον προκάτοχό του Janus-Pro, αλλά εισάγει επίσης δυνατότητες δημιουργίας κειμένου και εικόνας σε εικόνα. Αξίζει να σημειωθεί ότι επιτυγχάνει εντυπωσιακή απόδοση στη δημιουργία εικόνων από κείμενο και εικόνων από την αρχή χρησιμοποιώντας μόνο 91.000 συνθετικά δείγματα και εκπαιδευμένα για 6 ώρες σε μια μηχανή GPU 8×A800.

Ελπίζουμε ότι η κυκλοφορία των ShareGPT-4o-Image και Janus-4o θα προωθήσει την ανοιχτή έρευνα στη δημιουργία φωτορεαλιστικών εικόνων ευθυγραμμισμένων με τις οδηγίες.

Επισκόπηση μεθόδου

Το ShareGPT-4o-Image βελτιώνει την απόδοση δημιουργίας εικόνων. Βελτιστοποιώντας το Janus-Pro με το ShareGPT-4o-Image, δημιουργήσαμε το Janus-4o, το οποίο επιδεικνύει σημαντικά βελτιωμένη απόδοση δημιουργίας εικόνων. Το Janus-4o υποστηρίζει επίσης τη δημιουργία κειμένου σε εικόνα και εικόνας σε εικόνα, ξεπερνώντας άλλα benchmarks με μόνο 91.000 δείγματα εκπαίδευσης.

Επισκόπηση μοντέλου Janus-40. Το μοντέλο βασίζεται στο Janus-Pro και κατασκευάζεται με βελτιστοποίηση στο ShareGPT-4o-Image. Ενσωματώνει βελτιώσεις για την υποστήριξη της δημιουργίας κειμένου σε εικόνα και εικόνας σε εικόνα. Τόσο οι εργασίες μετατροπής κειμένου σε εικόνα όσο και οι εργασίες μετατροπής κειμένου σε εικόνα εκπαιδεύονται από κοινού.

Πειραματικά Αποτελέσματα

Συμπεράσματα

Το ShareGPT-4o-Image είναι το πρώτο σύνολο δεδομένων μεγάλης κλίμακας ικανό να καταγράψει τις προηγμένες δυνατότητες δημιουργίας εικόνας του GPT-4o στη δημιουργία κειμένου σε εικόνα και κειμένου σε εικόνα. Με βάση αυτό το σύνολο δεδομένων, η εργασία ανέπτυξε το Janus-4o, ένα μοντέλο μηχανικής μάθησης (MLLM) ικανό να δημιουργεί εικόνες υψηλής ποιότητας από καθαρό κείμενο ή συνδυασμούς εικόνας-κειμένου.

Το Janus-4o επιτυγχάνει σημαντικές βελτιώσεις στη δημιουργία κειμένου σε εικόνα και επιτυγχάνει εξαιρετικά ανταγωνιστικά αποτελέσματα σε εργασίες μετατροπής κειμένου σε εικόνα, επιδεικνύοντας την υψηλή ποιότητα και πρακτικότητα του ShareGPT-4o-Image.

Χάρη στην αποτελεσματικότητα της αυτο-παλινδρομικής δημιουργίας εικόνων με βάση το MLLM, το Janus-4o μπορεί να εκπαιδευτεί σε μόλις 6 ώρες σε μια μηχανή GPU 8×A800 και επιτυγχάνει σημαντικές βελτιώσεις στην απόδοση με εξαιρετικά χαμηλές υπολογιστικές απαιτήσεις.

Παρόμοιες θέσεις

Uncategorized

Ο δρομέας υποστηρίζει το DeepSeek R1 και οι νέες εκδόσεις ενημερώνουν πολλαπλές λειτουργίες

Μεjanus-ai Ιανουάριος 29, 2025Ιανουάριος 29, 2025

Επί του παρόντος, υπάρχουν πάρα πολλά εργαλεία προγραμματισμού τεχνητής νοημοσύνης: Cursor και Copilot. Μεταξύ αυτών, το Cursor είναι το πιο προηγμένο και επίσης το πιο ακριβό. Έχω ήδη πληρώσει για το Cursor και δίνω πάντα προσοχή στα τελευταία χαρακτηριστικά για να έχω την καλύτερη δυνατή αξία για τα χρήματά μου. Με την έλευση του...

Uncategorized

Πόσο καλό είναι το Janus-Pro της DeepSeek;

Μεjanus-ai Φεβρουάριος 4, 2025Φεβρουάριος 4, 2025

Την παραμονή του εαρινού φεστιβάλ, κυκλοφόρησε το μοντέλο DeepSeek-R1. Με την αμιγώς RL αρχιτεκτονική του, έχει μάθει από τις μεγάλες καινοτομίες του CoT και ξεπερνά το ChatGPT στα μαθηματικά, τον κώδικα και τη λογική σκέψη. Επιπλέον, τα βάρη του μοντέλου ανοιχτού κώδικα, το χαμηλό κόστος εκπαίδευσης και οι φθηνές τιμές API έχουν κάνει το DeepSeek μια επιτυχία σε όλο το διαδίκτυο, ακόμη και...

Uncategorized

Η Deepseek κυκλοφόρησε άλλο ένα combo: μόλις κυκλοφόρησε ένα πολυτροπικό μοντέλο Janus Pro που ξεπερνά το DALL-E3

Μεjanus-ai Ιανουάριος 28, 2025Ιανουάριος 28, 2025

και η εποχή της Τεχνητής Νοημοσύνης έφτασε αθόρυβα. Πιθανώς κανείς δεν περίμενε ότι αυτό το κινεζικό νέο έτος, το πιο καυτό θέμα δεν θα ήταν πλέον η παραδοσιακή μάχη του κόκκινου φακέλου του Διαδικτύου, ο οποίος συνεργάστηκε με το Gala του Spring Festival, αλλά οι εταιρείες AI. Καθώς πλησίαζε το Φεστιβάλ Άνοιξης, οι μεγάλες εταιρείες μοντέλων δεν χαλάρωσαν καθόλου, ενημερώνοντας ένα κύμα...

Uncategorized

Η πλήρης εξήγηση: από το DeepSeek Janus στο Janus-Pro!

Μεjanus-ai Ιανουάριος 30, 2025Ιανουάριος 30, 2025

Μήνυμα για το σπίτι: Το Janus είναι ένα απλό, ενοποιημένο και επεκτάσιμο μοντέλο πολυτροπικής κατανόησης και παραγωγής που αποσυνδέει την πολυτροπική κατανόηση και την παραγόμενη οπτική κωδικοποίηση, αμβλύνοντας τις πιθανές συγκρούσεις μεταξύ των δύο εργασιών. Μπορεί να επεκταθεί για να ενσωματώσει στο μέλλον πρόσθετες μορφές εισόδου. Το Janus-Pro βασίζεται σε αυτό το θεμέλιο βελτιστοποιώντας τη στρατηγική εκπαίδευσης (συμπεριλαμβανομένης της αύξησης της...

Uncategorized

Η Grokipedia του Elon Musk: Το μέλλον της ανταλλαγής γνώσεων και ένας αντίπαλος της Wikipedia

Μεjanus-ai 28 Οκτωβρίου 202528 Οκτωβρίου 2025

Εισαγωγή: Επανάσταση στην Κοινοποίηση Γνώσης Ο Elon Musk είναι γνωστός για την αμφισβήτηση του status quo σε πολυάριθμους κλάδους, από τα ηλεκτρικά αυτοκίνητα με την Tesla έως την εξερεύνηση του διαστήματος με την SpaceX. Τώρα, έχει θέσει ως στόχο να μεταμορφώσει τον κόσμο της κοινής χρήσης γνώσης με το τελευταίο του έργο, το Grokipedia. Στις 27 Οκτωβρίου τοπική ώρα, ο Elon Musk παρουσίασε ένα νέο εργαλείο γνώσης για να…

Uncategorized

γεννήτρια εικόνας deepseek

Μεwd.gstar@gmail.com Ιανουάριος 28, 2025Ιανουάριος 28, 2025

Γεννήτρια εικόνας DeepSeek: Εισαγωγή Το τοπίο της τεχνητής νοημοσύνης γνώρισε μια αξιοσημείωτη μεταμόρφωση με την εμφάνιση της τεχνολογίας αιχμής της DeepSeek για τη δημιουργία εικόνων. Η γεννήτρια εικόνων DeepSeek, ιδίως μέσω της σειράς Janus Pro, έχει καθιερωθεί ως λύση που αλλάζει τα δεδομένα στον ανταγωνιστικό τομέα της δημιουργίας εικόνων με τεχνητή νοημοσύνη. Αυτό...

Επισκόπηση συνόλου δεδομένων

Σχετικοί σύνδεσμοι

Εισαγωγή στην εργασία

Επισκόπηση μεθόδου

Πειραματικά Αποτελέσματα

Συμπεράσματα

Ο δρομέας υποστηρίζει το DeepSeek R1 και οι νέες εκδόσεις ενημερώνουν πολλαπλές λειτουργίες

Πόσο καλό είναι το Janus-Pro της DeepSeek;

Η Deepseek κυκλοφόρησε άλλο ένα combo: μόλις κυκλοφόρησε ένα πολυτροπικό μοντέλο Janus Pro που ξεπερνά το DALL-E3

Η πλήρης εξήγηση: από το DeepSeek Janus στο Janus-Pro!

Η Grokipedia του Elon Musk: Το μέλλον της ανταλλαγής γνώσεων και ένας αντίπαλος της Wikipedia

γεννήτρια εικόνας deepseek

Αφήστε μια απάντηση Ακύρωση απάντησης

Πόροι

Φίλοι