και η εποχή της Τεχνητής Νοημοσύνης έφτασε αθόρυβα.
Πιθανώς κανείς δεν περίμενε ότι αυτό το κινεζικό νέο έτος, το πιο καυτό θέμα δεν θα ήταν πλέον η παραδοσιακή μάχη του κόκκινου φακέλου του Διαδικτύου, ο οποίος συνεργάστηκε με το Spring Festival Gala, αλλά οι εταιρείες AI.
Καθώς πλησίαζε το Φεστιβάλ Άνοιξης, οι μεγάλες εταιρείες μοντέλων δεν χαλάρωσαν καθόλου, ενημερώνοντας ένα κύμα μοντέλων και προϊόντων. Ωστόσο, η πιο πολυσυζητημένη ήταν η DeepSeek, μια "μεγάλη εταιρεία μοντέλων" που εμφανίστηκε πέρυσι.
Το βράδυ της 20ής Ιανουαρίου, ΒαθιάSeek κυκλοφόρησε την επίσημη έκδοση του μοντέλου συλλογιστικής DeepSeek-R1. Χρησιμοποιώντας ένα χαμηλό κόστος εκπαίδευσης, εκπαίδευσε άμεσα μια απόδοση που δεν υστερεί σε σχέση με το μοντέλο συλλογιστικής o1 του OpenAI. Επιπλέον, είναι εντελώς δωρεάν και ανοικτού κώδικα, γεγονός που προκάλεσε άμεσα σεισμό στον κλάδο.
Είναι η πρώτη φορά που μια εγχώρια τεχνητή νοημοσύνη προκαλεί αναταραχή στον κόσμο της τεχνολογίας σε μεγάλη κλίμακα σε όλο τον κόσμο, ιδίως στις Ηνωμένες Πολιτείες. Οι προγραμματιστές έχουν εκφράσει την άποψη ότι σκέφτονται να χρησιμοποιήσουν το DeepSeek για να "ξαναχτίσουν τα πάντα". Στον απόηχο αυτού του κύματος, μετά από μια εβδομάδα ζύμωσης, και μάλιστα μόλις κυκλοφόρησε τον Ιανουάριο, η εφαρμογή DeepSeek για κινητά έφτασε γρήγορα στην κορυφή της κατάταξης των δωρεάν εφαρμογών στο Apple App Store στις ΗΠΑ, ξεπερνώντας όχι μόνο το ChatGPT, αλλά και άλλες δημοφιλείς εφαρμογές στις ΗΠΑ.
Η επιτυχία του DeepSeek επηρέασε άμεσα ακόμη και το αμερικανικό χρηματιστήριο. Ένα μοντέλο που εκπαιδεύτηκε χωρίς τη χρήση τεράστιας ποσότητας ακριβών GPUs έκανε τους ανθρώπους να επανεξετάσουν την εκπαιδευτική πορεία της ΤΝ, προκαλώντας άμεσα τη μεγαλύτερη πτώση των 17% στην πρώτη μετοχή της ΤΝ, την NVIDIA.
Και δεν είναι μόνο αυτό.
Νωρίς το πρωί της 28ης Ιανουαρίου, το βράδυ πριν από την παραμονή της Πρωτοχρονιάς, η DeepSeek άνοιξε και πάλι τον πηγαίο κώδικα του πολυτροπικού της μοντέλου Janus-Pro-7B, ανακοινώνοντας ότι είχε νικήσει το DALL-E 3 (από το OpenAI) και το Stable Diffusion στις δοκιμές αναφοράς GenEval και DPG-Bench.
Το DeepSeek πρόκειται πραγματικά να σαρώσει την κοινότητα της τεχνητής νοημοσύνης; Από τα μοντέλα εξαγωγής συμπερασμάτων έως τα πολυτροπικά μοντέλα, το DeepSeek αναδιαρθρώνει τα πάντα το πρώτο θέμα του Έτους του Φιδιού;
Janus Pro, η επικύρωση μιας καινοτόμου πολυτροπικής αρχιτεκτονικής μοντέλου
Η DeepSeek κυκλοφόρησε συνολικά δύο μοντέλα αργά το βράδυ αυτή τη φορά: Janus-Pro-7B και Janus-Pro-1B (παράμετροι 1,5B).
Όπως υποδηλώνει το όνομα, το ίδιο το μοντέλο αποτελεί αναβάθμιση του προηγούμενου μοντέλου Janus.
Η DeepSeek κυκλοφόρησε το μοντέλο Janus για πρώτη φορά τον Οκτώβριο του 2024. Ως συνήθως με την DeepSeek, το μοντέλο υιοθετεί μια καινοτόμο αρχιτεκτονική. Σε πολλά μοντέλα παραγωγής οράματος, το μοντέλο υιοθετεί μια ενοποιημένη αρχιτεκτονική Transformer που μπορεί να επεξεργάζεται ταυτόχρονα τις εργασίες μετατροπής κειμένου σε εικόνα και εικόνας σε κείμενο.
Το DeepSeek προτείνει μια νέα ιδέα, την αποσύνδεση της οπτικής κωδικοποίησης των εργασιών κατανόησης (από γράφο σε κείμενο) και παραγωγής (από κείμενο σε γράφο), η οποία βελτιώνει την ευελιξία της εκπαίδευσης του μοντέλου και ανακουφίζει αποτελεσματικά τις συγκρούσεις και τις δυσχέρειες επιδόσεων που προκαλούνται από τη χρήση μιας ενιαίας οπτικής κωδικοποίησης.
Αυτός είναι ο λόγος για τον οποίο η DeepSeek ονόμασε το μοντέλο Janus. Ο Ιανός είναι ο αρχαίος ρωμαϊκός θεός των θυρών και απεικονίζεται με δύο πρόσωπα που βλέπουν προς αντίθετες κατευθύνσεις. Η DeepSeek δήλωσε ότι το μοντέλο ονομάστηκε Ιανός επειδή μπορεί να βλέπει οπτικά δεδομένα με διαφορετικά μάτια, να κωδικοποιεί χαρακτηριστικά ξεχωριστά και στη συνέχεια να χρησιμοποιεί το ίδιο σώμα (Transformer) για να επεξεργάζεται αυτά τα σήματα εισόδου.
Αυτή η νέα ιδέα έχει δώσει καλά αποτελέσματα στη σειρά μοντέλων Janus. Η ομάδα λέει ότι το μοντέλο Janus έχει ισχυρές δυνατότητες παρακολούθησης εντολών, πολυγλωσσικές δυνατότητες και το μοντέλο είναι πιο έξυπνο, ικανό να διαβάζει εικόνες μιμιδίων. Μπορεί επίσης να χειριστεί εργασίες όπως η μετατροπή τύπων latex και η μετατροπή γραφημάτων σε κώδικα.
Στη σειρά μοντέλων Janus Pro, η ομάδα τροποποίησε εν μέρει τη διαδικασία εκπαίδευσης του μοντέλου, η οποία πέτυχε άμεσα αποτελέσματα που ξεπέρασαν το DALL-E 3 και το Stable Diffusion στις δοκιμές αναφοράς GenEval και DPG-Bench.

Μαζί με το ίδιο το μοντέλο, η DeepSeek κυκλοφόρησε επίσης το νέο πολυτροπικό πλαίσιο τεχνητής νοημοσύνης Janus Flow, το οποίο αποσκοπεί στην ενοποίηση των εργασιών κατανόησης και δημιουργίας εικόνων.
Το μοντέλο Janus Pro μπορεί να παρέχει πιο σταθερή παραγωγή με σύντομες οδηγίες, με καλύτερη οπτική ποιότητα, πιο πλούσιες λεπτομέρειες και δυνατότητα παραγωγής απλού κειμένου.
Το μοντέλο μπορεί να παράγει εικόνες και να περιγράφει εικόνες, να αναγνωρίζει αξιοθέατα-ορόσημα (όπως η Δυτική Λίμνη της Χανγκζού), να αναγνωρίζει κείμενο σε εικόνες και να περιγράφει γνώσεις σε εικόνες (όπως κέικ "Τομ και Τζέρι").
One x.com, Πολλοί άνθρωποι έχουν ήδη αρχίσει να πειραματίζονται με το νέο μοντέλο.

Η δοκιμή αναγνώρισης εικόνας φαίνεται αριστερά στο παραπάνω σχήμα, ενώ η δοκιμή δημιουργίας εικόνας φαίνεται δεξιά.

Όπως φαίνεται, το Janus Pro κάνει επίσης καλή δουλειά στην ανάγνωση εικόνων με μεγάλη ακρίβεια. Μπορεί να αναγνωρίσει μικτή στοιχειοθεσία μαθηματικών εκφράσεων και κειμένου. Στο μέλλον, μπορεί να έχει μεγαλύτερη σημασία η χρήση του με ένα μοντέλο συλλογισμού.
Οι παράμετροι των 1B και 7B μπορούν να ξεκλειδώσουν νέα σενάρια εφαρμογών
Σε εργασίες πολυτροπικής κατανόησης, το νέο μοντέλο Janus-Pro χρησιμοποιεί το SigLIP-L ως οπτικό κωδικοποιητή και υποστηρίζει εισόδους εικόνας 384 x 384 pixels. Στις εργασίες παραγωγής εικόνων, το Janus-Pro χρησιμοποιεί έναν tokenizer από μια συγκεκριμένη πηγή με ρυθμό υποδειγματοληψίας 16.
Αυτό εξακολουθεί να είναι ένα σχετικά μικρό μέγεθος εικόνας. X Από την ανάλυση του χρήστη, το μοντέλο Janus Pro είναι περισσότερο κατευθυνόμενη επαλήθευση. Εάν η επαλήθευση είναι αξιόπιστη, θα κυκλοφορήσει ένα μοντέλο που μπορεί να τεθεί σε παραγωγή.
Ωστόσο, αξίζει να σημειωθεί ότι το νέο μοντέλο που κυκλοφόρησε ο Janus αυτή τη φορά δεν είναι μόνο αρχιτεκτονικά καινοτόμο για πολυτροπικά μοντέλα, αλλά και μια νέα εξερεύνηση όσον αφορά τον αριθμό των παραμέτρων.
Το μοντέλο που συγκρίθηκε από το DeepSeek Janus Pro αυτή τη φορά, το DALL-E 3, είχε ανακοινώσει προηγουμένως ότι είχε 12 δισεκατομμύρια παραμέτρους, ενώ το μοντέλο μεγάλου μεγέθους του Janus Pro έχει μόνο 7 δισεκατομμύρια παραμέτρους. Με ένα τόσο συμπαγές μέγεθος, είναι ήδη πολύ καλό ότι το Janus Pro μπορεί να επιτύχει τέτοια αποτελέσματα.
Συγκεκριμένα, το μοντέλο 1B του Janus Pro χρησιμοποιεί μόνο 1,5 δισεκατομμύρια παραμέτρους. Οι χρήστες έχουν ήδη προσθέσει υποστήριξη για το μοντέλο στο transformers.js στο εξωτερικό δίκτυο. Αυτό σημαίνει ότι το μοντέλο μπορεί τώρα να τρέξει το 100% σε προγράμματα περιήγησης σε WebGPU!

Παρόλο που μέχρι την ώρα του Τύπου, ο συγγραφέας δεν έχει ακόμη καταφέρει να χρησιμοποιήσει με επιτυχία το νέο μοντέλο του Janus Pro στη διαδικτυακή έκδοση, το γεγονός ότι ο αριθμός των παραμέτρων είναι αρκετά μικρός ώστε να μπορεί να εκτελεστεί απευθείας στη διαδικτυακή πλευρά εξακολουθεί να αποτελεί εκπληκτική βελτίωση.
Αυτό σημαίνει ότι το κόστος παραγωγής εικόνων/κατανόησης εικόνων συνεχίζει να μειώνεται. Έχουμε την ευκαιρία να δούμε τη χρήση της τεχνητής νοημοσύνης σε περισσότερα μέρη όπου οι ακατέργαστες εικόνες και η κατανόηση εικόνων δεν μπορούσαν να χρησιμοποιηθούν πριν, αλλάζοντας τη ζωή μας.
Ένα σημαντικό σημείο ενδιαφέροντος το 2024 έγκειται στον τρόπο με τον οποίο το υλικό τεχνητής νοημοσύνης με πρόσθετη πολυτροπική κατανόηση μπορεί να παρέμβει στη ζωή μας. Τα μοντέλα πολυτροπικής κατανόησης με ολοένα και χαμηλότερες παραμέτρους ή τα μοντέλα που αναμένεται να τρέχουν στην άκρη, μπορεί να επιτρέψουν την περαιτέρω έκρηξη του υλικού ΤΝ.
Η DeepSeek έχει αναστατώσει το νέο έτος. Μπορούν τα πάντα να ξαναγίνουν με κινεζική τεχνητή νοημοσύνη;
Ο κόσμος της τεχνητής νοημοσύνης αλλάζει μέρα με τη μέρα.
Γύρω από το Φεστιβάλ Άνοιξης πέρυσι, αυτό που αναστάτωσε τον κόσμο ήταν το μοντέλο Sora της OpenAI. Ωστόσο, κατά τη διάρκεια του έτους, οι κινεζικές εταιρείες έχουν καλύψει πλήρως την απόσταση όσον αφορά τη δημιουργία βίντεο, κάνοντας την κυκλοφορία του Sora στο τέλος του έτους να φαίνεται λίγο ζοφερή.
Φέτος, αυτό που αναστάτωσε τον κόσμο έγινε το DeepSeek της Κίνας.
Η DeepSeek δεν είναι μια παραδοσιακή εταιρεία τεχνολογίας, αλλά έχει κατασκευάσει εξαιρετικά καινοτόμα μοντέλα με κόστος πολύ χαμηλότερο από αυτό των καρτών GPU των μεγάλων αμερικανικών εταιρειών μοντέλων, γεγονός που έχει σοκάρει άμεσα τους Αμερικανούς ομολόγους της. Οι Αμερικανοί αναφώνησαν: "Η εταιρεία είναι η καλύτερη εταιρεία που υπάρχει: "Η εκπαίδευση του μοντέλου R1 κόστισε μόνο 5,6 εκατομμύρια δολάρια ΗΠΑ, το οποίο ισοδυναμεί ακόμη και με τον μισθό οποιουδήποτε στελέχους της ομάδας Meta GenAI. Τι είναι αυτή η μυστηριώδης ανατολική δύναμη;"
Ένας λογαριασμός παρωδία που μιμείται τον ιδρυτή της DeepSeek Liang Wenfeng δημοσίευσε μια ενδιαφέρουσα εικόνα απευθείας στο X:

Η εικόνα χρησιμοποίησε το trending meme του παγκοσμίου φήμης Τούρκου σκοπευτή το 2024.
Στον τελικό των 10 μέτρων με αεροβόλο πιστόλι των αγωνισμάτων σκοποβολής στους Ολυμπιακούς Αγώνες του Παρισιού, ο 51χρονος Τούρκος σκοπευτής Mithat Dikec, φορώντας μόνο ένα ζευγάρι συνηθισμένα γυαλιά μυωπίας και ένα ζευγάρι ωτοασπίδες ύπνου, τσέπωσε ήρεμα το ασημένιο μετάλλιο με ένα μόνο χέρι στην τσέπη του. Όλοι οι άλλοι παρόντες σκοπευτές χρειάζονταν δύο επαγγελματικούς φακούς για εστίαση και αποκλεισμό του φωτός και ένα ζευγάρι ωτοασπίδες ακύρωσης θορύβου για να ξεκινήσουν τον αγώνα.
Από τότε που η DeepSeek "έσπασε" Το μοντέλο συλλογιστικής του OpenAI, οι μεγάλες αμερικανικές εταιρείες τεχνολογίας έχουν δεχθεί έντονες πιέσεις. Σήμερα, ο Sam Altman απάντησε τελικά με επίσημη δήλωση.

Θα είναι το 2025 η χρονιά που η κινεζική Τεχνητή Νοημοσύνη θα επηρεάσει τις αμερικανικές αντιλήψεις;
Η DeepSeek έχει ακόμα μερικά μυστικά στο μανίκι της - αυτό προορίζεται να είναι ένα εξαιρετικό Ανοιξιάτικο Φεστιβάλ.