Model open source berbiaya rendah dan berkinerja tinggi dari deepseek telah menjadi viral. Sejumlah besar pengguna baru telah mendaftar ke situs web deepseek, yang telah berulang kali menyebabkan situs web tersebut mengalami kerusakan.

Dengan perkembangan teknologi kecerdasan buatan yang pesat, model bahasa besar (LLM) mengubah setiap aspek pekerjaan dan kehidupan kita.

Tetapi juga telah mengalami banyak kesulitan dan tantangan selama periode waktu yang lalu. Dan dalam bidang ini, DeepSeek menonjol dengan teknologi inovatif dan kinerjanya yang luar biasa.

Kami akan membahas lebih dalam tentang Janus Pro DeepSeek, model AI terbaru dan model besar multimodal open source terbaru dari DeepSeek. Pelajari tentang fitur teknis, sejarah pengembangan, dan nilai aplikasi praktisnya.

Apa itu Janus Pro DeepSeek?

Janus Pro adalah model AI multimodal sumber terbuka yang dirilis oleh tim DeepSeek, terutama digunakan untuk pemahaman gambar dan pembuatan gambar.

Fungsi inti

  • Pemahaman dan generasi multimodal: Janus Pro dapat memproses teks dan gambar pada saat yang sama, memahami konten gambar dan menghasilkan gambar berdasarkan deskripsi teks.
  • Sumber terbuka dan model skala besar: Tersedia dalam dua ukuran parameter, 1B dan 7B, dan bersifat open source serta tersedia secara komersial

Pengembangan Janus Pro DeepSeek

Pendirian dan pengembangan

  • Juli 2023: DeepSeek secara resmi didirikan, berkantor pusat di Hangzhou, dengan fokus pada penelitian dan pengembangan di bidang kecerdasan buatan umum (AGI).
  • 2 November 2023: Rilis kode sumber terbuka model besar pertama DeepSeek Coder, yang mendukung pembuatan kode, debugging, dan tugas analisis data dalam berbagai bahasa pemrograman.
  • 29 November 2023: DeepSeek LLM, model besar serba guna dengan skala parameter 67 miliar, diluncurkan, termasuk versi dasar dan chatting 7B dan 67B.

Terobosan teknis dan iterasi produk

  • 7 Mei 2024: DeepSeek-V2, model hybrid expert (MoE) open source generasi kedua, dirilis, dengan total 236 miliar parameter dan biaya inferensi yang dikurangi menjadi hanya 1 RMB per juta token.
  • 26 Desember 2024: DeepSeek-V3 dirilis, dengan total 671 miliar parameter. Ini mengadopsi arsitektur MoE yang inovatif dan pelatihan presisi campuran FP8, dan biaya pelatihan hanya 5,576 juta dolar AS.
  • 20 Januari 2025: DeepSeek-R1, model inferensi generasi baru, dirilis, dengan kinerja yang setara dengan versi resmi o1 OpenAI, dan bersumber terbuka.

Pada tanggal 27 Januari, tim Model multimodal janus pro dirilis, dan menjadi sumber terbuka segera setelah dirilis, sehingga lebih banyak orang dapat berpartisipasi dalam proses pengembangan model AI yang besar dan menggunakan serta mempelajari teknologi AI terbaru dengan sumber daya yang terbatas.

Teknologi inti Janus Pro DeepSeek

Pemisahan kode visual

Janus Pro menggunakan teknologi pemisahan pengkodean visual untuk membagi jalur pengkodean visual menjadi jalur pemrosesan independen, yang masing-masing digunakan untuk pemahaman multimodal dan tugas pembangkitan. Desain ini secara efektif memecahkan masalah konflik fungsional antara encoder visual dalam tugas pemahaman dan pembangkitan dalam model multimodal tradisional, dan meningkatkan fleksibilitas dan kemampuan adaptasi tugas model.

Arsitektur Transformer Terpadu

Meskipun jalur pengkodean visual telah dipisahkan, Janus Pro masih menggunakan arsitektur Transformer tunggal untuk menangani tugas multimodal. Arsitektur terpadu ini menyederhanakan desain model sekaligus meningkatkan skalabilitas model dan kemampuan model untuk bekerja bersama di seluruh tugas.

Strategi pelatihan yang dioptimalkan

Janus Pro telah melakukan sejumlah optimalisasi pada strategi pelatihan, termasuk

  • Memperpanjang waktu pelatihan dataset ImageNet untuk meningkatkan kemampuan pemahaman gambar model.
  • Berfokus pada pelatihan data teks-ke-gambar, kemampuan generatif model dioptimalkan.
  • Menyesuaikan proporsi data pelatihan memastikan bahwa model bekerja lebih stabil dan efisien dalam tugas multimodal.

Data pelatihan yang diperluas

Janus Pro menggunakan data pelatihan berskala besar dan beragam, termasuk data pemahaman multimodal dan data pembangkitan visual. Perluasan data ini tidak hanya meningkatkan kemampuan pemahaman model, tetapi juga meningkatkan kualitas generatifnya.

Encoder visual yang inovatif

Untuk tugas pemahaman multimodal, Janus Pro menggunakan SigLIP-L sebagai penyandi visual, yang mendukung input gambar hingga resolusi 384×384. Dukungan resolusi tinggi ini memungkinkan model menangkap lebih banyak detail gambar, sehingga meningkatkan akurasi pemahaman visual.

Modul generatif berkinerja tinggi

Untuk tugas pembuatan gambar, Janus Pro menggunakan LlamaGen Tokenizer dengan tingkat downsampling 16 untuk menghasilkan gambar yang lebih detail. Desain ini membuat gambar yang dihasilkan lebih realistis dan detail.

Inovasi infrastruktur

Janus Pro dibangun di atas model DeepSeek-LLM-1.5b dan DeepSeek-LLM-7b, yang menyediakan model dengan kemampuan pemrosesan multi-modal yang kuat, sehingga unggul dalam tugas pemahaman dan pembangkitan multi-modal.

Pemahaman multi-modal dan kemampuan generasi

Janus Pro tidak hanya mampu menangani tugas pemahaman multimodal (seperti menjawab pertanyaan secara visual dan keterangan gambar), tetapi juga menghasilkan gambar berkualitas tinggi dari deskripsi teks. Kemampuan ini membuatnya unggul dalam skenario multimodal.

Performa Janus Pro DeepSeek

Model Janus-Pro dari DeepSeek unggul dalam pemahaman multimodal dan tugas-tugas generasi. Berikut ini adalah analisis terperinci mengenai kinerjanya:

Performa pemahaman multimodal

- Tolok ukur MMBench: Janus-Pro-7B mencapai skor 79,2 dalam tolok ukur MMBench untuk pemahaman multimodal, melampaui model multimodal terpadu canggih yang ada saat ini, termasuk Janus (69,4), TokenFlow (68,9), dan MetaMorph (75,2).

- Menjawab pertanyaan secara visual: Akurasi jawaban pertanyaan visual Janus-Pro melampaui GPT-4V, secara akurat mengidentifikasi detail dalam gambar dan menjawab pertanyaan terkait.

Pelacakan perintah teks ke gambar

- Uji tolok ukur GenEval: Janus-Pro-7B mencapai akurasi keseluruhan 80% dalam pengujian GenEval, secara signifikan mengungguli model lain seperti DALL-E 3 (67%) dan Stable Diffusion 3 Medium (74%).

Pemahaman Perintah yang Kompleks: Dalam tes DPG-Bench, Janus-Pro-7B mencetak skor 84,19 poin yang luar biasa dan mampu secara akurat menghasilkan pemandangan yang rumit, seperti "gunung bersalju dengan danau biru di puncaknya".

Performa pembuatan teks-ke-gambar

- Kualitas dan stabilitas gambar: Meskipun memiliki resolusi output 384×384, gambar yang dihasilkan oleh Janus-Pro-7B menunjukkan tingkat realisme yang tinggi dan detail yang kaya, khususnya apabila memproses pemandangan yang imajinatif dan kreatif. Kamera ini secara akurat dapat memahami informasi semantik dalam kata-kata yang diminta, dan menghasilkan gambar yang masuk akal secara logis dan koheren.

- Kecepatan pembuatan: Janus-Pro mendukung pembuatan gambar 4K pada satu kartu, yang 2 kali lebih cepat daripada Stable Diffusion 3.

Arsitektur model dan pelatihan

- Pemisahan pengkodean visual: Janus-Pro menggunakan metode pengkodean independen untuk mengubah input asli menjadi fitur, yang kemudian diproses oleh Transformer autoregresif terpadu untuk mencapai pemisahan pengkodean visual dalam tugas pemahaman dan pembangkitan multimodal.

- Data pelatihan: Janus-Pro menggabungkan 72 juta gambar sintetis berkualitas tinggi ke dalam pelatihan untuk memastikan rasio 1:1 antara data nyata dan sintetis. Hal ini juga menambahkan sekitar 90 juta sampel data pelatihan pemahaman multimodal, yang secara signifikan meningkatkan kinerja model.

Skalabilitas dan penyebaran

Ukuran model: Seri Janus-Pro menyediakan model dengan ukuran parameter 1B dan 7B, yang mempertimbangkan performa dan biaya komputasi, serta cocok untuk lebih banyak kasus penggunaan.

Penyebaran minimal: Janus-Pro dirilis di bawah lisensi MIT, mendukung penggunaan komersial, dan menyediakan dua versi: 1.5B (membutuhkan VRAM 16GB) dan 7B (membutuhkan VRAM 24GB), yang dapat berjalan pada GPU standar.

Skenario aplikasi praktis dari Janus Pro DeepSeek

Model multimodal AI, terutama model teks-ke-gambar, memiliki potensi besar untuk dikembangkan di sektor komersial. Setelah periode pengembangan yang panjang, model teks-ke-gambar AI telah membuat kemajuan besar

Dalam skenario yang paling umum dari desain iklan atau poster, desainer atau pengguna dapat menggunakan Janus pro untuk memasukkan deskripsi teks untuk menghasilkan poster berkualitas tinggi dengan cepat. Dengan mengulang-ulang prototipe poster, mereka dapat menghemat waktu desain dan meningkatkan efisiensi kreatif. Hal ini dapat sangat meningkatkan efisiensi desainer, yang dapat menghabiskan waktu untuk hal-hal yang lebih bermakna

Selain desain poster tradisional atau desain iklan, dalam pengaturan game yang lebih populer saat ini, model besar ai juga dapat membantu desainer untuk menghasilkan adegan, karakter, dan item game secara real time, mengurangi biaya dan kesulitan pengembangan sekaligus meningkatkan efek visual game. Kami percaya bahwa model besar ai dapat terus membuka potensi dan imajinasi para pencipta, dan mewujudkan produk yang lebih menarik

Selain bidang desain, di bidang pembelajaran, pendidikan, dan bidang vertikal profesional lainnya, model multimodal juga akan mengalami perkembangan yang besar.

Di masa depan, kita mungkin akan melihat munculnya lebih banyak lagi aplikasi yang sangat menarik yang dapat meningkatkan efisiensi dan kualitas hidup kita.

Sementara itu, fitur open source Janus-Pro (lisensi MIT) dan metode penyebaran minimal (mendukung berjalan pada GPU standar) semakin mengurangi penghalang untuk masuk, sehingga dapat diterapkan secara luas pada bidang-bidang di atas.

Hal ini memungkinkan lebih banyak pengguna untuk berpartisipasi dalam pengembangan, sehingga lebih banyak orang dapat meningkatkan fungsi-fungsi ini dan meningkatkan kemampuan seluruh komunitas.

Bagaimana cara memilih versi Janus Pro DeepSeek yang tepat untuk saya?

Janus-Pro bersumber terbuka dalam dua versi: Janus-Pro-1B dan Janus-Pro-7B. Versi mana yang Anda pilih tergantung pada kebutuhan spesifik Anda, sumber daya komputasi, dan skenario aplikasi. Berikut ini adalah perbandingan dan rekomendasi terperinci:

Skenario yang berlaku

Janus-Pro-1B:

- Aplikasi yang ringan: cocok untuk digunakan pada perangkat seluler, di browser atau di lingkungan dengan sumber daya terbatas. Hal ini memungkinkan lebih banyak pengguna untuk merasakan Janus pro terbaru.

- Pembuatan prototipe cepat: cocok untuk pengembangan dan pengujian fungsi multimodal yang cepat tanpa memerlukan banyak sumber daya komputasi. Hal ini sangat penting bagi para penggemar AI, yang dapat dengan cepat mengulang dan menemukan masalah yang dihadapi dalam penelitian tanpa memerlukan banyak sumber daya komputasi.

Janus-Pro-7B:

- Pembuatan gambar berkualitas tinggi: cocok untuk aplikasi yang memerlukan pembuatan gambar berkualitas tinggi dari pemandangan yang rumit, seperti desain iklan, pengembangan game, dan kreasi artistik. Model ini lebih sesuai untuk skenario desain yang lebih profesional, yang memerlukan kemampuan perangkat keras yang lebih dahsyat dan kemampuan komputasi yang lebih dahsyat

- Pemahaman instruksi yang kompleks: cocok untuk skenario yang perlu memproses instruksi teks yang rumit dan menghasilkan gambar yang akurat, seperti virtual reality (VR) dan augmented reality (AR)

Persyaratan penerapan

Janus-Pro-1B:

- Persyaratan perangkat keras: cocok untuk berjalan pada perangkat yang terbatas sumber dayanya, seperti GPU yang memerlukan VRAM 16GB. Jika Anda hanya memiliki kartu grafis yang lebih lama, maka ini mungkin lebih cocok untuk Anda

- Skenario aplikasi: cocok untuk dijalankan di browser atau digunakan pada perangkat yang ringan.

Janus-Pro-7B:

- Persyaratan perangkat keras: membutuhkan sumber daya komputasi yang lebih tinggi, seperti GPU dengan VRAM 24GB. Ini akan lebih cocok untuk pengguna dengan kartu grafis yang lebih baru

- Skenario aplikasi: cocok untuk berjalan pada GPU standar dan untuk skenario yang memerlukan performa tinggi.

Ringkasan

Jika skenario aplikasi Anda memerlukan kualitas gambar yang tinggi dan pemahaman instruksi yang rumit, dan Anda memiliki sumber daya komputasi yang memadai, kami merekomendasikan Janus-Pro-7B.

Jika Anda membutuhkan penerapan yang ringan atau memiliki sumber daya komputasi yang terbatas, kami merekomendasikan Janus-Pro-1B.

Dukungan dan sumber daya masyarakat

DeepSeek menyediakan banyak sumber daya dan dukungan bagi para pengembang:

  1. Dokumentasi resmi menyediakan deskripsi antarmuka API yang terperinci dan panduan teknis, termasuk penyempurnaan model, tutorial penerapan, dan konten lainnya.
  2. Komunitas pengembang menyediakan forum dan grup diskusi untuk memfasilitasi pertukaran pengalaman di antara para pengembang. Sesi berbagi teknis dan hackathon diadakan secara rutin.
  3. Dukungan teknis menyediakan layanan dukungan teknis profesional untuk menyelesaikan masalah yang dihadapi oleh pengguna selama penggunaan.

Posting serupa

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *