多模態影像生成領域的新星：Janus-4o？ ShareGPT-4o-Image 為資料集樹立新標準，使影像產生與 GPT-4o 保持一致。

分享GPT-4o-Image 是一個大規模、高品質的影像生成資料集，其中所有影像均使用 GPT-4o 的影像生成功能產生。

該資料集旨在將開源多模態模型的優勢與 GPT-4o 在視覺內容創作方面的優勢結合。

它包含 45,000 個文字到圖像和 46,000 個圖像到文字的樣本，使其成為增強圖像生成和編輯任務中的多模式模型的實用資源。

Janus-4o 是一個多模態 LLM，能夠進行文字轉圖像和文字+圖像轉圖像的生成。它基於 Janus-Pro，並使用 ShareGPT-4o-Image 資料集進行了微調。與 Janus-Pro 相比，Janus-4o 引入了文字+影像轉影像的生成功能，並在文字轉影像生成方面取得了顯著的改進。

數據集概述

ShareGPT-4o-Image 資料集包含 91,000 個 GPT-4o 影像產生樣本，分類如下：

文字轉圖片：45,717
文字加圖片轉圖片：46,539

論文介紹

多模態生成模型的最新進展已開啟逼真的、指令對齊的影像生成。然而，像 GPT-4o-Image 這樣的領先系統仍然是專有的，無法存取。

為了讓公眾能夠使用這些功能，本文推出了 ShareGPT-4o-Image，這是第一個包含 45,000 個文本到圖像和 46,000 個文本加圖像到圖像示例的數據集，所有這些示例都是使用 GPT-4o 的圖像生成功能合成的，以完善其高級圖像生成能力。利用該資料集，本文開發了 Janus-4o，這是一種能夠進行文字到圖像和文字加圖像到圖像生成的多模態大型語言模型。

Janus-4o 不僅在前代 Janus-Pro 的基礎上大幅提升了文字轉圖像的生成能力，還引入了文本加圖像轉圖像的生成能力。值得一提的是，它只使用 91K 合成樣本，在 8×A800 GPU 機器上訓練 6 小時，就從文字和圖像從頭生成圖像，取得了令人印象深刻的性能。

我們希望 ShareGPT-4o-Image 和 Janus-4o 的發布能促進照片般逼真、指令對齊影像產生的開放研究。

方法概述

ShareGPT-4o-Image 增強了影像生成效能。 透過使用 ShareGPT-4o-Image 對 Janus-Pro 進行微調，我們產生了 Janus-4o，其影像生成效能顯著提升。 Janus-4o 也支援文字轉圖像和圖像轉圖像的生成，僅用 91,000 個訓練樣本就超越了其他基準測試。

Janus-4o 模型概述。 該模型基於 Janus-Pro，並透過在 ShareGPT-4o-Image 上進行微調而建構。它包含增強功能，以支援文字轉圖像和圖像轉圖像的生成。文字轉圖像和文字轉圖像任務均採用聯合訓練。

實驗結果

結論

ShareGPT-4o-Image 是首個能夠捕捉 GPT-4o 在文字轉影像和文字轉影像產生方面先進影像產生能力的大規模資料集。基於此資料集，本文開發了 Janus-4o，這是一種機器學習模型 (MLLM)，能夠從純文字或圖文組合生成高品質圖像。

Janus-4o 在文字轉圖像生成方面取得了顯著的提升，並在文字轉圖像任務中取得了極具競爭力的成績，展現了 ShareGPT-4o-Image 的高品質和實用性。

得益於基於MLLM的自回歸影像產生的高效性，Janus-4o 僅需6小時便可在8×A800 GPU 機器上完成訓練，並以極低的運算需求實現顯著的效能提升。

未分類

DeepSeek 的全面指南，90% 的人都不知道的使用技巧（建議加入書籤）

按janus-ai 1 月 29, 20251 月 29, 2025

90%的人都不知道的使用技巧--DeepSeek全面指南（推荐收藏）自从一个月前DeepSeek-V3发布以来，我一直在更新DeepSeek相关的文章和视频，因为我觉得这是一家非常牛逼的公司。直到昨天，終於見證了歷史，在美國蘋果App Store登頂，...

未分類

完整說明：從 DeepSeek Janus 到 Janus-Pro！

按janus-ai 1 月 30, 20251 月 30, 2025

帶回家的訊息：Janus 是一個簡單、統一且可擴充的多模態理解與產生模型，可將多模態理解與產生的視覺編碼分離，減少兩項工作之間的潛在衝突。它可以在未來擴展以納入更多的輸入模式。Janus-Pro 在此基礎上優化了訓練策略 (包括增加...

未分類

如何在本機執行 deepseek r1

按janus-ai 1 月 31, 20251 月 31, 2025

DeepSeek-r1 因其出色的性能在全球社會引起了熱烈的討論。然而，隨著用戶數量激增，加上一些未知領域的網路攻擊，官方服務往往不堪負荷。今天，我就來教大家如何零成本打造專屬、永不掉線的 AI 助手。為什麼要選擇私人部署？什麼...

未分類

DeepSeek 的 Janus-Pro 有多好？

按janus-ai 2 月 4, 20252 月 4, 2025

春節前夕，DeepSeek-R1模型正式發布。它採用純 RL 架構，汲取了 CoT 的偉大創新，在數學、代碼、邏輯推理等方面都優於 ChatGPT。此外，其開源的模型權重、低廉的訓練成本以及便宜的 API 價格，也讓 DeepSeek 火遍全網，甚至...

未分類

Deepseek 發表了另一套組合：它剛發表了超越 DALL-E3 的多模式機型 Janus Pro

按janus-ai 1 月 28, 20251 月 28, 2025

和人工智能時代已悄然來臨。大概誰也沒想到，這個農曆新年，最熱門的話題不再是傳統的互聯網紅包大戰、誰與春晚合作，而是AI公司。臨近春節，各大模型公司一點也沒有放鬆，更新了一波...

未分類

DeepSeek V3 論文詳細內容：如何繞過 CUDA 壟斷！

按janus-ai 1 月 29, 20251 月 29, 2025

DeepSeek V3 論文詳細內容：如何繞過 CUDA 的壟斷！DeepSeek最近發布的兩款模型DeepSeek-V3和DeepSeek-R1，以更低的成本實現了媲美OpenAI同類模型的性能。根據外國媒體報導，在短短兩個月內，他們在一個由 2,048 個集群組成的模型上，訓練出了一個擁有 6,710 億個參數的 MoE 語言模型...

多模態影像生成的新星：Janus-4o？ ShareGPT-4o-Image 為資料集設定了新標準，使影像產生與 GPT-4o 保持一致。

數據集概述

相關連結

論文介紹

方法概述

實驗結果

結論

DeepSeek 的全面指南，90% 的人都不知道的使用技巧（建議加入書籤）

完整說明：從 DeepSeek Janus 到 Janus-Pro！

如何在本機執行 deepseek r1

DeepSeek 的 Janus-Pro 有多好？

Deepseek 發表了另一套組合：它剛發表了超越 DALL-E3 的多模式機型 Janus Pro

DeepSeek V3 論文詳細內容：如何繞過 CUDA 壟斷！

發佈留言取消回覆

資源

朋友們

數據集概述

相關連結

論文介紹

方法概述

實驗結果

結論

類似職位

發佈留言 取消回覆

資源

朋友們

發佈留言取消回覆