そしてAIの時代が静かに到来した。
おそらく誰も、今年の旧正月に最もホットな話題が、春節ガラと提携した伝統的なインターネット紅白戦ではなく、AI企業になるとは予想していなかっただろう。
春節が近づくにつれ、大手模型メーカー各社はまったく気を緩めることなく、モデルや商品のアップデートを相次いだ。しかし、最も話題になったのは昨年登場した「大手模型会社」ディープシークだった。
1月20日の夜、 深いSえっ は、推論モデルDeepSeek-R1の正式版をリリースした。低い学習コストで、OpenAIの推論モデルo1と遜色ない性能を直接学習させた。また、完全無償のオープンソースであるため、業界に激震が走った。
国産AIが世界、特に米国のテック界を大規模に騒がせたのは初めてのことだ。開発者たちは、DeepSeekを使って "すべてを再構築する "ことを検討していると表明している。この波を受け、1週間の発酵期間を経て、さらには1月にリリースされたばかりのDeepSeekモバイルアプリは、瞬く間に米アップルのApp Storeの無料アプリランキングで、ChatGPTだけでなく、他の人気アプリをも抜いてトップに躍り出た。
DeepSeekの成功は、米国の株式市場にも直接影響を与えた。高価なGPUを大量に使わずに学習させたモデルは、人々にAIの学習経路を再考させ、AIの最初の銘柄であるエヌビディアの17%という最大の下落を直接引き起こした。
それだけではない。
大晦日前夜の1月28日早朝、ディープシークは再びマルチモーダルモデルJanus-Pro-7Bのソースを公開し、GenEvalとDPG-BenchのベンチマークテストでDALL-E 3(OpenAI製)とStable Diffusionを破ったと発表した。
DeepSeekは本当にAI界を席巻するのか?推論モデルからマルチモーダルモデルまで、DeepSeekは巳年最初のトピックのすべてを再構築するのか?
Janus Pro革新的なマルチモーダルモデル・アーキテクチャの検証
ディープシークは今回、深夜にJanus-Pro-7BとJanus-Pro-1B(1.5Bパラメータ)の計2機種を発表した。
その名が示すように、このモデル自体は以前のヤヌスからアップグレードされたものだ。
ディープシークは2024年10月に初めてJanusモデルを発表した。ディープシークの常として、このモデルは革新的なアーキテクチャを採用している。多くの視覚生成モデルにおいて、このモデルは、テキストから画像、画像からテキストへのタスクを同時に処理できる統一されたTransformerアーキテクチャを採用している。
DeepSeekは、理解タスク(グラフからテキストへ)と生成タスク(テキストからグラフへ)の視覚的エンコーディングを分離するという新しいアイデアを提案し、モデル学習の柔軟性を向上させ、単一の視覚的エンコーディングを使用することによって生じる競合やパフォーマンスのボトルネックを効果的に緩和します。
これが、ディープシークがこのモデルをヤヌスと名付けた理由である。ヤヌスは古代ローマの扉の神で、2つの顔が反対方向を向いている姿で描かれている。ディープシークは、このモデルがヤヌスと名付けられたのは、異なる目で視覚データを見て、特徴を別々に符号化し、同じ本体(トランスフォーマー)を使ってこれらの入力信号を処理できるからだと述べている。
この新しいアイデアは、ヤヌス・モデルのシリーズで良い結果を生んでいる。研究チームによれば、Janusモデルは強力なコマンド追従能力、多言語能力を持ち、ミーム画像を読み取ることができる賢いモデルだという。また、ラテックスの数式を変換したり、グラフをコードに変換したりといった作業もこなせる。
Janus Proシリーズでは、モデルの学習プロセスを部分的に変更し、GenEvalとDPG-BenchベンチマークテストでDALL-E 3とStable Diffusionを上回る結果を直接達成した。

ディープシークは、モデル本体とともに、画像理解と生成タスクを統合することを目的とした新しいマルチモーダルAIフレームワーク「Janus Flow」も発表した。
Janus Proモデル は、短いプロンプトを使用して、より安定した出力を提供し、より良いビジュアル品質、より豊かな詳細、および単純なテキストを生成する能力を提供することができます。
このモデルは、画像を生成し、写真を説明し、ランドマークの観光スポット(杭州の西湖など)を特定し、画像内のテキストを認識し、写真内の知識(「トムとジェリー」のケーキなど)を説明することができる。
Onex.com、多くの人がすでに新しいモデルの実験を始めている。

上図の左が画像認識テスト、右が画像生成テスト。

このように、Janus Proは画像を高精度で読み取ることも得意としている。数式とテキストの混在した組版も認識できる。将来的には、推論モデルと併用する意義が大きくなるかもしれない。
1Bと7Bのパラメータは、新たな応用シナリオを切り開く可能性がある。
マルチモーダル理解タスクでは、新モデルJanus-Proは視覚エンコーダとしてSigLIP-Lを使用し、384×384ピクセルの画像入力をサポートする。画像生成タスクでは、Janus-Proはダウンサンプリングレート16の特定のソースからのトークナイザーを使用する。
これはまだ比較的小さな画像サイズである。X ユーザー分析では、Janus Proモデルはどちらかというと方向性の検証です。検証の信頼性が高ければ、製品化できるモデルがリリースされる。
しかし、今回ヤヌスが発表した新モデルは、マルチモーダルモデルとしてアーキテクチャ的に革新的であるだけでなく、パラメータの数という点でも新たな探求を行ったことは注目に値する。
今回DeepSeek Janus Proが比較したDALL-E 3は、以前120億個のパラメータを持つと発表していたが、Janus Proの大型モデルは70億個のパラメータしか持っていない。これだけコンパクトなJanus Proで、このような結果を出せるのは、すでに非常に優秀なことである。
特に、Janus Proの1Bモデルは15億個のパラメーターしか使わない。ユーザーはすでに、外部ネットワーク上のtransformers.jsにこのモデルのサポートを追加しています。これは、このモデルがWebGPU上のブラウザで100%を実行できるようになったことを意味する!

記者発表時点では、筆者はまだウェブ版でJanus Proの新モデルをうまく使用できていないが、それでもウェブ側で直接実行できるほどパラメータ数が少ないという事実は、驚くべき改善である。
これは、画像生成/画像理解のコストが下がり続けていることを意味する。私たちは、これまで生画像や画像理解が使用できなかったより多くの場所でAIが使用され、私たちの生活を変える機会を得ている。
2024年の大きな注目点は、マルチモーダルな理解力を付加したAIハードウェアが、どのように私たちの生活に介入できるかにある。パラメータがますます低くなるマルチモーダル理解モデルや、エッジでの動作が期待できるモデルは、AIハードウェアのさらなる爆発的な普及を可能にするかもしれない。
ディープシークが新年をかき回す。中国製AIですべてをやり直せるか?
AIの世界は日々変化している。
昨年の春節前後、世間を騒がせたのはOpenAIのSoraモデルだった。しかし、年を追うごとに中国勢に動画生成の面で完全に追いつかれ、年末のSora発売は少々暗雲が立ち込めている。
今年、世界を騒がせたのは中国のディープシークである。
ディープシークは伝統的な技術企業ではないが、アメリカの大手模型メーカーのGPUカードよりはるかに安いコストで、極めて革新的なモデルを作り、アメリカの同業他社に直接衝撃を与えた。アメリカ人はこう叫んだ:「R1モデルのトレーニングにかかった費用はわずか560万ドルで、メタGENAIチームの幹部の給料に匹敵する。この神秘的な東洋のパワーは何なのか?"
ディープシークの創設者である梁文峰を模倣したパロディ・アカウントが、興味深い写真を直接Xに投稿した:

この写真には、2024年に世界的に有名なトルコ人射手のトレンド・ミームが使われている。
パリオリンピックの射撃競技の10メートルエアピストル決勝で、51歳のトルコ人射手ミタット・ディケックは、普通の近視用メガネと睡眠用耳栓だけを装着し、ポケットに片手を突っ込んだまま冷静に銀メダルをポケットに入れた。その場にいた他のすべての射手は、ピント合わせと遮光のために2つのプロ用レンズと、競技を開始するためのノイズキャンセリング耳栓を必要としていた。
ディープシークが "クラック "して以来 OpenAIの推論モデル米国の大手テクノロジー企業は、強い圧力を受けている。本日、サム・アルトマンはついに公式声明を発表した。

2025年は中国のAIがアメリカの認識に影響を与える年になるか?
ディープシークにはまだ秘密がある。