ve yapay zeka çağı sessizce geldi.
Muhtemelen hiç kimse bu Çin Yeni Yılında en sıcak konunun artık Bahar Festivali Galasına ortak olan geleneksel İnternet kırmızı zarf savaşı değil, yapay zeka şirketleri olacağını beklemiyordu.
Bahar Festivali yaklaşırken, büyük model şirketleri hiç rahat durmadı ve bir model ve ürün dalgasını güncelledi. Ancak en çok konuşulan, geçen yıl ortaya çıkan "büyük model şirketi" DeepSeek oldu.
Ocak ayının 20'si akşamı, DerinSeek muhakeme modeli DeepSeek-R1'in resmi versiyonunu yayınladı. Düşük bir eğitim maliyeti kullanarak, OpenAI muhakeme modeli o1'den daha düşük olmayan bir performansı doğrudan eğitti. Üstelik tamamen ücretsiz ve açık kaynak kodlu olması, doğrudan bir endüstri depremini tetikledi.
İlk kez yerli bir yapay zeka, başta ABD olmak üzere dünya çapında büyük ölçekte teknoloji dünyasında heyecan yarattı. Geliştiriciler DeepSeek'i "her şeyi yeniden inşa etmek" için kullanmayı düşündüklerini ifade ettiler. Bu dalganın ardından, bir haftalık mayalanmanın ardından ve hatta Ocak ayında piyasaya sürülen DeepSeek mobil uygulaması, yalnızca ChatGPT'yi değil, aynı zamanda ABD'deki diğer popüler uygulamaları da geride bırakarak ABD'deki Apple App Store'da ücretsiz uygulama sıralamasında hızla zirveye ulaştı.
DeepSeek'in başarısı ABD borsasını bile doğrudan etkiledi. Büyük miktarda pahalı GPU kullanmadan eğitilen bir model, insanların yapay zekanın eğitim yolunu yeniden düşünmesini sağladı ve doğrudan yapay zekanın ilk hissesi olan NVIDIA'da 17%'lik en büyük düşüşe neden oldu.
Hepsi bu kadar da değil.
DeepSeek, yılbaşından bir gece önce, 28 Ocak sabahının erken saatlerinde, çok modlu modeli Janus-Pro-7B'nin kaynağını bir kez daha açtı ve GenEval ve DPG-Bench kıyaslama testlerinde DALL-E 3 (OpenAI'den) ve Stable Diffusion'ı yendiğini duyurdu.
DeepSeek gerçekten yapay zeka camiasını kasıp kavuracak mı? Çıkarım modellerinden multimodal modellere, DeepSeek Yılan Yılının ilk konusu olan her şeyi yeniden mi yapılandırıyor?
Janus Proyenilikçi bir multimodal model mimarisinin doğrulanması
DeepSeek bu kez gece geç saatlerde toplam iki model yayınladı: Janus-Pro-7B ve Janus-Pro-1B (1.5B parametre).
Adından da anlaşılacağı gibi, modelin kendisi önceki Janus modelinden bir yükseltmedir.
DeepSeek Janus modelini ilk kez Ekim 2024'te piyasaya sürmüştür. DeepSeek'te her zaman olduğu gibi, model yenilikçi bir mimari benimsiyor. Birçok görüntü oluşturma modelinde olduğu gibi model, metinden görüntüye ve görüntüden metne görevlerini aynı anda işleyebilen birleşik bir Transformer mimarisi benimsiyor.
DeepSeek, model eğitiminin esnekliğini artıran ve tek bir görsel kodlama kullanmanın neden olduğu çatışmaları ve performans darboğazlarını etkili bir şekilde hafifleten, anlama (grafikten metne) ve oluşturma görevlerinin (metinden grafiğe) görsel kodlamasını ayıran yeni bir fikir önermektedir.
DeepSeek'in modele Janus adını vermesinin nedeni budur. Janus antik Roma kapı tanrısıdır ve zıt yönlere bakan iki yüzü ile tasvir edilir. DeepSeek, modele Janus adının verilmesinin nedeninin görsel verilere farklı gözlerle bakabilmesi, özellikleri ayrı ayrı kodlayabilmesi ve daha sonra bu girdi sinyallerini işlemek için aynı gövdeyi (Transformer) kullanabilmesi olduğunu söyledi.
Bu yeni fikir Janus serisi modellerde iyi sonuçlar verdi. Ekip, Janus modelinin güçlü komut takip yeteneklerine, çok dilli yeteneklere sahip olduğunu ve modelin daha akıllı olduğunu, meme görüntülerini okuyabildiğini söylüyor. Ayrıca lateks formülleri dönüştürme ve grafikleri koda dönüştürme gibi görevleri de yerine getirebiliyor.
Ekip, Janus Pro model serisinde modelin eğitim sürecini kısmen değiştirerek GenEval ve DPG-Bench kıyaslama testlerinde doğrudan DALL-E 3 ve Stable Diffusion'ı geride bırakan sonuçlar elde etti.

Modelin yanı sıra DeepSeek, görüntü anlama ve oluşturma görevlerini birleştirmeyi amaçlayan yeni çok modlu yapay zeka çerçevesi Janus Flow'u da piyasaya sürdü.
Janus Pro modeli daha iyi görsel kalite, daha zengin ayrıntılar ve basit metin oluşturma yeteneği ile kısa istemler kullanarak daha kararlı çıktılar sağlayabilir.
Model görüntüler oluşturabilir ve resimleri tanımlayabilir, önemli yerleri belirleyebilir (Hangzhou'nun Batı Gölü gibi), görüntülerdeki metinleri tanıyabilir ve resimlerdeki bilgileri tanımlayabilir ("Tom ve Jerry" kekleri gibi).
One x.com, Birçok kişi yeni modeli denemeye başladı bile.

Yukarıdaki şekilde görüntü tanıma testi solda, görüntü oluşturma testi ise sağda gösterilmektedir.

Görüldüğü gibi, Janus Pro görüntüleri yüksek hassasiyetle okuma konusunda da iyi bir iş çıkarıyor. Matematiksel ifadelerin ve metinlerin karışık dizgisini tanıyabilir. Gelecekte, bir muhakeme modeliyle birlikte kullanılması daha büyük önem taşıyabilir.
1B ve 7B parametreleri yeni uygulama senaryolarının kilidini açabilir
Çok modlu anlama görevlerinde, yeni model Janus-Pro görsel kodlayıcı olarak SigLIP-L kullanır ve 384 x 384 piksel görüntü girişlerini destekler. Görüntü oluşturma görevlerinde Janus-Pro, 16'lık bir alt örnekleme oranına sahip belirli bir kaynaktan bir tokenizer kullanır.
Bu hala nispeten küçük bir görüntü boyutudur. X Kullanıcı analizinde, Janus Pro modeli daha çok yönlü bir doğrulamadır. Doğrulamanın güvenilir olması halinde üretime alınabilecek bir model piyasaya sürülecektir.
Bununla birlikte, Janus'un bu kez piyasaya sürdüğü yeni modelin çok modlu modeller için sadece mimari açıdan yenilikçi olmadığını, aynı zamanda parametre sayısı açısından da yeni bir keşif olduğunu belirtmek gerekir.
DeepSeek Janus Pro'nin bu kez karşılaştırdığı model olan DALL-E 3 daha önce 12 milyar parametreye sahip olduğunu açıklamışken, Janus Pro'nin büyük boyutlu modeli sadece 7 milyar parametreye sahip. Böylesine kompakt bir boyutla Janus Pro'nin bu sonuçları elde edebilmesi zaten çok iyi.
Özellikle, Janus Pro'nin 1B modeli yalnızca 1,5 milyar parametre kullanmaktadır. Kullanıcılar harici ağdaki transformers.js'ye model için destek eklediler bile. Bu, modelin artık WebGPU üzerindeki tarayıcılarda 100% çalıştırabileceği anlamına geliyor!

Basın zamanı itibariyle yazar henüz Janus Pro'nin yeni modelini web versiyonunda başarıyla kullanamamış olsa da, parametre sayısının doğrudan web tarafında çalıştırılabilecek kadar az olması yine de şaşırtıcı bir gelişmedir.
Bu da görüntü oluşturma/görüntü anlama maliyetinin düşmeye devam ettiği anlamına geliyor. Yapay zekanın daha önce ham görüntülerin ve görüntü anlamanın kullanılamadığı daha fazla yerde kullanıldığını ve hayatımızı değiştirdiğini görme fırsatına sahibiz.
2024'ün en önemli gündem maddelerinden biri, çok modlu anlayışa sahip yapay zeka donanımlarının hayatımıza nasıl müdahale edebileceğidir. Giderek daha düşük parametrelere sahip çok modlu anlayış modelleri veya uçta çalışması beklenebilecek modeller, YZ donanımının daha da patlamasını sağlayabilir.
DeepSeek yeni yılı karıştırdı. Çin yapay zekası ile her şey yeniden yapılabilir mi?
Yapay zeka dünyası gün geçtikçe değişiyor.
Geçen yıl Bahar Festivali sırasında dünyayı heyecanlandıran şey OpenAI'nin Sora modeliydi. Ancak, yıl boyunca Çinli şirketler video üretimi açısından tamamen arayı kapattı ve Sora'nın yıl sonunda piyasaya sürülmesi biraz kasvetli görünüyor.
Bu yıl dünyayı ayağa kaldıran şey Çin'in DeepSeek'i oldu.
DeepSeek geleneksel bir teknoloji şirketi değil, ancak büyük Amerikan model şirketlerinin GPU kartlarından çok daha düşük bir maliyetle son derece yenilikçi modeller üretti ve bu da Amerikalı meslektaşlarını doğrudan şok etti. Amerikalılar haykırdı: "R1 modelinin eğitimi sadece 5.6 milyon ABD dolarına mal oldu, bu da Meta GenAI ekibindeki herhangi bir yöneticinin maaşına bile eşit. Bu gizemli Doğu gücü nedir?"
DeepSeek kurucusu Liang Wenfeng'i taklit eden bir parodi hesap doğrudan X'te ilginç bir resim yayınladı:

Resimde, 2024 yılında dünyaca ünlü Türk atıcının trend meme'i kullanıldı.
Paris Olimpiyatları'ndaki atıcılık etkinliklerinin 10 metre havalı tabanca finalinde, 51 yaşındaki Türk atıcı Mithat Dikeç, sadece bir çift sıradan miyop gözlük ve bir çift uyku kulaklığı takarak, tek eli cebinde sakince gümüş madalyayı cebine koydu. Diğer tüm atıcıların yarışmaya başlamak için odaklanma ve ışık engelleme için iki profesyonel lense ve bir çift gürültü önleyici kulak tıkacına ihtiyacı vardı.
DeepSeek "kırıldığından" beri OpenAI'nin muhakeme modeliABD'nin önde gelen teknoloji şirketleri yoğun baskı altına girdi. Bugün Sam Altman nihayet resmi bir açıklama ile yanıt verdi.

2025, Çin yapay zekasının Amerikan algılarını etkilediği yıl mı olacak?
DeepSeek'in elinde hâlâ bazı sırlar var - bu olağanüstü bir Bahar Festivali olacak.