Çinli Yapay Zeka Girişimi DeepSeek OpenAI'a Rakip Bir Modeli Nasıl Oluşturdu?

20 Ocak'ta, Çin'de nispeten bilinmeyen bir yapay zeka araştırma laboratuvarı olan DeepSeek, Silikon Vadisi'nde hızla konuşulmaya başlanan açık kaynaklı bir model yayınladı. Şirket tarafından kaleme alınan bir makaleye göre DeepSeek-R1, OpenAI o1 gibi sektörün önde gelen modellerini çeşitli matematik ve muhakeme kriterlerinde geride bırakıyor. Aslında, önemli olan birçok ölçütte - yetenek, maliyet, açıklık - DeepSeek Batılı yapay zeka devlerinin tahtına göz dikiyor.

DeepSeek'in başarısı, ABD ve Çin arasındaki teknolojik soğuk savaşın istenmeyen bir sonucuna işaret ediyor. ABD'nin ihracat kontrolleri, Çinli teknoloji firmalarının yapay zeka konusunda Batılılar gibi rekabet etmesini, yani daha fazla çip satın alarak ve daha uzun süre eğitim vererek sonsuz ölçekte büyümesini ciddi şekilde kısıtladı. Sonuç olarak, çoğu Çinli şirket kendi modellerini oluşturmak yerine alt uygulamalara odaklandı. Ancak son sürümüyle DeepSeek, kazanmanın başka bir yolu olduğunu kanıtlıyor: YZ modellerinin temel yapısını yenileyerek ve sınırlı kaynakları daha verimli kullanarak.

Sydney Teknoloji Üniversitesi'nde doçent olan ve Çin inovasyonlarını inceleyen Marina Zhang, “Gelişmiş donanıma erişime büyük ölçüde güvenen birçok Çinli yapay zeka firmasının aksine DeepSeek, yazılım odaklı kaynak optimizasyonunu en üst düzeye çıkarmaya odaklandı” diyor. “DeepSeek açık kaynak yöntemlerini benimsemiş, kolektif uzmanlığı bir araya getirmiş ve iş birliğine dayalı inovasyonu teşvik etmiştir. Bu yaklaşım yalnızca kaynak kısıtlamalarını hafifletmekle kalmıyor, aynı zamanda en yeni teknolojilerin geliştirilmesini hızlandırarak DeepSeek'i daha kapalı rakiplerinden ayırıyor.”

DeepSeek kimin?

Peki bu yapay zeka girişiminin arkasında kim var? Ve neden aniden endüstri lideri bir modeli piyasaya sürüyorlar ve ücretsiz olarak dağıtıyorlar? WIRED, Çin'in yapay zeka sektöründeki uzmanlarla konuştu ve DeepSeek'in kurucusu Liang Wenfeng ile yapılan ayrıntılı röportajları okuyarak firmanın hızlı yükselişinin ardındaki hikayeyi bir araya getirdi. DeepSeek, WIRED tarafından gönderilen çeşitli sorulara yanıt vermedi.

Çin'de Yıldız Bir Hedge Fon

DeepSeek, Çin yapay zeka endüstrisi içinde bile alışılmadık bir oyuncu. Çin'in en iyi performans gösteren kantitatif hedge fonlarından biri olan High-Flyer'ın derin öğrenme araştırma kolu olan Fire-Flyer olarak başladı. 2015 yılında kurulan hedge fon, Çin'de hızla öne çıkarak 100 milyar RMB'nin (yaklaşık 15 milyar $) üzerinde fon toplayan ilk niceliksel hedge fon oldu. (2021'den bu yana bu rakam yaklaşık 8 milyar dolara geriledi, ancak High-Flyer ülkedeki en önemli niceliksel hedge fonlarından biri olmaya devam ediyor).

High-Flyer yıllardır GPU'ları stokluyor ve finansal verileri analiz etmek için Fire-Flyer süper bilgisayarları inşa ediyordu. Ardından, 2023 yılında, bilgisayar bilimleri alanında yüksek lisans derecesine sahip olan Liang, fonun kaynaklarını DeepSeek adlı yeni bir şirkete aktarmaya karar verdi ve bu şirket kendi son teknoloji modellerini oluşturacak ve yapay genel zeka geliştirmeyi umacaktı. Sanki Jane Street bir yapay zeka startup'ı olmaya ve parasını bilimsel araştırmalara yatırmaya karar vermiş gibiydi.

Cesur bir vizyon. Ama bir şekilde işe yaradı. Zhang, “DeepSeek, hızlı ticarileşme yerine uzun vadeli teknolojik ilerlemeye öncelik veren yeni nesil Çinli teknoloji şirketlerini temsil ediyor” diyor.

"Temel bilim araştırmalarının yatırıma dönüş oranı çok düşüktür. OpenAI'nin ilk yatırımcıları ona para verdiklerinde, ne kadar getiri elde edeceklerini kesinlikle düşünmüyorlardı. Aksine, bu işi gerçekten yapmak istiyorlardı."

Liang, Çinli teknoloji yayını 36Kr'ye verdiği demeçte bu kararın kâr elde etme arzusundan ziyade bilimsel meraktan kaynaklandığını söyledi. “Bana sorsanız bile [DeepSeek'i kurmak için] ticari bir neden bulamam,” diye açıkladı. “Çünkü ticari olarak buna değmez. Temel bilim araştırmalarının yatırıma dönüş oranı çok düşüktür. OpenAI'nin ilk yatırımcıları ona para verdiklerinde, ne kadar getiri elde edeceklerini kesinlikle düşünmüyorlardı. Aksine, bu işi gerçekten yapmak istiyorlardı.”

DeepSeek bugün Çin'de Baidu, Alibaba ya da ByteDance gibi teknoloji devlerinden fon almayan tek lider yapay zeka şirketlerinden biri.

Kendilerini Kanıtlamaya Hevesli Genç Bir Dahi Grubu

Liang'a göre DeepSeek'in araştırma ekibini oluştururken, tüketiciye yönelik bir ürün oluşturmak için deneyimli mühendisler aramıyordu. Bunun yerine, Pekin Üniversitesi ve Tsinghua Üniversitesi de dahil olmak üzere Çin'in en iyi üniversitelerinden kendilerini kanıtlamaya hevesli doktora öğrencilerine odaklandı. Çinli teknoloji yayını QBitAI'ye göre, birçoğu en iyi dergilerde yayınlanmış ve uluslararası akademik konferanslarda ödüller kazanmıştı, ancak sektör deneyimi yoktu.

Liang 2023 yılında 36Kr'ye verdiği demeçte, “Temel teknik pozisyonlarımız çoğunlukla bu yıl ya da son bir iki yıl içinde mezun olan kişiler tarafından dolduruluyor” dedi. İşe alım stratejisi, insanların alışılmışın dışında araştırma projeleri yürütmek için geniş bilgi işlem kaynaklarını kullanmakta özgür oldukları işbirlikçi bir şirket kültürü yaratılmasına yardımcı oldu. Bu, ekiplerin genellikle kaynaklar için rekabet ettiği Çin'deki yerleşik internet şirketlerinden oldukça farklı bir çalışma şekli. (Yakın tarihli bir örnek: ByteDance, prestijli bir akademik ödül sahibi olan eski bir stajyeri, ekibine daha fazla bilgi işlem kaynağı sağlamak için meslektaşlarının çalışmalarını sabote etmekle suçladı).

Liang, öğrencilerin yüksek yatırımlı, düşük kârlı araştırmalar için daha uygun olabileceğini söyledi. “Çoğu insan, gençken, faydacı düşünceler olmaksızın kendilerini tamamen bir misyona adayabilir” diye açıkladı. DeepSeek'in “dünyanın en zor sorularını çözmek” için kurulduğunu söylüyor.

Uzmanlar, bu genç araştırmacıların neredeyse tamamının Çin'de eğitim görmüş olmasının da motivasyonlarını artırdığını söylüyor. Zhang, “Bu genç nesil, özellikle kritik donanım ve yazılım teknolojilerindeki ABD kısıtlamalarını ve tıkanma noktalarını aşarken bir vatanseverlik duygusu da taşıyor” diyor. “Bu engelleri aşma konusundaki kararlılıkları yalnızca kişisel hırslarını değil, aynı zamanda Çin'in küresel bir inovasyon lideri olarak konumunu ilerletmeye yönelik daha geniş bir bağlılığı da yansıtıyor.”

Krizden Doğan İnovasyon

Ekim 2022'de ABD hükümeti, Çinli yapay zeka şirketlerinin Nvidia'nın H100'ü gibi son teknoloji çiplere erişimini ciddi şekilde kısıtlayan ihracat kontrollerini bir araya getirmeye başladı. Bu hamle DeepSeek için bir sorun teşkil etti. Firma 10.000 A100'lük bir stokla işe başlamıştı ancak OpenAI ve Meta gibi firmalarla rekabet edebilmek için daha fazlasına ihtiyacı vardı. Liang 2024 yılında 36Kr'ye verdiği ikinci bir röportajda “Karşılaştığımız sorun hiçbir zaman finansman olmadı, ancak gelişmiş çipler üzerindeki ihracat kontrolü oldu” dedi.

“Bu yaklaşımların birçoğu yeni fikirler değil, ancak son teknoloji bir model üretmek için bunları başarıyla birleştirmek dikkate değer bir başarı.”

DeepSeek modellerini eğitmek için daha verimli yöntemler bulmak zorunda kaldı. Mercator Çin Araştırmaları Enstitüsü'nde politika analisti olan yazılım mühendisi Wendy Chang, “Model mimarilerini bir dizi mühendislik hilesi kullanarak optimize ettiler - çipler arasında özel iletişim şemaları, bellekten tasarruf etmek için alanların boyutunu küçültme ve modellerin karışımı yaklaşımının yenilikçi kullanımı” diyor. “Bu yaklaşımların birçoğu yeni fikirler değil, ancak son teknoloji bir model üretmek için bunları başarıyla birleştirmek dikkate değer bir başarı.”

DeepSeek, eğitmek için daha az bilgi işlem kaynağı gerektirerek DeepSeek modellerini daha uygun maliyetli hale getiren iki teknik tasarım olan MLA ve Uzmanların Karışımı konusunda da önemli ilerleme kaydetti. Epoch AI araştırma kurumuna göre, DeepSeek'in son modeli o kadar verimli ki, Meta'nın benzer Llama 3.1 modelinin eğitilmesi için gereken hesaplama gücünün onda birine ihtiyaç duyuyor.

DeepSeek'in bu yenilikleri kamuoyu ile paylaşma konusundaki istekliliği, küresel yapay zeka araştırma topluluğu içinde önemli bir itibar kazanmasını sağladı. Birçok Çinli yapay zeka şirketi için açık kaynaklı modeller geliştirmek, Batılı meslektaşlarını yakalamanın tek yolu, çünkü daha fazla kullanıcıyı ve katkıda bulunanı çeker ve bu da modellerin büyümesine yardımcı olur. Chang, “Artık daha az ama yine de çok para kullanarak son teknoloji modellerin inşa edilebileceğini ve mevcut model oluşturma normlarının optimizasyon için bolca alan bıraktığını gösterdiler” diyor. “İleride bu yönde çok daha fazla girişim göreceğimizden eminiz.”

Bu haber, bilgi işlem kaynağı darboğazları yaratmaya odaklanan mevcut ABD ihracat kontrolleri için sorun yaratabilir. Chang, “Çin'in ne kadar yapay zeka bilgi işlem gücüne sahip olduğuna ve bununla neler başarabileceğine dair mevcut tahminler altüst olabilir” diyor.

BU İÇERİK İLK OLARAK WIRED WEB SİTESİNDE YAYINLANMIŞTIR.