Çinliler bir yapay zeka modeli daha geliştirdi

Çin merkezli yapay zeka çalışmaları global teknoloji rekabetinde tesirini artırıyor. Alibaba’nın desteklediği Moonshot AI tarafından geliştirilen Kimi K2 isimli yeni büyük lisan modeli, açık kaynak kodlu olarak yayımlandı. Model, hem mimari yapısı hem de birinci performans sonuçlarıyla dikkat çekti.
Çinliler, bir yapay zeka modeli daha duyurdu
Kimi K2, toplamda 1 trilyon parametreye sahip bir Mixture-of-Experts (MoE) mimarisiyle geliştirildi. Fakat her token sürecinde bu parametrelerin sadece yaklaşık 32 milyonu etkin formda çalışıyor. Bu yapı, modelin hem verimlilik hem de süreç maliyeti açısından güçlü bir istikrar kurmasını sağlıyor. Modelin içinde 384 uzman modülden sekizi ve bir ortak uzman, her süreçte birebir anda devreye giriyor. Kimi K2, 61 katmandan oluşuyor ve 15.5 trilyon token’lık dev bir data setiyle eğitildi.

Eğitim sürecinde, dikkat düzeneğinde karşılaşılan dengesizlikleri önlemek emeliyle MuonClip isimli özel bir optimizasyon formülü kullanıldı. Bu teknikle, modelin dikkat tartıları daha istikrarlı dağıtılarak performans kararlılığı sağlandı.
Kimi K2, tıpkı vakitte 128 bin token’a kadar bağlam penceresi takviyesi sunuyor. Bu da yaklaşık 192 sayfalık bir metni tek seferde işleyebileceği manasına geliyor. Bu özelliğiyle uzun dokümanlarla çalışma konusunda öne çıkıyor.
Model, fiyatsız olarak sunulan Kimi uygulaması üzerinden kullanıcılarla buluşuyor. Açık kaynak kodlu yapısı sayesinde geliştiriciler tarafından farklı projelere entegre edilebiliyor. Kullanım maliyetleri, mevcut büyük lisan modellerine kıyasla hayli düşük düzeyde tutulmuş durumda.
1 milyon giriş token’ı için sadece 15 cent, çıkış token’ı içinse 2.5 dolar fiyat talep ediliyor. Bu fiyatlar, örneğin Claude modelinin 75 dolarlık çıkış token maliyetiyle karşılaştırıldığında dikkat cazibeli bir fark oluşturuyor.
Modelin yayınlanmasının akabinde geçen dört gün içinde gelen birinci kullanıcı geri bildirimleri büyük ölçüde olumlu. Bilhassa toplumsal medyada yapılan değerlendirmelerde, kodlama vazifelerinde modelin yüksek doğruluk oranı sağladığı söz ediliyor. MagicPath kurucusu Pietro Schirano, Kimi K2’nin Claude 3.5 Sonnet’ten sonra üretimde kullanmaya yaklaştığı birinci model olduğunu belirtti.