NVIDIA’dan 6.3 trilyon tokenli veritabanı: Nemotron-CC

NVIDIA, yapay zeka alanında tarihi bir adım atarak Nemotron-CC ismini verdiği devasa bir İngilizce AI eğitim veritabanını duyurdu. Yeni veritabanı, toplam 6.3 trilyon token içeriyor ve bunun 1.9 trilyonu sentetik datalardan oluşuyor. NVIDIA, bu yeni veritabanının, büyük lisan modellerinin (LLM) eğitimi için bugüne kadar geliştirilen en kapsamlı kaynaklardan biri olduğunu belirtti. Şirket, bilhassa akademik ve ticari alanlarda bu yeniliğin büyük bir fark yaratacağını söz etti. İşte detaylar…

NVIDIA 6.3 trilyon tokenli yapay zeka eğitim veritabanı Nemotron-CC modelini tanıttı

Nemotron-CC veritabanının geliştirilme sürecinde, Common Crawl platformundan alınan büyük ölçüde data kullanıldığı aktarıldı. Bu datalar, sıkı bir data sürece ve filtreleme sürecinden geçirilerek yüksek kaliteli bir alt küme olan Nemotron-CC-HQ oluşturulmuş. NVIDIA, bu veritabanının “büyük lisan modelleri için ülkü bir eğitim materyali” olduğunu söylüyor.

nvidiadan 63 trilyon tokenli veritabani nemotron cc 0 9vJPQ5Pb

Aslında bu yeniliğin, mevcut eğitim veritabanlarının ölçek ve kalite bakımından karşılaştığı kısıtlamalara tahlil sunması bekleniyor. Bilhassa Deep Common Crawl Language Model (DCLM) üzere önder açık kaynak veritabanlarına kıyasla daha üstün bir performans sunacak. NVIDIA, Nemotron-CC ile eğitilen modellerin çeşitli testlerde dikkate kıymet iyileştirmeler sağladığını açıkladı. Örneğin:

  • MMLU (Massive Multitask Language Understanding) testlerinde mevcut sistemlere kıyasla 5.6 puan artış elde edildi.
  • 80 milyar parametreli modeller, MMLU testlerinde 5 puan, ARC-Challenge testlerinde ise 3.1 puan düzgünleşme gösterdi.
  • Nemotron-CC’nin, başka yüksek kaliteli veritabanları ile karşılaştırıldığında 10 farklı misyonda ortalama 0.5 puanlık bir performans artışı sağladığı belirtildi.
nvidiadan 63 trilyon tokenli veritabani nemotron cc 1 f7N1Nrp9

Nvidia CEO’sundan RTX 5090’ın fiyatını eleştirenlere cevap: “Kalitenin bedeli var!”

Nvidia CEO’su Jensen Huang, uzun vakittir tartışma konusu olan RTX 5090’ın fiyatıyla ilgili konuştu. İşte ayrıntılar…

Ortaya çıkan sonuçlara bakılırsa, Nemotron-CC’nin büyük lisan modellerinin eğitimi ve yetenekleri üzerinde nasıl bir tesir yaratabileceğini açıkça görüyoruz. Bununla bir arada NVIDIA, Nemotron-CC’nin geliştirilmesinde model sınıflandırıcılar, sentetik data tekrar tabir etme (rephrasing) üzere tekniklerden yararlandığını duyurdu. Bu teknikler, veritabanındaki data çeşitliliğini ve kalitesini artırmak için kullanılmış. Ayrıyeten, klâsik data filtreleme metotlarındaki sıkı kuralların hafifletilmesiyle yüksek kaliteli tokenların sayısı da artırılmış.

OKU:  YTÜ’den ulaştırma yarışmasına dört ödül

NVIDIA, Nemotron-CC’yi Common Crawl platformu üzerinden erişime açtı ve bu veritabanının dökümantasyonunu yakında şirketin GitHub sayfasında yayınlayacağını duyurdu. Bu sayede hem akademisyenler hem de ticari kullanıcılar, bu veritabanını kolaylıkla kullanabilecek. Yeni veritabanına buradan erişebilirsiniz.

Peki sizce bu yeniliğin yapay zeka teknolojilerinin geleceği üzerindeki tesirleri ne olur? Görüşlerinizi aşağıdaki yorumlar kısmında paylaşabilirsiniz…

nvidiadan 63 trilyon tokenli veritabani nemotron cc 2 tIWSWXZg

İlginizi Çekebilir:Waymo ile Toyota, otonom sürüş alanında işbirliği yapıyor!
share Paylaş facebook pinterest whatsapp x print

Benzer İçerikler

gecmisten gunumuze tarz ve konforlu adimlar WWNV94Vt
Geçmişten günümüze tarz ve konforlu adımlar
zirve sasirtmadi en cok indirilen pc oyunlari belli oldu 1LmlbJsP
Zirve şaşırtmadı: En çok indirilen PC oyunları belli oldu!
a101 ucuza iphone 16 pro max ve galaxy s25 satiyor
A101, ucuza iPhone 16 Pro Max ve Galaxy S25+ satıyor!
google ve samsung akilli gozluk gelistiriyor iste cikis tarihi QaLfHDTQ
Google ve Samsung akıllı gözlük geliştiriyor! İşte çıkış tarihi
turkiyede yilin otomobili 2025 finalistleri belli oldu AikFl91s
Türkiye’de Yılın Otomobili 2025 finalistleri belli oldu!
geforce nowa bu hafta eklenen oyunlar belli oldu f1r4jONS
GeForce Now’a bu hafta eklenen oyunlar belli oldu!
Bahis Sitesi | © 2025 |

fqq sahabet