OpenAI, yeni nesil ses modellerini duyurdu!

OpenAI, yapay zeka tabanlı ses teknolojilerinde değerli bir adım attı. Şirket, evvelki jenerasyon modellerine kıyasla daha doğal konuşma üretebilen modellerini duyurdu. Bu modeller, yapay zekaların beşerlerle daha sezgisel ve akıcı bir formda bağlantı kurmasını sağlayacak.
OpenAI, yeni kuşak ses modellerini tanıttı
Şirketin tanıttığı yeni konuşma modeli gpt-4o-mini-tts, evvelki konuşma sentezleme teknolojilerine nazaran daha gerçekçi ve esnek bir konuşma sunuyor. Geliştiriciler, bu modelin konuşma biçimini yönlendirebiliyor ve yapay zekanın belli bir ton ya da karakterde konuşmasını sağlayabiliyor. Örneğin, modele “Ortaçağ şövalyesi üzere konuş” komutu verildiğinde, bu doğrultuda bir konuşma ortaya çıkıyor.
Diğer yandan OpenAI, Whisper modelinin yerini alacak gpt-4o-transcribe ve gpt-4o-mini-transcribe modellerini de duyurdu. Bu modeller, farklı aksanları ve konuşma biçimlerini daha düzgün anlayabilmek için çeşitli ve yüksek kaliteli ses datalarıyla eğitildi. Whisper’ın geçmişte yaşadığı kusur oranlarının değerli ölçüde azaltıldığı belirtilirken, yeni sistemlerin transkripsiyon doğruluğunu artırdığı tabir ediliyor.

Atlas robotu, yeni hareket kabiliyetleri kazandı!
Boston Dynamics’in Atlas robotu, yeni hareket kabiliyetleri ile karşımıza çıktı. Robot, farklı özellikleriyle dikkat çekiyor.
Fakat OpenAI, yeni transkripsiyon modellerini açık kaynak olarak yayımlamayacağını açıkladı. Şirket geçmişte Whisper’ı açık kaynak olarak sunmuştu, lakin bu sefer modellerin daha karmaşık olduğunu belirterek sırf makul kullanım senaryoları için açık kaynak tahlilleri sunacağını duyurdu.
Yeni jenerasyon ses modelleri, OpenAI’ın API platformu üzerinden tüm geliştiricilere açılmış durumda. Pekala siz bu mevzu hakkında ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorumlar kısmından bizimle kolaylıkla paylaşabilirsiniz.