OpenAI, yapay zeka alanındaki en son yeniliği olan gpt-realtime isimli yeni konuşma modelini resmi olarak tanıttı. Bu yeni model, hem daha gelişmiş hem de daha uygun maliyetli özellikler ile geliyor.

gpt-realtime resmen görücüye çıktı

OpenAI, Ekim 2024’te piyasaya sürdüğü Realtime API’nin akabinde binlerce geliştiricinin uygulamalarında doğal konuşma tecrübeleri oluşturduğunu bildirdi. Artık ise bu tecrübesi bir üst düzeye taşıyan gpt-realtime modelini duyurdu.

Yeni modelin en dikkat cazip özellikleri ortasında karmaşık komutları daha güzel anlaması ve uygulaması var. Şirket, modelin araç çağırma üzere süreçlerde kusur oranının düştüğünü belirtiyor. Ayrıyeten modelin ürettiği seslerin daha doğal ve sözlü olduğu da söyleniyor. Geliştiricilerin kullandığı sistem bildirilerini ve komutları, eski modellere kıyasla daha gerçek yorumluyor.

Realtime API birinci çıktığında altı ses seçeneği sunuyordu. Bu sayıyı iki yeni sesle sekize çıkaran OpenAI, artık Marin ve Cedar isminde iki yeni ses daha ekledi. Böylelikle toplam ses sayısı ona ulaştı. Mevcut sekiz ses de daha doğal ve akıcı bir konuşma tecrübesi sunacak biçimde güncellendi.

Yeni model, performans testlerinde de evvelki sürümü geride bırakıyor. Big Bench Audio testinde yüzde 82,8 doğrulukla bir evvelki modelin yüzde 65,6’lık skorunu aştı. MultiChallenge Audio Benchmark testinde ise yüzde 20,6’lık skoru geçerek yüzde 30,5’e ulaştı.

Yeni modelle birlikte Realtime API’ye de güncellemeler geldi. Artık uzaktan MCP sunucularını, görsel girdileri ve SIP (Session Initiation Protocol) üzerinden telefon aramalarını destekliyor. Geliştiriciler, sık kullandıkları komutları artık kaydedip tekrar kullanabiliyor.

OKU:  Mercedes, uygun fiyatlı bir G serisi geliştirebilir!

Tüm bu geliştirmelere karşın OpenAI, Realtime API’nin fiyatını düşürdü. gpt-realtime modeli, bir evvelki gpt-4o-realtime-preview’a kıyasla yüzde 20 daha ucuz. 1 milyon ses girdi tokeni 32 dolar, 1 milyon ses çıktı tokeni ise 64 dolar düzeyine indi.