OpenAI yeni konuşma modelini duyurdu: gpt-realtime

openai yeni konusma modelini duyurdu gpt realtime ALeNeLRm

OpenAI, yapay zeka alanındaki en son yeniliği olan gpt-realtime isimli yeni konuşma modelini resmi olarak tanıttı. Bu yeni model, hem daha gelişmiş hem de daha uygun maliyetli özellikler ile geliyor.

gpt-realtime resmen görücüye çıktı

OpenAI, Ekim 2024’te piyasaya sürdüğü Realtime API’nin akabinde binlerce geliştiricinin uygulamalarında doğal konuşma tecrübeleri oluşturduğunu bildirdi. Artık ise bu tecrübesi bir üst düzeye taşıyan gpt-realtime modelini duyurdu.

The Realtime API is officially out of beta and ready for your production voice agents!
We’re also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities:
🔌 Remote MCPs
🖼️ Image input
📞 SIP phone calling
♻️ Reusable prompts pic.twitter.com/fX5yvt0CDD
— OpenAI Developers (@OpenAIDevs) August 28, 2025

Yeni modelin en dikkat cazip özellikleri ortasında karmaşık komutları daha güzel anlaması ve uygulaması var. Şirket, modelin araç çağırma üzere süreçlerde kusur oranının düştüğünü belirtiyor. Ayrıyeten modelin ürettiği seslerin daha doğal ve sözlü olduğu da söyleniyor. Geliştiricilerin kullandığı sistem bildirilerini ve komutları, eski modellere kıyasla daha gerçek yorumluyor.

Realtime API birinci çıktığında altı ses seçeneği sunuyordu. Bu sayıyı iki yeni sesle sekize çıkaran OpenAI, artık Marin ve Cedar isminde iki yeni ses daha ekledi. Böylelikle toplam ses sayısı ona ulaştı. Mevcut sekiz ses de daha doğal ve akıcı bir konuşma tecrübesi sunacak biçimde güncellendi.

Yeni model, performans testlerinde de evvelki sürümü geride bırakıyor. Big Bench Audio testinde yüzde 82,8 doğrulukla bir evvelki modelin yüzde 65,6’lık skorunu aştı. MultiChallenge Audio Benchmark testinde ise yüzde 20,6’lık skoru geçerek yüzde 30,5’e ulaştı.

Yeni modelle birlikte Realtime API’ye de güncellemeler geldi. Artık uzaktan MCP sunucularını, görsel girdileri ve SIP (Session Initiation Protocol) üzerinden telefon aramalarını destekliyor. Geliştiriciler, sık kullandıkları komutları artık kaydedip tekrar kullanabiliyor.

OKU: Mercedes, uygun fiyatlı bir G serisi geliştirebilir!

Tüm bu geliştirmelere karşın OpenAI, Realtime API’nin fiyatını düşürdü. gpt-realtime modeli, bir evvelki gpt-4o-realtime-preview’a kıyasla yüzde 20 daha ucuz. 1 milyon ses girdi tokeni 32 dolar, 1 milyon ses çıktı tokeni ise 64 dolar düzeyine indi.