
Google, yapay zeka modellerini daha yetenekli hale getirmek için çalışmalarına sürat kesmeden devam ediyor. Teknoloji devi, Gemini 3 Flash modeli için “Agentic Vision” (Ajan Görüşü) ismini verdiği yeni ve güçlü bir yetenek duyurdu. Bu yeni özellik, görsellerle ilgili misyonların çok daha yanlışsız ve muteber bir biçimde yerine getirilmesini sağlamayı amaçlıyor. Sistem, kullanıcılara verdiği karşılıkları kestirimlere değil, direkt görsel ispatlara dayandırarak çalışıyor ve bu sayede yanılgı hissesini en aza indirmeyi hedefliyor.
Yapay Zekada Yeni Devir: Gemini Artık Görselleri Kodla Tahlil Ediyor
Standart yapay zeka modelleri, dünyayı ekseriyetle tek ve sabit bir bakışla işlemeye çalışır. Şayet model, bir mikroçip üzerindeki seri numarası yahut uzaktaki bir tabela üzere ince bir ayrıntısı gözden kaçırırsa, sonucu mecburen varsayım etmek zorunda kalır. Lakin Google’ın bu yeni yaklaşımı, görme aksiyonunu pasif bir süreçten çıkarıp “aktif bir soruşturma” olarak ele alıyor. Model, yalnızca bakmakla yetinmiyor; görsel akıl yürütme yeteneğini kod çalıştırma araçlarıyla birleştirerek imgeyi ayrıntılıca tahlil ediyor.
Gemini 3 Flash, görsel içeren komutları en güzel halde yanıtlamak için manzaraları yakınlaştırma, inceleme ve sürece üzere adım adım planlar oluşturuyor. Bu süreçte bilhassa “Düşün, Hareket Et, Gözlemle” döngüsünden yararlanılıyor. Model evvel kullanıcının isteğini tahlil edip bir plan yapıyor, akabinde Python kodu kullanarak imgeyi kırpma, döndürme yahut tahlil etme üzere aksiyonları gerçekleştiriyor. Son olarak, dönüştürülen imgeyi bağlamına oturtarak sonuncu cevabı oluşturmadan evvel tekrar inceliyor.
Model, kendisine verilen bir manzarayı yalnızca kelamlı olarak tanımlamakla kalmıyor, tıpkı vakitte akıl yürütme sürecini temellendirmek için doğrudan tuval üzerine çizim yapabiliyor. Örneğin, bir eldeki parmakları sayarken kusur yapmamak için her parmağın üzerine sınırlayıcı kutular ve sayısal etiketler ekleyebiliyor. Bu “görsel karalama defteri” tekniği, karşılığın piksel seviyesinde harika olmasını ve sayım kusurlarının önüne geçilmesini sağlıyor. Ayrıyeten model, ince ayrıntıları tespit ettiğinde otomatik olarak yakınlaştırma yapabiliyor ve ağır bilgi içeren tabloları tahlil edebiliyor.

Standart lisan modelleri karmaşık görsel matematiksel süreçlerde sıklıkla kusur yapabilirken, Gemini 3 Flash hesaplamaları deterministik bir Python ortamına aktararak bu sorunu büyük ölçüde aşıyor. Bu sayede olasılıksal varsayımların yerini doğrulanabilir ve kesin işlemler alıyor. Agentic Vision, birden fazla görsel testte %5 ila %10 ortasında dengeli bir kalite artışı sağlıyor. Bu özellik şu anda geliştiriciler için Google AI Studio ve Vertex AI üzerinden erişilebilir durumda ve Gemini uygulamasına da sunulmaya başlandı. Gelecekte ise web araması ve bilakis görsel arama üzere araçlarla modelin dünyayı manaya yeteneğinin daha da genişletilmesi planlanıyor.
Yapay zekanın görselleri yalnızca görmeyip, onlar üzerinde etkin süreç yapabilmesi ve kod çalıştırarak tahlil etmesi hakkında siz ne düşünüyorsunuz? Sizce bu özellik en çok hangi alanlarda işimize yarayacak?





