Satya Nadella yaklaşık iki yıl evvel üretken yapay zekânın bilgi temelli işleri devralacağını söylemişti. Ortadan geçen vakte bakıldığında ise bir hukuk ofisinde ya da yatırım bankasında hâlâ insan emeğinin açık orta önde olduğu görülüyor. Akıl yürütme ve planlama tezlerine karşın, eğitim bilgileri üzerine çalışan Mercor tarafından yayımlanan yeni bir araştırma, bunun nedenini net halde ortaya koyuyor: Yapay zekâ, gerçek ofis işlerinin karmaşasıyla baş edemiyor.
“Yerine geçme” teorisine soğuk duş
Mercor’un yayımladığı APEX-Agents isimli yeni kıyaslama testi, şimdiye kadarki alışılmış yapay zekâ ölçümlerinden epey farklı. Şiir yazmak ya da matematik sorunu çözmek yerine, avukatlar, danışmanlar ve bankacılardan alınmış gerçek iş taleplerini temel alıyor. Modellerden, birden fazla adım içeren ve farklı data tipleri ortasında geçiş gerektiren vazifeleri baştan sona tamamlamaları isteniyor.
Ortaya çıkan sonuçlar ise epey çarpıcı. Piyasadaki en gelişmiş modeller ortasında gösterilen Gemini 3 Flash ve GPT-5.2 bile yüzde 25 doğruluk oranını aşamadı. Gemini yüzde 24 ile listenin başında yer alırken, GPT-5.2 yüzde 23’te kaldı. Başka modellerin büyük kısmı ise yüzde 15 civarında takılıp kaldı.
Yapay zekâ neden ofis testinde sınıfta kalıyor?
Mercor CEO’su Brendan Foody, sorunun ham zekâdan çok bağlamla ilgili olduğunu söylüyor. Gerçek hayatta yanıtlar tek bir yerde durmuyor. Bir avukatın bir Slack yazışmasını denetim etmesi, bir PDF siyaset evrakını okuması, bir elektronik tabloya bakması ve akabinde tüm bu bilgileri birleştirerek GDPR uyumluluğu hakkında net bir karşılık vermesi gerekiyor.
İnsanlar bu geçişleri doğal biçimde yapabiliyor. Yapay zekâ ise dağınık kaynaklar ortasında bilgi aramak zorunda kaldığında birçok vakit başı karışıyor, kusurlu sonuçlar üretiyor ya da süreci büsbütün yarıda bırakıyor.
Güven vermeyen stajyer benzetmesi
İşini kaybetmekten tasa edenler için araştırma bir nebze rahatlatıcı. Çalışmaya nazaran yapay zekâ, şu an için tecrübeli bir uzmandan çok, işleri lakin dörtte bir oranında gerçek yapan güvenilmez bir stajyer üzere davranıyor.
Yine de gelişim suratının ürkütücü olduğu vurgulanıyor. Foody’nin paylaştığı bilgilere nazaran bu modeller sırf bir yıl evvel yüzde 5 ile 10 ortasında skorlar alıyordu. Bugün yüzde 24 düzeyine ulaşmış durumdalar. Yani direksiyon başına geçmeleri şimdi mümkün değil, lakin öğrenme suratları varsayım edilenden çok daha yüksek. Şimdilik bilgi işi ihtilali, yapay zekâ çoklu vazife yapmayı öğrenene kadar beklemede kalacak üzere görünüyor.







Bir yanıt yazın