Ejderha peşindeki AI: Yapay zekayı Dungeons & Dragons masasına “oturttular”

Posted by

Yapay zekanın sonlarını test etmek isteyen araştırmacılar, bu kere alışılmış imtihan kağıtlarını bir kenara bırakıp rotayı fantastik bir dünyaya çevirdi. UC San Diego’dan bir grup, büyük lisan modellerinin karmaşık kurallara uyma, strateji geliştirme ve uzun vadeli planlama yeteneklerini ölçmek için onları tanınan masaüstü rol yapma oyunu Dungeons & Dragons (D&D – Zindanlar ve Ejderhalar) “masasına” oturttu.

Yapay zeka araştırmalarında genelde kısa vadeli performanslara odaklanılsa da, bu deneyle birlikte yazılımların bağımsız hareket etme ve uzun müddetli vazifeleri takip etme maharetleri mercek altına alındı.

Dungeons & Dragons, yapay zeka için aslında epeyce şiddetli bir imtihan alanı sayılıyor. Oyunun büsbütün diyaloglar üzerinden yürümesi, çok adımlı planlar gerektirmesi ve sıkı kurallara bağlı kalma mecburiliği, modellerin yeteneklerini sonuna kadar zorluyor. Araştırmacılar, bu deney sırasında “halüsinasyon” olarak isimlendirilen uydurma bilgileri en aza indirmek için özel bir oyun motoru kullandı. Bu motor, haritaları ve kaynakların yerini net bir biçimde belirleyerek yapay zekaya somut bir taban sundu. Yapay zeka casusları, hem oyuncu karakterlerini hem de canavarları yöneterek kendi ortalarında oynamanın yanı sıra, 2 bin civarında tecrübeli insan oyuncuya karşı da oynadılar. Daha sonra, yaşananları ne kadar yeterli takip ettiklerine nazaran puanlar aldılar.

Rolünün hakkını ziyadesiyle veren kahramanlar

Araştırmanın en değişik sonuçları, modellerin “rol yapma” kısımlarında ortaya çıktı. Yapay zeka modelleri bazen karakterlerine o kadar daldı ki, ortaya absürt ve tiyatral sahneler çıktı. Örneğin, Paladin karakterleri en alakasız anlarda kahramanlık nutukları atarken, Warlock‘lar durum hiç gerektirmediği halde çok dramatik reaksiyonlar verdi. Dövüşler sırasında goblinleri yöneten modeller ise “Heh, parlak adam kanayacak” üzere tekrara düşen ve bazen hudut bozucu olan kalıpları sayıkladı. Modeller ortasında da besbelli farklar gözlemlendi. Claude Haiku 3.5 karakter sınıfına nazaran konuşma şeklini değiştirmede en başarılı model olurken, GPT-4o taktiksel tahlil ile canlı sahne betimlemeleri ortasında bir istikrar kurdu.

Genel tabloya bakıldığında, devasa lisan modelleri kurallara dayalı bu simülasyonda umut verici bir performans sergiledi fakat önemli bir sorun hala geçerliliğini koruyor. Senaryo uzadıkça ve oyun saatler süren bir maratona dönüştükçe, tüm modellerde kademeli bir performans düşüşü yaşandı. Küçük ve açık kaynaklı modeller ise şimdi bu stil dengeli simülasyonları yürütecek düzeye ulaşamadı.

Araştırma takımı, bir sonraki kademede yalnızca dövüşlere değil, oyunun tüm öykü akışına odaklanan tam bir kampanya yürütmeyi planlıyor. Görünüşe nazaran yapay zekanın gerçek bir “zindan efendisi” olması için hala katetmesi gereken bir yol var.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir