Yapay zekâ en güç matematik imtihanından nasıl sonuç aldı? “First Proof” sonuçları tartışma yarattı

Posted by

Bu çıkarım, büyük lisan modellerinin matematiksel araştırma yapma kapasitesini şimdiye dek en kapsamlı halde ölçen “First Proof” isimli meydan okumanın birinci sonuçlarına dayanıyor. 11 seçkin matematikçi tarafından 5 Şubat’ta başlatılan testin sonuçları Sevgililer Günü sabahın erken saatlerinde açıklandı. Yarışa dahil edilen 10 matematik sorununun hangilerinin insan yardımı olmadan çözüldüğünü kesin biçimde söylemek için şimdi erken. Fakat net olan bir şey var: Hiçbir büyük lisan modeli tüm soruları çözmeyi başaramadı.

10 lemma, 1 hafta ve büyük beklenti

First Proof takımı, yapay zekâlara matematikte daha büyük sonuçların önünü açan orta teoremler manasına gelen 10 “lemma” sundu. Bunlar, çalışan bir matematikçinin günlük pratiğinde karşılaşabileceği, yetenekli bir doktora öğrencisine verilebilecek çeşitten sorunlardı. Stanford Üniversitesi matematik profesörü ve First Proof grubu üyesi Mohammed Abouzaid’e nazaran seçilen sorunlar sadece standart tekniklerin bir ortaya getirilmesiyle çözülemeyecek, muhakkak ölçüde özgünlük gerektiren sorulardı.

Meydan okuma, yapay zekânın hudutlarını ortaya koyarken matematik topluluğunda büyüyen bir yapay zekâ meraklısı alt kültüre de ışık tuttu. Matematik odaklı çevrim içi forumlar ve toplumsal medya hesapları, hem tanınmış matematikçilerin hem de bağımsız lisans öğrencilerinin sunduğu kelamda ispatlarla dolup taştı. Ayrıyeten bu süreç, ChatGPT’nin geliştiricisi OpenAI başta olmak üzere yapay zekâ teşebbüslerinin büyük lisan modellerine matematik öğretme konusunu ne kadar ciddiye aldığını da gösterdi.

Abouzaid, gördükleri ağır ilgiden şaşkın olduklarını belirterek, yapay zekâ şirketlerinin bu kadar önemli halde sürece dahil olmasını ve bu kadar emek harcamasını beklemediklerini söyledi.

Güvenli fakat yanılgılı ispatlar

First Proof grubu cumartesi sabahı 10 sorunun tahlilini açıkladı ve büyük lisan modellerini bu soruları çözmeye çalışırken edindikleri tecrübeleri paylaştı. Bulgular dikkat cazipti: Yapay zekâlar her sorun için son derece kendinden emin görünen ispatlar üretebildi. Ama bunlardan sadece ikisi doğruydu; dokuzuncu ve onuncu sorunlara ilişkin tahliller.

Dokuzuncu sorunla neredeyse birebir aynı bir ispatın daha evvel mevcut olduğu ortaya çıktı. Birinci sorun ise “kirlenmiş” durumdaydı; takımın bir üyesi ve 2014 Fields Madalyası sahibi Martin Hairer’ın internet sitesinde ispat taslağı arşivlenmişti. Buna karşın büyük lisan modelleri bu taslaktaki boşlukları doldurmayı başaramadı.

Abouzaid’e nazaran yapay zekâların ürettiği yanlışsız ispatların üslubu da şaşırtıcıydı. Tahliller 19. yüzyıl matematiğini andıran bir üsluba sahipti. Halbuki günümüz matematikçileri 21. yüzyılın matematiğini inşa etmeye çalışıyor.

İnsan katkısı nerede başlıyor, yapay zekâ nerede bitiyor?

Dışarıdan gelen müracaatların performansı da çok farklı görünmedi. Birtakım tahlillerde değişen derecelerde insan katkısı olduğu izlenimi oluştu. Kimi gönderimler, matematikçiler tarafından denetim edilen ve bir haftaya yayılan diyalogların eseri üzereydi. Halbuki First Proof kuralları, insanlardan matematiksel yönlendirme ya da katkı alınmasını açık biçimde yasaklıyordu.

Harvard Üniversitesi’nde Dwight Parker Robinson Matematik Profesörü olan ve First Proof’un kurucularından Lauren Williams, insanların devreye girdiği noktada katkının ne kadarının beşere ne kadarının yapay zekâya ilişkin olduğunu değerlendirmenin güçleştiğini söz etti.

OpenAI ise cumartesi günü kendi çalışmalarını yayımladı. Şirket, en yeni kurum içi modelleriyle ve insan matematikçilerin “uzman geri bildirimi” eşliğinde bir haftalık ağır çalışma yürüttü. OpenAI baş bilim insanı Jakub Pachocki, toplumsal medyada yaptığı paylaşımda 10 tahlilden altısının hakikat olma ihtimalinin yüksek olduğunu düşündüklerini belirtti. Fakat matematikçiler şimdiden bu altı tahlilden en az birinde potansiyel boşluklara işaret etti.

Genel tabloya bakıldığında, gönderimlerin büyük kısmının son derece ikna edici görünen lakin yanılgılı içerikler olduğu anlaşılıyor. Yarış tamamlanmadan evvel bile birinci bakışta emniyetli görünen birtakım tahliller uzmanlar tarafından sorgulanmaya başlanmıştı.

Doğruluk yetmiyor, özgünlük daha da zor

Gönderimlerin uzmanlar tarafından detaylı biçimde incelenmesi günler sürebilir. Bir ispatın yanlışsız olup olmadığını kıymetlendirmek başlı başına zorken, nitekim “özgün” olup olmadığını anlamak daha da güç. First Proof takımında yer almayan Toronto Üniversitesi matematikçisi Daniel Litt’e nazaran matematikte hiçbir şey büsbütün emsalsiz değil.

Abouzaid ise süreci bir deney olarak gördüklerini ve temel maksatlarının geri bildirim toplamak olduğunu belirtti. Grup, daha sıkı kurallara sahip ikinci bir çeşit planladıklarını ve 14 Mart’ta daha fazla detay paylaşacaklarını duyurdu. Yapay zekânın ilerlemesini yakından takip eden kimi matematikçilere nazaran sonuçlar beklentilerle uyumlu. Litt, halka açık modellerden iki ya da üç açıkça gerçek tahlil beklediğini, 10 hakikat tahlilin ise kendisini çok şaşırtacağını tabir etti.

Yine de araştırma düzeyindeki sorunlara yapay zekâdan birkaç geçerli tahlil gelmiş olması bile birkaç ay öncesine kadar mümkün görünmüyordu. Fransa’daki Sorbonne Üniversitesi matematikçisi Scott Armstrong, kimi meslektaşlarının şaşkınlık içinde olduğunu belirterek bu araçların matematiği değiştirmeye başladığını ve bunun şu anda gerçekleştiğini söyledi.

Ancak yapay zekâ muvaffakiyetlerini yakından izleyen herkes tıpkı fikirde değil. Cambridge Üniversitesi lisans öğrencisi Kevin Barreto, modellerin zorlandığını düşündüğünü tabir etti. Barreto, kısa mühlet evvel Macar matematikçi Paul Erdős tarafından ortaya atılan sorunlara atıfla, Erdős sorunlarından birini yapay zekâ yardımıyla çözdüğünü belirtti ve sonuçlar karşısında bir ölçü hayal kırıklığı yaşadığını lisana getirdi.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir