Taalas’tan yapay zekâ çiplerinde ihtilal yaratabilecek mimari: GPU’lardan 100 kat daha süratli

Posted by

Yapay zekâ donanımı denildiğinde bugün akla birinci olarak GPU’lar geliyor. Bilhassa Nvidia ve AMD üzere şirketlerin ürettiği grafik işlemciler, hem yapay zekâ hem de yüksek performanslı hesaplama (HPC) tarafında fiilî standart hâline gelmiş durumda. Öbür yandan Google’ın TPU’ları ve büyük bulut sağlayıcılarının geliştirdiği özel yapay zekâ ASIC’leri ise daha dar fakat daha verimli kullanım senaryolarında öne çıkıyor. Lakin son günlerde isminden kelam ettirmeye başlayan Taalas isimli teşebbüs, yavaş yavaş kemikleşmeye başlayan dalda tüm istikrarları alt üst edebilir.

Taalas, Her Model İçin Özel Bir Çip Tasarlayarak Performansı Tepeye Taşıyor

Yaklaşık iki buçuk yıl evvel kurulan Taalas, “Hardcore AI” ismini verdiği mimariyle yapay zekâ modellerini direkt silikona gömmeyi öneriyor. Şirketin yaklaşımı, bir modeli GPU üzerinde çalıştırmak yerine, o modelin parametrelerini ve yüklerini fizikî olarak çipe “gömmek” üzerine konseyi. Yani klasik manada yazılımın donanım üzerinde çalışması yerine, modelin kendisi donanım hâline geliyor. Bu yaklaşım ile ortaya çıkarılan birinci eser olan HC1 isimli ASIC (Application-Specific Integrated Circuit, yani makul bir emele özel tasarlanmış entegre devre), sahiden etkileyici bir performans ortaya koyuyor.

Bugün yapay zekâ tarafında en önemli tahlil hâline gelen GPU’lar, görece esnek platformlar sunuyor ve farklı modelleri, farklı iş yüklerini çalıştırabiliyor. Lakin bu esneklik performans ve verimlilikten fedakârlık manasına gelir. Öte yandan sadece makul yapay zekâ iş yükleri için tasarlanan ASIC’ler çok daha verimli olabiliyor, fakat genel maksatlı kullanımda yetersiz kalıyor. Taalas ise bu özelleşmeyi bir adım daha ileri taşıyor: Her çip sırf tek bir model için tasarlanıyor.

Taalas, Kendi Çiplerinin GPU’lardan 100 Kat Daha Süratli Olduğunu Argüman Ediyor

İlk örnek, Meta’nın açık kaynaklı Llama 3.1 8B modeli üzerine inşa edilmiş. Şirket, yeni bir model çıktığında bu modele özel donanımı iki ay içinde üretebildiğini söylüyor. Bu argüman doğruysa, klasik yarı iletken geliştirme döngülerine kıyasla son derece agresif bir takvimden kelam ediyoruz.

Taalas’ın paylaştığı datalara nazaran HC1, Llama 8B modelini saniyede 14.357 token suratında çalıştırabiliyor ve birtakım uzun cevapları 0,138 saniye üzere müddetlerde üretebiliyor. Şirket, bu performansın mevcut en süratli çıkarım (inference) platformlarından biri olan Cerebras tahlillerinden 10 kat, GPU’lardan ise iki büyüklük mertebesi, yani neredeyse yüz kat daha süratli olduğunu öne sürüyor.

Verimlilik tarafı da en az performans kadar savlı. Llama 8B için milyon token başına maliyetin 0,75 cent düzeyinde olduğu belirtiliyor. GPU tarafında benzeri iş yükleri için bu maliyet onlarca cente kadar çıkabiliyor. Şayet Taalas tarafından öne sürülen bu sayılar doğruysa, bilgi merkezleri için önemli bir maliyet avantajı manasına gelebilir.

Diğer yandan güç tüketimi de değerli bir başlık. Günümüzde bir GPU rack’i (rafı) 120 ila 600 kW ortasında güç tüketebilirken, Taalas’ın sistemlerinin 12–15 kW düzeyinde çalıştığı belirtiliyor. Ayrıyeten hava soğutma ile yetinebilmesi, sıvı soğutma gerektiren mevcut altyapılara kıyasla kıymetli bir operasyonel avantaj sağlayabilir.

Paylaşılan tüm bu bilgilerden görebileceğiniz üzere Taalas son derece savlı geliyor. Ancak doğal argümanlar bu kadar “inanılmaz” olunca, ister istemez insan daha fazla delil görmek istiyor. Bu yüzden Taalas hakkında kesin bir karara varmadan evvel bağımsız kaynaklardan gelecek bilgileri de görmek gerekiyor. Ama Taalas bu vadettiklerinin yarısını bile yapsa kesimde kalıcı bir güç hâline gelebilir.

Taalas’ın Mimarisi Aşikâr Handikaplara da Sahip

Diğer yandan bu yeni mimarinin bariz bir handikapı da var. Esneklik neredeyse yok denecek kadar az. Bildiğiniz üzere data merkezleri çoklukla çok sayıda farklı modeli ve iş yükünü birebir altyapı üzerinde çalıştırıyor. Her model için farklı bir “Hardcore AI” çipi kullanmak, envanter idaresinden bakım süreçlerine kadar ciddi bir operasyonel karmaşıklık yaratabilir.

Model güncellemeleri de başka bir soru işareti. Büyük lisan modelleri çoklukla 12–18 ay aralıklarla kıymetli sürüm güncellemeleri alıyor. Taalas, sırf iki metal katmanını değiştirerek çipi iki ay içinde güncelleyebileceğini söylüyor. Bu, tam bir tekrar tasarım yerine kısmi bir revizyon manasına geliyor. Lakin tekrar de bilgi merkezlerinin donanım filolarını bu kadar sık yenilemeye ne kadar sıcak bakacağı bilinmeyen.

Bununla birlikte; Meta, xAI, OpenAI üzere dalın ağır topları klasik AI çiplerine şimdiden kıymetli yatırımlar yapmış durumda. Meta’nın yakın vakitte Nvidia ile çok nesilli bir iş birliği muahedesi yapması, büyük oyuncuların hâlâ genel gayeli hızlandırıcıları merkezde tuttuğunu gösteriyor. Bu da Taalas’ın yaklaşımının teknik olarak etkileyici olsa bile, pazar tarafından çabucak benimsenmeyebileceğine işaret ediyor.

Tüm bu soru işaretlerine karşın Taalas’ın yaklaşımının sahiden ilgi alımlı olduğu yadsınamaz. Şayet birkaç büyük oyuncu bu mimariyi manalı ölçekte benimserse, bölüm istikrarları sahiden değişebilir. Lakin aksi durumda HC1, performans açısından çığır açıcı olsa bile niş bir tahlil olarak kalabilir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir