Nvidia’dan gerçek vakitli, çift istikametli konuşma için yeni yapay zeka: PersonaPlex

Posted by

Nvidia araştırmacıları doğal, kesintisiz ve gerçek vakitli sesli etkileşimleri hedefleyen yeni konuşma modeli PersonaPlex-7B-v1’i duyurdu. Tam çift yönlü yapıda geliştirilen bu model, konuşma sırasında hem dinleyip hem de konuşabilme yeteneğiyle klasik sesli asistan mimarilerinden ayrılıyor. PersonaPlex, bilhassa doğal diyalog akışı, hassas persona denetimi ve düşük gecikme gerektiren kullanım senaryolarında öne çıkıyor.

Her şey tek modelde

Geleneksel sesli asistanlar konuşmayı metne çeviren ASR, karşılığı üreten lisan modeli ve sesi tekrar üreten TTS bileşenlerinden oluşan çok etaplı bir yapı kullanıyor. Bu yaklaşım her etapta gecikmeye yol açarken tıpkı anda konuşma, kelam kesme yahut doğal geri bildirimler üzere insan konuşmasının temel özelliklerini desteklemekte yetersiz kalıyor.

PersonaPlex, bu çok katmanlı zinciri ortadan kaldırarak tek bir Transformer modeli içinde hem konuşmayı anlamayı hem de konuşma üretimini eş vakitli olarak gerçekleştiriyor. Model, sinirsel bir codec ile kodlanmış daima ses akışı üzerinde çalışıyor ve metin ile ses token’larını birebir anda otoregresif biçimde üretiyor. Kullanıcının sesi anlık olarak işlenirken model, kendi konuşmasını da eş vakitli sürdürebiliyor. Bu sayede kelam kesme, üst üste konuşma ve bağlama uygun geri bildirimler mümkün hale geliyor.

PersonaPlex, biri kullanıcı sesini, başkası ise casus konuşmasını ve metni izleyen iki paralel akıştan oluşan bir yapı kullanıyor. Her iki akış birebir model durumunu paylaştığı için sistem, konuşurken dinlemeye devam edebiliyor ve kullanıcı ortaya girdiğinde karşılığını anında uyarlayabiliyor.

7 milyar parametreden oluşuyor

PersonaPlex-7B-v1, toplam 7 milyar parametreye sahip ve Moshi ağ mimarisini temel alıyor. Model, hem giriş hem de çıkış tarafında 24 kHz se işleyebiliyor. Lisan modeli altyapısında Nvidia’nın Helium modeli yer alıyor. Helium, modelin yalnızca eğitim senaryolarıyla sonlu kalmayıp, yeni ve beklenmedik durumlarda da anlamsal tutarlılık göstermesini sağlıyor.

Bununla birlikte PersonaPlex’in eğitimi tek etapta gerçekleştirildi ve gerçek konuşmalar ile sentetik diyalogların istikrarlı bir karışımına dayanıyor. Gerçek bilgiler, Fisher English Corpus’tan alınan 7.303 telefon görüşmesi, yani yaklaşık 1.217 saatlik konuşmadan oluşuyor. Bu konuşmalar GPT-OSS-120B kullanılarak persona ve bağlam yönlendirmeleriyle geriye dönük biçimde etiketlendi. Bu data seti, doğal duraksamalar, dolgu sesleri, duygusal reaksiyonlar ve geri bildirimler üzere TTS ile üretmesi sıkıntı olan ögeleri modele kazandırıyor. Sentetik tarafta ise 39.322 asistan diyaloğu (yaklaşık 410 saat) ve 105.410 müşteri hizmetleri diyaloğu (yaklaşık 1.840 saat) yer alıyor. Metinler Qwen3-32B ve GPT-OSS-120B tarafından üretildi, seslendirme ise Chatterbox TTS ile yapıldı. PersonaPlex-7B-v1, MIT lisansı altında kod, Nvidia Open Model License kapsamında ise model tartılarıyla yayımlanmış durumda. Kaynakça kısmından ulaşabilirsiniz.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir