Nvidia’dan gerçek vakitli, çift istikametli konuşma için yeni yapay zeka: PersonaPlex

Posted by

–

Ocak 25, 2026

Her şey tek modelde

Geleneksel sesli asistanlar konuşmayı metne çeviren ASR, karşılığı üreten lisan modeli ve sesi tekrar üreten TTS bileşenlerinden oluşan çok etaplı bir yapı kullanıyor. Bu yaklaşım her etapta gecikmeye yol açarken tıpkı anda konuşma, kelam kesme yahut doğal geri bildirimler üzere insan konuşmasının temel özelliklerini desteklemekte yetersiz kalıyor.

PersonaPlex, bu çok katmanlı zinciri ortadan kaldırarak tek bir Transformer modeli içinde hem konuşmayı anlamayı hem de konuşma üretimini eş vakitli olarak gerçekleştiriyor. Model, sinirsel bir codec ile kodlanmış daima ses akışı üzerinde çalışıyor ve metin ile ses token’larını birebir anda otoregresif biçimde üretiyor. Kullanıcının sesi anlık olarak işlenirken model, kendi konuşmasını da eş vakitli sürdürebiliyor. Bu sayede kelam kesme, üst üste konuşma ve bağlama uygun geri bildirimler mümkün hale geliyor.

PersonaPlex, biri kullanıcı sesini, başkası ise casus konuşmasını ve metni izleyen iki paralel akıştan oluşan bir yapı kullanıyor. Her iki akış birebir model durumunu paylaştığı için sistem, konuşurken dinlemeye devam edebiliyor ve kullanıcı ortaya girdiğinde karşılığını anında uyarlayabiliyor.

7 milyar parametreden oluşuyor

Bununla birlikte PersonaPlex’in eğitimi tek etapta gerçekleştirildi ve gerçek konuşmalar ile sentetik diyalogların istikrarlı bir karışımına dayanıyor. Gerçek bilgiler, Fisher English Corpus’tan alınan 7.303 telefon görüşmesi, yani yaklaşık 1.217 saatlik konuşmadan oluşuyor. Bu konuşmalar GPT-OSS-120B kullanılarak persona ve bağlam yönlendirmeleriyle geriye dönük biçimde etiketlendi. Bu data seti, doğal duraksamalar, dolgu sesleri, duygusal reaksiyonlar ve geri bildirimler üzere TTS ile üretmesi sıkıntı olan ögeleri modele kazandırıyor. Sentetik tarafta ise 39.322 asistan diyaloğu (yaklaşık 410 saat) ve 105.410 müşteri hizmetleri diyaloğu (yaklaşık 1.840 saat) yer alıyor. Metinler Qwen3-32B ve GPT-OSS-120B tarafından üretildi, seslendirme ise Chatterbox TTS ile yapıldı. PersonaPlex-7B-v1, MIT lisansı altında kod, Nvidia Open Model License kapsamında ise model tartılarıyla yayımlanmış durumda. Kaynakça kısmından ulaşabilirsiniz.

Konuşma, Model, Modeli, Persona, Ses

admin

My Blog

Category Name

Meta, AI modellerinin eğitimi için özel işlemci geliştirecek

Ünlü profesörden kritik ihtar: İran savaşı “AI balonu”nun patlamasına yol açabilir

Microsoft, kimlik doğrulama uygulamasında güvenliği artırıyor

Recent Posts

Meta, AI modellerinin eğitimi için özel işlemci geliştirecek

Ünlü profesörden kritik ihtar: İran savaşı “AI balonu”nun patlamasına yol açabilir

Microsoft, kimlik doğrulama uygulamasında güvenliği artırıyor

En tehlikeli asteroid unvanını almıştı: 2024 YR4 için rahatlatan haber

Meta, AI modellerinin eğitimi için özel işlemci geliştirecek

Ünlü profesörden kritik ihtar: İran savaşı “AI balonu”nun patlamasına yol açabilir

Microsoft, kimlik doğrulama uygulamasında güvenliği artırıyor

Meta, AI modellerinin eğitimi için özel işlemci geliştirecek

Ünlü profesörden kritik ihtar: İran savaşı “AI balonu”nun patlamasına yol açabilir

Microsoft, kimlik doğrulama uygulamasında güvenliği artırıyor

Nvidia’dan gerçek vakitli, çift istikametli konuşma için yeni yapay zeka: PersonaPlex

Bir yanıt yazın Yanıtı iptal et

Recent Posts

Categories