Google AudioPaLM Yeni Bir Devri Başlatıyor

26 Haziran 2023
26 Haziran 2023
2dk okuma
Yorum Yok
AudioPaLM Google

Google araştırmacıları dinleyebilme özelliğine sahip, konuşabilen ve çevirebilen yeni bir dil modeli olan AudioPaLM ile bizlerin karşısına çıktı.

Yapay zeka teknolojisi sürekli olarak gelişmeler gösteriyor. Birçok kişide, yapay zekanın ödevlerine yardım etmesi gibi alanlarda kullanımını deneyimini yaşarken, yapay zeka artık çok daha fazla şey yapabilecek hale geliyor. Google, yapay zekanın potansiyelini tam anlamıyla ortaya çıkarmak için uzun yıllardır çalışmalarına ara vermeden devam ediyor. İnternet devi Google, AudiPaLM adını taşıyan yeni bir dil modelini tanıttı. Bu model, dinleyebilme, konuşabilme ve çeviri yapabilme yetenekleri ile birçok konuda ayrışan ve benzeri görülmemiş bir doğruluk sunuyor.

Google araştırmacıları, AudioPaLM ismi verilmiş olan yeni bir dil modelini tanıttı. Bu model, inanılmaz bir doğrulukla karşımıza çıkıyor. Dinleyebilme, konuşabilme ve çeviri yapabilme yeteneklerine sahip durumda. AudioPaLM, PaLM-2 ve AudioLM olmak üzere iki mevcut modelin güçlü yönlerini birleştiren bir çok modlu bir sistem olarak geliştirilmesini sağladı.

AudioPaLM iki modelin birleşmesi ile çıkıyor

PaLM-2, metin tabanlı bir dil modelidir ve dilbilgisini anlama konusunda çok iyidir. AudioLM ise paralinguistik bilgileri koruma açısından mükemmel bir performans gösteren bir ses tabanlı dil modelidir. AudioPaLM, bu iki modelin birleştirilmesi ile birlikte, PaLM-2’nin dil uzmanlığından ve AudioLM’nin dilbilimsel bilgi korumasından faydalanıp hem metin hem de konuşmanın daha kapsamlı bir şekilde anlaşılmasına ve üretilmesine olanak sağlıyor.

AudioPaLM, hem konuşmayı hem de metni temsil etmesi için sınırlı sayıda olacak şekilde ayrık belirteç kullanır ve ortak bir kelime dağarcığına dayanıyor. Bu da, konuşmayı tanıma, metin okuma sentezi ve konuşmadan konuşmaya çeviri gibi görevlerin tek bir yapı ve eğitim süreci içinde birleştirilebilmesini sağlamış oluyor..

AudioPaLM, konuşma çevirisi alanında diğer sistemlerle karşılaştırma yapıldığı zaman daha iyi performans sunuyor. Dil kombinasyonları için zero-shot speech-to-text çevirisi yapabilir ve kısa konuşulan cümlelerle farklı diller arasında ses aktarımı sağlar.

Ayrıca farklı dillerdeki çeşitli sesleri yakalayabilir ve yeniden üretebilme özelliği de bulunuyor.