OpenAI, yeni yapay zekasının sadece 15 saniyelik bir ses klibini dinleyerek ses klonu oluşturabileceğinin iddiasında bulunuyor.

OpenAI, 15 Saniyelik Sesi Kullanarak Klonlama Yapabilecek

1 Nisan 2024
1 Nisan 2024
3dk okuma
Yorum Yok

Artık hiçbir insan deepfake (medyada yer alan bir öğenin yapay sinir ağlarını kullanarak başka kişinin görüntüsüyle karıştırılmasına denir) videolara karşı güvende değil: Yapay zeka firması OpenAI, yeni yapay zekasının sadece 15 saniyelik bir ses klibini dinleyerek ses klonu oluşturabileceğinin iddiasında bulunuyor.

AI ile oluşturulmuş video görüntüleri herkesin korkulu rüyası olmaya devam etmekte. Fakat en azından konuşma sırasında sesteki takılmalar gerçek video ile sahte videoyu ayırt etmeyi mümkün kılabilmekteydi. Artık Ne yazıktır ki o şansımızı da kaybetmek üzereyiz diyebiliriz.

OpenAI şirketi kısa bir süre önce Voice Engine adlı yeni bir aracın küçük ölçekli bir demosunu çalıştırdığını duyurmuştu. Bu demo ile 15 saniyelik bir ses örneğini analiz ederek herhangi bir konuşmacıyı taklit edebilen bir ses klonlama teknolojisini geliştirdi. Firma, “duygusal ve gerçekçi sesler” ile “kulağa doğal gelen konuşma” ürettiğini belirtti. Bu durumda yapay zeka ile deepfake videolar çağının artık geniş kitlelere açıldığının ilk gösterimi olabilir.

Bu teknoloji, şirketin önceden geliştirdiği “metinden konuşmaya” API’sine dayanmakta ve 2022 yılından beri üzerinde çalışılmakta. OpenAI şirketi, mevcut “metinden konuşmaya” API’siyle “sesli okuma” sistemini birleştirerek zaten yapay zeka ile sesler ya da konuşmalar üretebilmekteydi. Fakat şimdi yapay zekanın bir başkasının sesini dinleyip, aynı sesi taklit ederek konuşması mümkün olabilecek.

Konuşma Bozukluklarına Çözüm Sunabilir

OpenAI şirketi, bu teknolojinin okuma yardımı, dil çevirisi veya dejeneratif konuşma koşullarından mustarip olanlara yardımcı olmak için yararlı olduğunu düşündüklerini ifade ediyor. Bu teknolojiye iyi niyetli bir yaklaşım sunuyor. Elbette bilimekteyiz ki, kötü niyetli insanlar, başkalarının seslerini taklit ederek dolandırıcılıktan iftiraya kadar sayısız mağduriyet yaratmak için bu teknolojiyi seve seve kullanabilir. Halihazırda sesi sosyal medyada var olan kişilerin, titreyerek sarsılmaması ve anksiyete krizlerine girmemesi için hiçbir neden bulunmuyor.

OpenAI firması şimdilik bu teknolojiyi, konuşma bozuklukları olan insanlar için kendi sesleriyle yapay konuşmalar üretmelerine yardımcı olmak için üniversitelerle geliştirmeyi planlamakta ama eninde sonunda teknolojinin halka açık hale gelmesi çok uzun sürmeyecektir.