Konuşmacı Tanıma Sistemlerinde Güvenliğin Ve Gürbüzlüğün Artırılmasına Yönelik Derin Öğrenme Tabanlı Yöntemlerin Geliştirilmesi
[ X ]
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Bu proje, gelişen teknolojiler nedeniyle konuşmacı tanıma sistemleri için güvenlik açığı oluşturan sentezlenmiş konuşmaların ve tekrar-çal saldırılarının tespit edilmesine odaklanmıştır. ASVspoof organizasyonuna ait 2015 ? 2021 yılları arasında sunulan dört veri tabanı kullanılmıştır. Bu veri tabanları çeşitli sayıda konuşma sentezleme, konuşma çevirme, tekrar-çal (kaydedilen sesi oynatma) saldırıları içermektedir. Ayrıca literatüre uygun olarak NOISEX-92 ve QUT-NOISE veri setlerinden eklenebilir gürültü örnekleri kullanılmıştır. Böylece gürültü altında da sahte konuşma tespiti yapabilen gürbüz sistemlerin geliştirilmesi amaçlanmıştır. Kullanılan yöntemlerden biri, konuşmacı tanıma sistemlerinde de yüksek performans gösteren i-vector yöntemidir. Bu vektörler, farklı uzunluktaki konuşma verilerinin düşük boyutlu ve sabit uzunluklu temsilleridir. Gürbüz i-vectorler elde etmek amacıyla denoising autoencoder adı verilen derin öğrenme modeli kullanılarak gürültülü vektörlerin temiz vektörlere benzetimi sağlanmıştır. Farklı bir yöntem olarak, gürültü maskesi uygulanarak i-vectorlerin çıkarımı aşamasında gürbüzlük elde edilmiştir. Derin öğrenme modellerinin konuşmacı tanıma ve sahte konuşma tespiti çalışmalarındaki başarılı sonuçlar göz önüne alınarak evrişimsel (konvolüsyonel) sinir ağları (CNN) içerikli karmaşık mimariler de kullanılmıştır. Diferansiyel CNN kullanarak gürültü maskesi elde edilmiş ve bu alandaki en iyi çalışmalarla kıyaslanabilecek düzeyde başarı yakalanmıştır. Delta konvolüsyonu algoritması ve buna uygun filtreler geliştirilmiştir. Bu yeni yaklaşımın geleneksel kepstral özniteliklerle de ham ses verisi ile de çalışabildiği gösterilmiştir. Benzer modellerin öğrenebilen parametre sayısını büyük oranda azaltırken performansta kazanç sağlanabildiği gösterilmiştir. Çapraz veri testlerinde literatürdeki en iyi sonuçlardan birine ulaşılmıştır.
Açıklama
01.08.2023
Anahtar Kelimeler
Derin öğrenme, Evrişimsel sinir ağları, Sahte konuşma tanıma