Robust end-to-end synthetic speech detection with deep neural networks and masking
[ X ]
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Adana Alparslan Türkeş Bilim ve Teknoloji Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Bu tez, gürültülü koşullar altında sentetik konuşma algılamanın i-vectörlerinin sağlamlığını artırmak için bir yöntem önermektedir. İ-vectörler, konuşmacı tanıma sistemlerinde yaygın olarak kullanılan sabit uzunluktaki temsillemelerdir. Ancak, performansları gürültü ile bozulmaktadır. Sistemi korumak için, gürültü maskesi üretmek için evrişimsel sinir ağı (CNN) kullanılması önerilmiştir. Bu maske, gürültü tarafından bozulan konuşma spektrogramındaki güvenilmez bölgeleri bastırır. Maske uygulanan spektrogram daha sağlam i-vectörlerin çıkarılması için kullanılır. Deneyler, eklenmiş gürültü, beyaz gürültü ve araba gürültüsü içeren ASVspoof 2015 veri kümesi kullanılarak yapılmıştır. CNN, her spektrogram çerçevesinde sinyal-gürültü oranını tahmin etmek üzere eğitilir. Bu, i-vectör çıkarılmasından önce uygulanan gürültü maskesini oluşturur. Sonuçlar, önerilen maskeleme yaklaşımının standart i-vectörlerle karşılaştırıldığında eşit hata oranlarını %50'den fazla azalttığını göstermektedir. Ancak, performans, CNN eğitimi sırasında görülmeyen araba gürültüsü üzerinde bozulur. Bu, daha çeşitli eğitim gürültü türlerine ihtiyaç duyulduğunu vurgular. Sonuç olarak, spektrogram maskesi kullanma tekniği ile derin öğrenme tabanlı bir CNN, gürültülü koşullarda i-vectörlerin sağlamlığını artırabilir. Gürültü maskesi, güvenilmez bölgeleri bastırmaya yardımcı olarak daha iyi sahtecilik karşıtı performans sağlar. Ancak, maske görünmeyen gürültü türlerine iyi genelleşmez. Genel olarak, çalışma, gürültü altında sahtecilik saldırılarına karşı konuşmacı tanıma sistemlerinin güvenliğini artırmak için derin öğrenmeye dayalı maskelerin potansiyelini göstermektedir. Ancak daha fazla araştırma, çeşitli gürültü koşullarını ele alma konusunda gereklidir.
This thesis proposes a method to improve the robustness of i-vectors for synthetic speech detection under noisy conditions. I-vectors are fixed-length representations commonly used in speaker recognition systems. However, their performance degrades with noise. In order protect the system, using a convolutional neural network (CNN) to generate a noise mask is proposed. This mask suppresses unreliable regions in the speech spectrogram corrupted by noise. The masked spectrogram is then used to extract more robust i-vectors. Experiments use the ASVspoof 2015 dataset with added babble, white, and car noise. The CNN is trained to estimate the signal-to-noise ratio in each spectrogram frame. This generates the noise mask that is applied before i-vector extraction. Results show the proposed masking approach reduces equal error rates by over 50% compared to standard i-vectors from noisy speech. However, performance degrades on car noise which was not seen during CNN training. This highlights the need for more diverse training noise types. In conclusion, the proposed spectrogram masking technique using a CNN can increase robustness of i-vectors for synthetic speech detection in noisy conditions. The noise mask helps suppress unreliable regions to provide improved anti-spoofing performance. However, the mask does not generalize well to unseen noise types. Overall, the study shows potential for deep learning-based masking to improve security of speaker recognition systems against spoofing attacks under noise. But more research is needed into handling diverse noise conditions.
This thesis proposes a method to improve the robustness of i-vectors for synthetic speech detection under noisy conditions. I-vectors are fixed-length representations commonly used in speaker recognition systems. However, their performance degrades with noise. In order protect the system, using a convolutional neural network (CNN) to generate a noise mask is proposed. This mask suppresses unreliable regions in the speech spectrogram corrupted by noise. The masked spectrogram is then used to extract more robust i-vectors. Experiments use the ASVspoof 2015 dataset with added babble, white, and car noise. The CNN is trained to estimate the signal-to-noise ratio in each spectrogram frame. This generates the noise mask that is applied before i-vector extraction. Results show the proposed masking approach reduces equal error rates by over 50% compared to standard i-vectors from noisy speech. However, performance degrades on car noise which was not seen during CNN training. This highlights the need for more diverse training noise types. In conclusion, the proposed spectrogram masking technique using a CNN can increase robustness of i-vectors for synthetic speech detection in noisy conditions. The noise mask helps suppress unreliable regions to provide improved anti-spoofing performance. However, the mask does not generalize well to unseen noise types. Overall, the study shows potential for deep learning-based masking to improve security of speaker recognition systems against spoofing attacks under noise. But more research is needed into handling diverse noise conditions.
Açıklama
Lisansüstü Eğitim Enstitüsü, Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı, Elektrik Elektronik Mühendisliği Bilim Dalı
Anahtar Kelimeler
Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering