Використання ембедінгів голосу в інтегрованих системах для діаризації мовців та виявлення зловмисників

dc.citation.epage66
dc.citation.issue1
dc.citation.journalTitleКомп'ютерні системи та мережі
dc.citation.spage54
dc.citation.volume6
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.authorЗаєць, І. С.
dc.contributor.authorБридінський, В. А.
dc.contributor.authorСабодашко, Д. В.
dc.contributor.authorХома, Ю. В.
dc.contributor.authorРуда, Х. С.
dc.contributor.authorШвед, М. Є.
dc.contributor.authorZaiets, I.
dc.contributor.authorBrydinskyi, V.
dc.contributor.authorSabodashko, D.
dc.contributor.authorKhoma, Yu.
dc.contributor.authorRuda, Kh.
dc.contributor.authorShved, M.
dc.coverage.placenameЛьвів
dc.coverage.placenameLviv
dc.date.accessioned2025-12-10T13:53:05Z
dc.date.created2024-06-20
dc.date.issued2024-06-20
dc.description.abstractУ цій роботі досліджується використання систем діаризації, які застосовують передові алгоритми машинного навчання для точного виявлення та розділення різних спікерів в аудіозаписах для реалізації системи виявлення зловмисників. Порівнюються декілька передових моделей діаризації, зокрема NeMo від Nvidia, Pyannote та SpeechBrain. Ефективність цих моделей оцінюється за допомогою типових метрик, що використову- ються для систем діаризації, таких як коефіцієнт помилки діаризації (DER) та коефіцієнт помилки Жакара (JER). Система діаризації була протестована в різних аудіоумовах. Це, зокрема, зашумлене середовище, чисте середовище, мала кількість спікерів та велика кількість спікерів. Встановлено, що Pyannote проявляє найкращу продуктивність з погляду точності діаризації, тому саме її було обрано для реалізації системи виявлення зловмисників. Цю систему додатково оцінено на власному наборі даних, що ґрунтується на українських подкастах, і було встановлено, що система працює з показником чутливості 100 % та точністю 93,75 %. Це означає, що система не пропустила жодного злочинця з набору даних, але іноді неправильно ідентифікувала особу, яка не є злочинцем. Ця система виявилася ефективною та гнучкою для завдань виявлення зловмисників в аудіофайлах із різним розміром та кількістю присутніх спікерів.
dc.description.abstractThis paper explores the use of diarization systems which employ advanced machine learning algorithms for the precise detection and separation of different speakers in audio recordings for the implementation of an intruder detection system. Several state-of-the-art diarization models including Nvidia’s NeMo, Pyannote and SpeechBrain are compared. The performance of these models is evaluated using typical metrics used for the diarization systems, such as diarization error rate (DER) and Jaccard error rate (JER). The diarization system was tested on various audio conditions, including noisy environment, clean environment, small number of speakers and large number of speakers. The findings reveal that Pyannote delivers superior performance in terms of diarization accuracy, and thus was used for implementation of the intruder detection system. This system was further evaluated on a custom dataset based on Ukrainian podcasts, and it was found that the system performed with 100 % recall and 93,75 % precision, meaning that the system has not missed any criminal from the dataset, but could sometimes falsely detect a non-criminal as a criminal. This system proves to be effective and flexible in intruder detection tasks in audio files with different file sizes and different numbers of speakers which are present in these audio files.
dc.format.extent54-66
dc.format.pages13
dc.identifier.citationВикористання ембедінгів голосу в інтегрованих системах для діаризації мовців та виявлення зловмисників / І. С. Заєць, В. А. Бридінський, Д. В. Сабодашко, Ю. В. Хома, Х. С. Руда, М. Є. Швед // Комп'ютерні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 1. — С. 54–66.
dc.identifier.citation2015Використання ембедінгів голосу в інтегрованих системах для діаризації мовців та виявлення зловмисників / Заєць І. С. та ін. // Комп'ютерні системи та мережі, Львів. 2024. Том 6. № 1. С. 54–66.
dc.identifier.citationenAPAZaiets, I., Brydinskyi, V., Sabodashko, D., Khoma, Yu., Ruda, Kh., & Shved, M. (2024). Vykorystannia embedinhiv holosu v intehrovanykh systemakh dlia diaryzatsii movtsiv ta vyiavlennia zlovmysnykiv [Utilization of voice embeddings in integrated systems for speaker diarization and malicious actor detection]. Computer Systems and Networks, 6(1), 54-66. Lviv Politechnic Publishing House. [in Ukrainian].
dc.identifier.citationenCHICAGOZaiets I., Brydinskyi V., Sabodashko D., Khoma Yu., Ruda Kh., Shved M. (2024) Vykorystannia embedinhiv holosu v intehrovanykh systemakh dlia diaryzatsii movtsiv ta vyiavlennia zlovmysnykiv [Utilization of voice embeddings in integrated systems for speaker diarization and malicious actor detection]. Computer Systems and Networks (Lviv), vol. 6, no 1, pp. 54-66 [in Ukrainian].
dc.identifier.doiDOI: https://doi.org/10.23939/csn2024.01.054
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/123953
dc.language.isouk
dc.publisherВидавництво Львівської політехніки
dc.publisherLviv Politechnic Publishing House
dc.relation.ispartofКомп'ютерні системи та мережі, 1 (6), 2024
dc.relation.ispartofComputer Systems and Networks, 1 (6), 2024
dc.relation.references1. Landini F., Glembek O., Matejka P., Rohdin J., Burget L., Diez M., Silnova A. (2021). Analysis of the but Diarization System for Voxconverse Challenge. Conference: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). DOI: 10.1109/ICASSP39728.2021.9414315
dc.relation.references2. Dudykevych V., Mykytyn H., Ruda K. (2022). The concept of a deepfake detection system of biometric image modifications based on neural networks, in: 2022 IEEE 3rd KhPI Week on Advanced Technology (KhPIWeek), IEEE.DOI: 10.1109/khpiweek57572.2022.9916378
dc.relation.references3. Shtefaniuk Y. and Opirskyy I. (2021). Comparative Analysis of the Efficiency of Modern Fake Detection Algorithms in Scope of Information Warfare, 2021 11th IEEE International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS), 207–211. DOI:10.1109/IDAACS53288.2021.9660924.1
dc.relation.references4. Anguera Miro X., Bozonnet S., Evans N., Fredouille C., Friedland G., Vinyals O. (2012). Speaker Diarization: A Review of Recent Research, IEEE Trans. Audio, Speech, Lang. Process, Vol. 20, 356–370.DOI:10.1109/tasl.2011.2125954
dc.relation.references5. Khoma V., Khoma Y., Brydinskyi V., Konovalov A. (2023). Development of Supervised Speaker Diarization System Based on the PyAnnote Audio Processing Library, Sensors, Volume 23, 2082. DOI: 10.3390/s23042082
dc.relation.references6. Hannun A., Case C., Casper J., Catanzaro B., Diamos G., Elsen E., Prenger R., Satheesh S., Sengupta Sh., Coates A., Ng A. Y. (2014). Deep Speech: Scaling up end-to-end speech recognition. Available at:https://doi.org/10.48550/arXiv.1412.5567 (Accessed: 15 February 2024).
dc.relation.references7. Ball J. (2023). Voice Activity Detection (VAD) in Noisy Environments. Available at:https://arxiv.org/html/2312.05815v1 (Accessed: 15 February 2024).
dc.relation.references8. Cornell S., Omologo M., Squartini S., Vincent E. (2022). Overlapped Speech Detection and speaker counting using distant microphone arrays, Comput. Speech & Lang, Volume 72, 101306. DOI: 10.1016/j.csl.2021.101306
dc.relation.references9. Kotti M., Moschou V., Kotropoulos C. (2008). Speaker segmentation and clustering, Signal Process, Volume 88, 1091–1124. DOI: 10.1016/j.sigpro.2007.11.017
dc.relation.references10. Dawalatabad N., Ravanelli M., Grondin F., Thienpondt J., Desplanques B., Na H. (2021). ECAPA-TDNN Embeddings for Speaker Diarization. Proc. Interspeech, 3560–3564. DOI: 10.21437/Interspeech.2021-941
dc.relation.references11. Garcia-Romero D., Snyder D., Sell G., Povey D. and McCree A. (2017). Speaker diarization using deep neural network embeddings, 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, USA, 4930–4934. DOI: 10.1109/ICASSP.2017.7953094
dc.relation.references12. Bredin H. (2023). Pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe, in: INTERSPEECH 2023, ISCA, ISCA. Doi:10.21437/interspeech.2023-105
dc.relation.references13. Harper E., Majumdar S., Kuchaiev O., Jason, et al. NeMo: a toolkit for Conversational AI and Large Language Models [Computer software]. https://github.com/NVIDIA/NeMo
dc.relation.references14. Ravanelli M., Parcollet T., Plantinga P., et al. (2021). SpeechBrain: A General-Purpose Speech Toolkit.Available at: https://arxiv.org/abs/2106.04624 (Accessed: 15 February 2024).
dc.relation.references15. Chung J. S., Huh J., Nagrani A., Afouras T., Zisserman A. (2020). Spot the Conversation: Speaker Diarisation in the Wild, in: Interspeech 2020, ISCA, ISCA. DOI:10.21437/interspeech.2020-2337
dc.relation.references16. Zaiets I. (2024). Dataset of ukrainian podcasts for intruder detection by voice. DOI:10.57967/hf/0701
dc.relation.referencesen1. Landini F., Glembek O., Matejka P., Rohdin J., Burget L., Diez M., Silnova A. (2021). Analysis of the but Diarization System for Voxconverse Challenge. Conference: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). DOI: 10.1109/ICASSP39728.2021.9414315
dc.relation.referencesen2. Dudykevych V., Mykytyn H., Ruda K. (2022). The concept of a deepfake detection system of biometric image modifications based on neural networks, in: 2022 IEEE 3rd KhPI Week on Advanced Technology (KhPIWeek), IEEE.DOI: 10.1109/khpiweek57572.2022.9916378
dc.relation.referencesen3. Shtefaniuk Y. and Opirskyy I. (2021). Comparative Analysis of the Efficiency of Modern Fake Detection Algorithms in Scope of Information Warfare, 2021 11th IEEE International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS), 207–211. DOI:10.1109/IDAACS53288.2021.9660924.1
dc.relation.referencesen4. Anguera Miro X., Bozonnet S., Evans N., Fredouille C., Friedland G., Vinyals O. (2012). Speaker Diarization: A Review of Recent Research, IEEE Trans. Audio, Speech, Lang. Process, Vol. 20, 356–370.DOI:10.1109/tasl.2011.2125954
dc.relation.referencesen5. Khoma V., Khoma Y., Brydinskyi V., Konovalov A. (2023). Development of Supervised Speaker Diarization System Based on the PyAnnote Audio Processing Library, Sensors, Volume 23, 2082. DOI: 10.3390/s23042082
dc.relation.referencesen6. Hannun A., Case C., Casper J., Catanzaro B., Diamos G., Elsen E., Prenger R., Satheesh S., Sengupta Sh., Coates A., Ng A. Y. (2014). Deep Speech: Scaling up end-to-end speech recognition. Available at:https://doi.org/10.48550/arXiv.1412.5567 (Accessed: 15 February 2024).
dc.relation.referencesen7. Ball J. (2023). Voice Activity Detection (VAD) in Noisy Environments. Available at:https://arxiv.org/html/2312.05815v1 (Accessed: 15 February 2024).
dc.relation.referencesen8. Cornell S., Omologo M., Squartini S., Vincent E. (2022). Overlapped Speech Detection and speaker counting using distant microphone arrays, Comput. Speech & Lang, Volume 72, 101306. DOI: 10.1016/j.csl.2021.101306
dc.relation.referencesen9. Kotti M., Moschou V., Kotropoulos C. (2008). Speaker segmentation and clustering, Signal Process, Volume 88, 1091–1124. DOI: 10.1016/j.sigpro.2007.11.017
dc.relation.referencesen10. Dawalatabad N., Ravanelli M., Grondin F., Thienpondt J., Desplanques B., Na H. (2021). ECAPA-TDNN Embeddings for Speaker Diarization. Proc. Interspeech, 3560–3564. DOI: 10.21437/Interspeech.2021-941
dc.relation.referencesen11. Garcia-Romero D., Snyder D., Sell G., Povey D. and McCree A. (2017). Speaker diarization using deep neural network embeddings, 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, USA, 4930–4934. DOI: 10.1109/ICASSP.2017.7953094
dc.relation.referencesen12. Bredin H. (2023). Pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe, in: INTERSPEECH 2023, ISCA, ISCA. Doi:10.21437/interspeech.2023-105
dc.relation.referencesen13. Harper E., Majumdar S., Kuchaiev O., Jason, et al. NeMo: a toolkit for Conversational AI and Large Language Models [Computer software]. https://github.com/NVIDIA/NeMo
dc.relation.referencesen14. Ravanelli M., Parcollet T., Plantinga P., et al. (2021). SpeechBrain: A General-Purpose Speech Toolkit.Available at: https://arxiv.org/abs/2106.04624 (Accessed: 15 February 2024).
dc.relation.referencesen15. Chung J. S., Huh J., Nagrani A., Afouras T., Zisserman A. (2020). Spot the Conversation: Speaker Diarisation in the Wild, in: Interspeech 2020, ISCA, ISCA. DOI:10.21437/interspeech.2020-2337
dc.relation.referencesen16. Zaiets I. (2024). Dataset of ukrainian podcasts for intruder detection by voice. DOI:10.57967/hf/0701
dc.relation.urihttps://doi.org/10.48550/arXiv.1412.5567
dc.relation.urihttps://arxiv.org/html/2312.05815v1
dc.relation.urihttps://github.com/NVIDIA/NeMo
dc.relation.urihttps://arxiv.org/abs/2106.04624
dc.rights.holder© Національний університет „Львівська політехніка“, 2024
dc.rights.holder© Заєць І. С., Бридінський В. А., Сабодашко Д. В., Хома Ю. В., Руда Х. С., Швед М. Є., 2024
dc.subjectглибинне навчання
dc.subjectдіаризація
dc.subjectембедінги голосу
dc.subjectрозпізнавання мовців
dc.subjectкібербезпека
dc.subjectdeep learning
dc.subjectdiarization
dc.subjectspeaker embeddings
dc.subjectspeaker recognition
dc.subjectcyber security
dc.subject.udc004.93
dc.titleВикористання ембедінгів голосу в інтегрованих системах для діаризації мовців та виявлення зловмисників
dc.title.alternativeUtilization of voice embeddings in integrated systems for speaker diarization and malicious actor detection
dc.typeArticle

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2024v6n1_Zaiets_I-Utilization_of_voice_embeddings_54-66.pdf
Size:
3.27 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.91 KB
Format:
Plain Text
Description: