Використання ембедінгів голосу в інтегрованих системах для діаризації мовців та виявлення зловмисників
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
У цій роботі досліджується використання систем діаризації, які застосовують
передові алгоритми машинного навчання для точного виявлення та розділення різних
спікерів в аудіозаписах для реалізації системи виявлення зловмисників. Порівнюються
декілька передових моделей діаризації, зокрема NeMo від Nvidia, Pyannote та SpeechBrain.
Ефективність цих моделей оцінюється за допомогою типових метрик, що використову-
ються для систем діаризації, таких як коефіцієнт помилки діаризації (DER) та коефіцієнт
помилки Жакара (JER). Система діаризації була протестована в різних аудіоумовах. Це,
зокрема, зашумлене середовище, чисте середовище, мала кількість спікерів та велика
кількість спікерів. Встановлено, що Pyannote проявляє найкращу продуктивність з
погляду точності діаризації, тому саме її було обрано для реалізації системи виявлення
зловмисників. Цю систему додатково оцінено на власному наборі даних, що ґрунтується
на українських подкастах, і було встановлено, що система працює з показником
чутливості 100 % та точністю 93,75 %. Це означає, що система не пропустила жодного
злочинця з набору даних, але іноді неправильно ідентифікувала особу, яка не є злочинцем.
Ця система виявилася ефективною та гнучкою для завдань виявлення зловмисників в
аудіофайлах із різним розміром та кількістю присутніх спікерів.
This paper explores the use of diarization systems which employ advanced machine learning algorithms for the precise detection and separation of different speakers in audio recordings for the implementation of an intruder detection system. Several state-of-the-art diarization models including Nvidia’s NeMo, Pyannote and SpeechBrain are compared. The performance of these models is evaluated using typical metrics used for the diarization systems, such as diarization error rate (DER) and Jaccard error rate (JER). The diarization system was tested on various audio conditions, including noisy environment, clean environment, small number of speakers and large number of speakers. The findings reveal that Pyannote delivers superior performance in terms of diarization accuracy, and thus was used for implementation of the intruder detection system. This system was further evaluated on a custom dataset based on Ukrainian podcasts, and it was found that the system performed with 100 % recall and 93,75 % precision, meaning that the system has not missed any criminal from the dataset, but could sometimes falsely detect a non-criminal as a criminal. This system proves to be effective and flexible in intruder detection tasks in audio files with different file sizes and different numbers of speakers which are present in these audio files.
This paper explores the use of diarization systems which employ advanced machine learning algorithms for the precise detection and separation of different speakers in audio recordings for the implementation of an intruder detection system. Several state-of-the-art diarization models including Nvidia’s NeMo, Pyannote and SpeechBrain are compared. The performance of these models is evaluated using typical metrics used for the diarization systems, such as diarization error rate (DER) and Jaccard error rate (JER). The diarization system was tested on various audio conditions, including noisy environment, clean environment, small number of speakers and large number of speakers. The findings reveal that Pyannote delivers superior performance in terms of diarization accuracy, and thus was used for implementation of the intruder detection system. This system was further evaluated on a custom dataset based on Ukrainian podcasts, and it was found that the system performed with 100 % recall and 93,75 % precision, meaning that the system has not missed any criminal from the dataset, but could sometimes falsely detect a non-criminal as a criminal. This system proves to be effective and flexible in intruder detection tasks in audio files with different file sizes and different numbers of speakers which are present in these audio files.
Description
Citation
Використання ембедінгів голосу в інтегрованих системах для діаризації мовців та виявлення зловмисників / І. С. Заєць, В. А. Бридінський, Д. В. Сабодашко, Ю. В. Хома, Х. С. Руда, М. Є. Швед // Комп'ютерні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 1. — С. 54–66.