Ідентифікація звуку голосів птахів за допомогою згорткових нейронних мереж з використанням STFT та MEL спектрограм
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
Загрози для клімату та глобальні зміни в екологічних процесах залишаються актуальною проблемою у всьому світі. Тому важливий постійний моніторинг цих змін, зокрема із використанням нестандартних підходів. Це завдання можна виконати на основі дослідження інформації про міграцію птахів. Одним із ефективних методів дослідження міграції птахів є слуховий метод, який потребує вдосконалення. Ось чому побудова моделі на основі методів машинного навчання, яка допоможе точно ідентифікувати наявність голосів птахів у аудіофайлі з метою дослідження міграцій птахів з певної території, є актуальною проблемою. У цій роботі роглянуто способи побудови моделі машинного навчання на основі аналізу спектрограм, яка допоможе точно ідентифікувати наявність голосів птахів в аудіофайлі з метою дослідження міграції птахів по визначеній території. Дослідження передбачає збирання та аналіз аудіофайлів, які можна використати для виявлення характеристик, відповідно до яких звук файлів буде ідентифікуватись як голоси птахів або відсутність звуку у файлі. Продемонстровано використання моделі CNN для класифікації наявності голосів птахів у аудіофайлі. Аналіз ефективності та точності моделі CNN в класифікації звуків у аудіофайлах показав, що краще використовувати Mel-спектрограми, ніж STFT-спектрограми, для дослідження та класифікації наявності звуків птахів у середовищі. Точність класифікації моделі, тренованої на основі Mel-спектрограм, становила 72 %, що на 8 % вище, ніж точність моделі, натренованої на STFT-спектрограмах.
Threats to the climate and global changes in ecological processes remain an urgent problem throughout the world. Therefore, it is important to constantly monitor these changes, in particular, using non-standard approaches. This task can be implemented on the basis of research on bird migration information. One of the effective methods of studying bird migration is the auditory method, which needs improvement. That is why building a model based on machine learning methods that will help to accurately identify the presence of bird voices in an audio file for the purpose of studying bird migrations from a given area is an urgent problem. This paper examines ways of building a machine learning model based on the analysis of spectrograms, which will help to accurately identify the presence of bird voices in an audio file for the purpose of studying the migration of birds in a certain area. The research involves the collection and analysis of audio files that can be used to identify characteristics that will identify the sound of the files as birdsong or the absence of sound in the file. The use of the CNN model for the classification of the presence of bird voices in an audio file is demonstrated. Special attention is paid to the effectiveness and accuracy of the CNN model in the classification of sounds in audio files, which allows you to compare and choose the best classifier for a given type of file and model. Analysis of the effectiveness and accuracy of the CNN model in the classification of sounds in audio files showed that the use of Mel-spectrograms is better than the use of STFT-spectrograms for studying the classification of the presence of bird sounds in the environment. The classification accuracy of the model trained on the basis of Mel spectrograms was 72 %, which is 8 % better than the accuracy of the model trained on STFT spectrograms.
Threats to the climate and global changes in ecological processes remain an urgent problem throughout the world. Therefore, it is important to constantly monitor these changes, in particular, using non-standard approaches. This task can be implemented on the basis of research on bird migration information. One of the effective methods of studying bird migration is the auditory method, which needs improvement. That is why building a model based on machine learning methods that will help to accurately identify the presence of bird voices in an audio file for the purpose of studying bird migrations from a given area is an urgent problem. This paper examines ways of building a machine learning model based on the analysis of spectrograms, which will help to accurately identify the presence of bird voices in an audio file for the purpose of studying the migration of birds in a certain area. The research involves the collection and analysis of audio files that can be used to identify characteristics that will identify the sound of the files as birdsong or the absence of sound in the file. The use of the CNN model for the classification of the presence of bird voices in an audio file is demonstrated. Special attention is paid to the effectiveness and accuracy of the CNN model in the classification of sounds in audio files, which allows you to compare and choose the best classifier for a given type of file and model. Analysis of the effectiveness and accuracy of the CNN model in the classification of sounds in audio files showed that the use of Mel-spectrograms is better than the use of STFT-spectrograms for studying the classification of the presence of bird sounds in the environment. The classification accuracy of the model trained on the basis of Mel spectrograms was 72 %, which is 8 % better than the accuracy of the model trained on STFT spectrograms.
Description
Citation
Гонсьор О. Ідентифікація звуку голосів птахів за допомогою згорткових нейронних мереж з використанням STFT та MEL спектрограм / Оксана Гонсьор, Юрій Гонсьор // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2023. — № 14. — С. 297–311.