Розробка системи розділення джерел звуку на основі методів машинного навчання

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет “Львівська політехніка”

Abstract

Магістерська кваліфікаційна робота виконана студентом групи КНСШ-22 Ткачуком Орестом Романовичем. Тема “Розробка системи розділення джерел звуку на основі методів машинного навчання”. Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Об’єктом дослідження є обробка аудіоcигналів. Предметом дослідження є алгоритми та методи обробки аудіосигналів з метою виділення окремих джерел звуку та їх класифікації. Для досягнення поставленої мети, було використано підхід розширення простору вхідних аудіоданих за допомогою результатів, отриманих з застосуванням методу віконного перетворення Фур’є. Подальша обробка розширеного набору даних використовувала згорткові нейронні мережі, які передбачали бінарні маски окремих джерел звуку. Використання цих масок дозволило покращити ефективність розділення джерел звуку в поліфонічних аудіоданих та зменшити складність обчислень. Апробацію роботи гібридної системи здійснено з використанням реальних аудіоданих, а також проведено порівняльний аналіз розділених джерел звуку. У результаті виконаної дослідницької роботи було створено комп'ютерну програму, яка дозволяє проводити процес розділення різних джерел звуку у складних поліфонічних композиціях. Ця програмна система є результатом об'єднання різноманітних алгоритмів та методів, включаючи в себе згорткові нейронні мережі, бінарні маски та обробку сигналу на основі віконного перетворення Фур'є. Загальний обсяг роботи: 72 сторінки, 34 рисунки, 31 посилання. The Master’s degree work of the student of the group Tkachuk Orest Romanovych, a student of the CSAI-22 group. The topic is "Development of a sound source separation system based on machine learning methods." The work is aimed at obtaining a master's degree in the specialty 122 "Computer Science". The object of research is the processing of audio signals. The subject of research is algorithms and methods of audio signal processing for the purpose of isolating individual sound sources and their classification. To achieve the goal, the approach of expanding the space of input audio data using the results obtained with STFT was used. Further processing of the extended data set used convolutional neural networks, which predicted binary masks of individual sound sources. The use of these masks made it possible to improve the efficiency of separation of sound sources in polyphonic audio data and reduce the complexity of calculations. The performance of the hybrid system was tested using real audio data and a comparative analysis of separated sound sources was carried out. As a result of the master’s qualification work, a computer program was created, which allows for the separation of different sound sources in complex polyphonic compositions. This software system is the result of a combination of various algorithms and methods, including convolutional neural networks, binary masks and signal processing based on short-time Fourier transform method (STFT). Total volume of work: 72 pages, 34 figures, 31 references.

Description

Citation

Ткачук О. Р. Розробка системи розділення джерел звуку на основі методів машинного навчання : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Орест Романович Ткачук ; Національний університет «Львівська політехніка». – Львів, 2023. – 76 с.

Endorsement

Review

Supplemented By

Referenced By