Система підтримки прийняття рішень для розпізнавання слів у людей з вадами мовлення

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет "Львівська політехніка"

Abstract

Метою магістерської роботи є розробка “Системи пітримки прийняття рішень для розпізнавання слів людей з вадами мовлення”. Останні декілька років стали величезним проривом у розвитку розпізнавання мовлення. Можна вже зробити висновки, що голосові помічники значно спростили наші буденні справи, але для деяких людей, ці технології стали рятівниками життя. Оскільки голосові помічники використовують мовлення як рушійну силу, ці технології особливо корисні для тих, хто має порушення рухливості або зору. Однак ці системи не справляються з однією проблемою — найвідоміші та найдосконаліші голосові помічники не можуть розпізнати слова у людей з порушеннями мовлення. Розлади мовлення та дизартрія у більшості випадках супроводжують досить поширені захворювання, такі як церебральний параліч, синдром Дауна, або ж хвороба Паркінсона. Це означає, що мільйони людей які найбільше потребують підтримки саме голосових помічників, стикаються з проблемою неприйняття і нерозуміння як у суспільстві, так і з сторони голосових помічників. Тому актуальність дослідження полягає у тому, що люди з атиповим мовленням потребують голосового помічника, який зможе інтерпретувати їх мовлення. Предметом дослідження — є проведення глибинного аналізу цієї проблеми та розробки альтернативного методу розпізнавання нетипового мовлення. У першому розділі цієї магістерської роботи досліджуються основні проблеми та потреби людей з порушеннями мовлення, основні досягнення в терапії розвитку мови — Broad Target Speech Recast [1], а також поверхневий огляд найпопулярніших систем розпізнавання мовлення. У другому розділі було вичерпно описано загальне призначення системи, основні функції, послідовність виконання операцій, те як користувачі можуть взаємодіяти з системою та як вона реагує на запити. Загальне призначення системи, всі цілі та підцілі системи були представлені за допомогою дерева цілей. Функціональність системи була представлена за допомогою UML діаграм, а саме таких, як діаграма варіантів використання, діаграма класів, діаграма послідовності та діаграма діяльності. У цьому розділі також було прописано вимоги за допомогою методу “історії користувачів” для кращого розуміння базових потреб основних користувачів. У третьому розділі магістерської роботи досліджуються існуючі бібліотеки з відкритим кодом для розпізнавання мовлення та обгрунтовується найбільш доцільний метод для розпізнавання саме нетипового мовлення. Вибраний метод базується на алгоритмі аудіовідбитків та швидкому перетворенні Фур’є [2]. Усі вхідні аудіо дані перетворюються у “аудіовідбитки”. І “база даних”, і “зразок” аудіофайлів піддаються одному аналізу. Аудіовідбитки з невідомого зразка порівнюються з великим набором аудіовідбитків, отриманих з бази даних вже записаних слів. Збіги згодом оцінюються на правильність відповідності. Алгоритм є шумостійким, обчислювально ефективним і масштабованим, здатним швидко ідентифікувати сегмент мови, записаної через мікрофон смартфона за наявності шуму. Алгоритм використовує комбінаторно-хешований аналіз частотно-часових аудіовідбитків, що дає незвичайні властивості, такі як прозорість, у якій можна ідентифікувати кілька слів схожих між собою. У четвертому розділі було представлено реалізацію розробленої системи та обґрунтовано доцільність використання архітектури MVP, мови програмування Kotlin для додатків Android, та взаємодії з бібліотекою відбитків. Дипломна робота також включає п'ятий розділ, метою якого є доведення економічної доцільності розробленого продукту. У результаті дослідження, написанння та розробки кваліфікаційної дипломної роботи, була розроблена система, що здатна записувати, зберігати та розпізнавати нетипове мовлення, тим самим надаючи можливість людям з вадами мовлення бути зрозумілими та прийнятими в суспільстві.
The goal of this master’s thesis is to develop the decision support system for word recognition of people with speech impairments. A few years ago, voice assistants broke into people’s life. Speech recognition technology has greatly simplified daily routines, but there are people for whom these technologies are lifesavers. Because speech recognition technology uses speech as a driving force, these technologies are especially useful for people with mobility or vision impairments. However, there is an unobvious problem that the most well-known and sophisticated voice assistants can’t recognize speech with impairments. Speech disorders and dysarthria are caused by disruptions in the neuro-motor interface, typically as a consequence of very widespread diseases, such as cerebral palsy, Down Syndrome, or the Parkinson’s disease. It means that millions of people who need support from voice assistance the most, force the problem of not being understood neither by society nor by voice assistants. The study objective of this master thesis is to spend root cause analysis of this problem and develop an alternative method for atypical speech recognition. The first chapter of this paper investigates the main categories of people who will be the target audience of the system, their main problems of being understood in society, and their experiences with the most common virtual assistants. Moreover, the chapter describes the main accomplishments in speech development therapies and treatment, elucidates the Broad Target Speech Recast therapy, which will serve as a basis for the developed system [1]. Superficial inspection of the most popular speech recognition systems was held in this part. The second chapter comprehensively outlines the general purpose of the system, the main functionality, system execution sequence, how users can interact with it, and how the system responds to users’ requests. It was decided to represent visualize the general purpose of the system, all the goals, and subgoals of the system in a graphical manner through the goal tree diagram. Functionality was represented with the help of UML diagrams, namely Use Case diagram, Class diagram, Sequence diagram, State Machine diagram, Activity diagram, and Deployment diagram. To ensure that the developed system is valid, it also specifies user stories for better understanding of the user needs. The third chapter of the master’s paper investigates the existing speech recognition open code libraries and explains the most suitable method of atypical speech recognition. It was decided to create the system with individual vocabulary for every single user, because the most sophisticated APIs don’t contain enough particular data to recognize speech with impairments. The designed system enables the user to create the unique database and then compare speech with database samples. The chosen method is based on fingerprinting algorithm and Fast Fourier transform [2]. Each audio input should be “fingerprinted,” a process in which reproducible hash tokens are extracted. Both “database” and “sample” audio files are subjected to the same analysis. The fingerprints from the unknown sample should be matched against a large set of fingerprints derived from the music database. The candidate matches are subsequently evaluated for correctness of the match. The algorithm is noise resistant, computationally efficient, and massively scalable, capable of quickly identifying a segment of speech captured through a smartphone microphone in the presence of foreground noise, and through voice codec compression, out of a database. The algorithm uses a combinatorically hashed time-frequency constellation analysis of the audio input, yielding unusual properties such as transparency, in which multiple words mixed together may each be identified. The fourth chapter outlines the developed system implementation and substantiates the expediency of using the MVP architecture, Kotlin programming language for Android applications, and its interaction with the fingerprinting library. The diploma thesis also includes the fifth chapter which aims to prove the economic expediency of the developed product. In this chapter, cost-effective analysis and calculations were held, that show that the system is profitable and efficient. As a result, all the goals of the master’s thesis were met. At this moment the system is capable to record the speech, create a user dictionary, and recognize the atypical speech regardless of the type of impairment and language used. Thereby the designed system provides an opportunity for people with speech impairments to be understood and accepted in society.

Description

Citation

Дубик В. В. Система підтримки прийняття рішень для розпізнавання слів у людей з вадами мовлення : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „8.124.00.01 — Системи і методи прийняття рішень“ / Вікторія Вікторівна Дубик. — Львів, 2021. — 89 с.

Endorsement

Review

Supplemented By

Referenced By