Синтез природного мовлення ансамблевими методами ШІ

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет “Львівська політехніка”

Abstract

Магістерська кваліфікаційна робота виконана студентом групи КНСШ-22 Жигайлом Ярославом Олеговичем. Тема «Синтез природнього мовлення ансамблевими методами ШІ». Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Об’єктом дослідження є процес генерації природнього мовлення людини українською мовою з урахуванням унікальності тональностей, тонів, пауз та інших особливостей. Предметом досліджень є ансамбль нейронних мереж "Tacotron 2", а також нейронні мережі другого кроку, включаючи "Hifi-gan" та "Waveglow", які використовуються для генерації природнього мовлення. Досягнення мети відбувається за рахунок розробки програмного продукту, який може створювати правдоподібні зразки людського мовлення українською мовою, використовуючи за основу тренувальні дані. Крім того, воно включає проведення тестування цієї системи шляхом додавання шуму до тренувальних зразків для вивчення впливу шуму на загальну якість моделі. Також, в рамках роботи проводяться експерименти для порівняння різних моделей другого кроку нейромережевого ансамблю з метою досягнення максимальної якості. У результаті виконання магістерської кваліфікаційної роботи було отримано систему синтезу природнього мовлення українською мовою на основі системи, представленої у бакалаврській кваліфікаційній роботі. In today's world, the development of technologies and research in the field of artificial intelligence makes it possible to create programs that exceed the expectations of developers who worked on similar projects a few years ago. This confirms that information technology is a field that requires constant research and description, as its development is extremely fast. One of the most striking examples of this is natural speech processing. Natural speech processing is rapidly developing due to the popularity of deep learning and the availability of large computing power to ordinary users through online services such as GoogleColab. This work is devoted to the improvement of the natural speech generation system, which was developed as part of a bachelor's thesis. This task is not an easy one, since each person's voice is unique, and the text to be spoken by the neural network may differ significantly in tone and style from the training samples. Also, it is important to solve the problems related to the generation of pauses, stresses, and the pronunciation of unfamiliar words, especially those that the neural network did not have the opportunity to analyze before. Creating natural speech generation systems is a complex task, on which hundreds of researchers from all over the world are working, and new methods and architectures are constantly being improved.

Description

Citation

Жигайло Я. О. Синтез природного мовлення ансамблевими методами ШІ : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Ярослав Олегович Жигайло ; Національний університет «Львівська політехніка». – Львів, 2023. – 99 с.

Endorsement

Review

Supplemented By

Referenced By