Створення аудіокниг засобами штучного інтелекту
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет «Львівська політехніка»
Abstract
Магістерська кваліфікаційна робота виконана студентом групи КНСШ-22 Дудою Олександром Олеговичем. Тема: “Створення аудіокниг засобами штучного інтелекту”. Робота направлена на здобуття ступеня магістра за спеціальністю 122 «Комп’ютерні науки». Метою даної роботи є дослідження роботи та синтезу природного мовлення та автоматичної генерації аудіокниг з урахуванням емоційного забарвлення, стилістики і жанрових особливостей текстових матеріалів. Об’єктом дослідження є моделі систем синтезу мовлення. Предметом є процес розробки систем синтезу мовлення та аудіокниг українською мовою. Серед методів дослідження є: вивчення та аналіз наукової літератури, системний та порівняльний аналіз, дедукція, моделювання, конструювання та проектування. Робота спрямована на вирішення актуальних задач у галузі штучного інтелекту, які мають як наукову, так і практичну цінність. Зокрема, вона охоплює
дослідження і розробку методів застосування глибокого навчання для клонування голосу, що дозволяє створювати точні голосові копії на основі обмежених даних. Крім того, значна увага приділяється покращенню природності синтезованого мовлення, що включає відтворення інтонацій, тембру, пауз і емоційного забарвлення, наближаючи синтез до реального людського мовлення. Особлива увага приділяється налаштуванню моделей під конкретні жанрові та стилістичні вимоги тексту, що дозволяє створювати не просто технічно правильне мовлення, а емоційно насичений аудіо продукт. У результаті виконання дипломної роботи буде розроблено систему, яка дозволить синтезувати прийнятні для прослуховування аудікниги. Загальний обсяг роботи: 79 сторінок, 13 рисунків, 24 посилання. Master’s degree work of the student of the group CSAI-22 Duda Oleksandr Olehovych The topic is " Audiobook creation based on machine learning". The work
is aimed at obtaining a master's degree in 122 "Computer Science". The purpose of this work is to study the operation and synthesis of natural speech and automatic generation of audiobooks, taking into account the emotional coloring, stylistics and genre features of textual materials. The object of research is models of speech synthesis systems. The subject is the process of developing speech synthesis systems and audiobooks in Ukrainian. The research methods include: study and analysis of scientific literature, systematic and comparative analysis, deduction, modeling, construction and design. Thіs thesis work is aimed at solving urgent problems in the field of artificial intelligence that have both scientific and practical value. In particular, it covers the research and development of methods for applying deep learning to voice cloning, which allows creating accurate voice copies based on limited data. In addition, considerable attention is paid to improving the naturalness of synthesized speech, which includes reproducing intonation, timbre, pauses, and emotional coloring, bringing synthesis closer to real human speech. Particular attention is paid to attention is paid to customizing models for specific genre and stylistic requirements of the text, which allows creating not just technically correct speech, but emotionally rich audio product. As a result of the thesis, a system will be developed that will allow synthesizing
audiobooks that are acceptable for listening. The total volume of work: 79 pages, 13 figures, 24 references.
Description
Citation
Дуда О. О. Створення аудіокниг засобами штучного інтелекту : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Олександр Олегович Дуда ; Національний університет «Львівська політехніка». – Львів, 2024. – 79 с.