Створення аудіокниг засобами штучного інтелекту

Дуда , Олександр Олегович

Створення аудіокниг засобами штучного інтелекту

Files

Duda_O_O_KNSSh_22.pdf (1.27 MB)

Date

2024

Authors

Дуда , Олександр Олегович

Publisher

Національний університет «Львівська політехніка»

Abstract

Магістерська кваліфікаційна робота виконана студентом групи КНСШ-22 Дудою Олександром Олеговичем. Тема: “Створення аудіокниг засобами штучного інтелекту”. Робота направлена на здобуття ступеня магістра за спеціальністю 122 «Комп’ютерні науки». Метою даної роботи є дослідження роботи та синтезу природного мовлення та автоматичної генерації аудіокниг з урахуванням емоційного забарвлення, стилістики і жанрових особливостей текстових матеріалів. Об’єктом дослідження є моделі систем синтезу мовлення. Предметом є процес розробки систем синтезу мовлення та аудіокниг українською мовою. Серед методів дослідження є: вивчення та аналіз наукової літератури, системний та порівняльний аналіз, дедукція, моделювання, конструювання та проектування. Робота спрямована на вирішення актуальних задач у галузі штучного інтелекту, які мають як наукову, так і практичну цінність. Зокрема, вона охоплює дослідження і розробку методів застосування глибокого навчання для клонування голосу, що дозволяє створювати точні голосові копії на основі обмежених даних. Крім того, значна увага приділяється покращенню природності синтезованого мовлення, що включає відтворення інтонацій, тембру, пауз і емоційного забарвлення, наближаючи синтез до реального людського мовлення. Особлива увага приділяється налаштуванню моделей під конкретні жанрові та стилістичні вимоги тексту, що дозволяє створювати не просто технічно правильне мовлення, а емоційно насичений аудіо продукт. У результаті виконання дипломної роботи буде розроблено систему, яка дозволить синтезувати прийнятні для прослуховування аудікниги. Загальний обсяг роботи: 79 сторінок, 13 рисунків, 24 посилання. Master’s degree work of the student of the group CSAI-22 Duda Oleksandr Olehovych The topic is " Audiobook creation based on machine learning". The work is aimed at obtaining a master's degree in 122 "Computer Science". The purpose of this work is to study the operation and synthesis of natural speech and automatic generation of audiobooks, taking into account the emotional coloring, stylistics and genre features of textual materials. The object of research is models of speech synthesis systems. The subject is the process of developing speech synthesis systems and audiobooks in Ukrainian. The research methods include: study and analysis of scientific literature, systematic and comparative analysis, deduction, modeling, construction and design. Thіs thesis work is aimed at solving urgent problems in the field of artificial intelligence that have both scientific and practical value. In particular, it covers the research and development of methods for applying deep learning to voice cloning, which allows creating accurate voice copies based on limited data. In addition, considerable attention is paid to improving the naturalness of synthesized speech, which includes reproducing intonation, timbre, pauses, and emotional coloring, bringing synthesis closer to real human speech. Particular attention is paid to attention is paid to customizing models for specific genre and stylistic requirements of the text, which allows creating not just technically correct speech, but emotionally rich audio product. As a result of the thesis, a system will be developed that will allow synthesizing audiobooks that are acceptable for listening. The total volume of work: 79 pages, 13 figures, 24 references.

Keywords

Text-to-speech synthesis, Audiobook generation, Speech synthesis, Voice cloning

Citation

Дуда О. О. Створення аудіокниг засобами штучного інтелекту : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Олександр Олегович Дуда ; Національний університет «Львівська політехніка». – Львів, 2024. – 79 с.

URI

https://ena.lpnu.ua/handle/ntb/63375

Collections

Магістерські роботи

Full item page

Створення аудіокниг засобами штучного інтелекту

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By