Адаптивне перетворення часової структури мовного сигналу для задач сповільнення темпу
No Thumbnail Available
Files
Date
2012
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
Дисертація присвячена розробленню методів та засобів сповільненого відтворення звукових одиниць української мови на основі адаптивних технологій перетворення їх внутрішньої структури для систем регулювання темпу мови. Вперше розроблено метод побудови в аналітичному виді функцій темпоральних перетворень звуків, на основі якого побудовано ці функції для 6 основних класів звуків української мови. Удосконалено метод виділення та маркірування звукових одиниць, побудовано додаткові інформативні ознаки для виділення підкласів вокалізованих та невокалізованих приголосних, а також модифіковано метод первинної сегментації мовленнєвого сигналу. Для використання адаптивних перетворень часової структури мовного сигналу в системах регулювання темпу мови удосконалено темпоральну модель мовотворення, розроблено новий метод автоматичної сегментації сигналу, а також розв'язано задачу оптимального збільшення довжини фрагменту мовленнєвого сигналу для забезпечення його заданої тривалості в системах регулювання темпу мови. Створено спеціалізований програмний комплекс для задач перетворення часової структури мовних сигналів в системах регулювання темпу мови. Комплекс, розроблений в багатопотоковій архітектурі псевдобагатозадачного обчислювального середовища Win32s, забезпечує можливість вирішення широкого комплексу задач виділення, аналізу та перетворення звуків української мови. Проведені аудиторні дослідження виявили, що при застосування розроблених технологій словесна розбірливість мов становить не менше 92% при зміні коефіцієнту сповільнення в діапазоні від 1,0 до 3,5 за умови нормального темпу 80-90 слів/хв. Диссертация посвящена разработке методов и средств замедленного воспроизведения звуковых единиц украинского языка на основе адаптивных технологий преобразований их внутренней структуры для систем регулирования темпа речи. Анализ известных походов к преобразованию внутренней структуры речевого сигнала для различных применений (передача каналами связи, распознавание и синтез речи, синхронизация аудио и видеоинформации в мультимедиальных системах и т.д.) показал, что наиболее высокое качество преобразования достигается при использовании адаптивных подходов, когда алгоритмы преобразования внутренней структуры сигнала максимально приближены к процессам, происходящим при естественном изменении темпа речи диктором. Эти подходы разработаны для случая ускорения темпа речи и используют специально сконструированные на основе статистических исследований функции темпоральных преобразований. Однако для задач замедления темпа ни методика построения этих функций, ни, естественно, сами функции не разработаны. В диссертационной работе проведены необходимые статистические исследования длительностей звуков и их структурных участков при различных темпах произношения, на основании которых сделаны выводы о необходимости разработки отдельных функций темпоральных преобразований для случая замедления темпа, а также уточнена классификация звуков украинского языка для этой задачи. На основании анализа закономерностей изменения внутренней структуры звуков при переходе диктором од одного темпа произношения к другому (рассматривались 4 темпа – нормальный и три темпа в сторону замедления) разработан метод построения в аналитическом виде функций темпоральных преобразований. На основе метода построены функции для 6 основных в задачах изменения темпа классов звуков: ударные гласные, безударные гласные, носовые, сонорные, африкаты, щелевые. Для этой цели также усовершенствован метод сегментации и классификации отдельных участков речевого сигнала с использованием взвешенной специальным окном метрики, построенной на основании усреднения отдельных участков кратковременного преобразования Фурье. Построены дополнительные информативные признаки для выделения подклассов вокализованных и невокализованных согласных. Отдельно исследована задача преобразования временной структуры речевого сигнала при замедлении в системе регулирования темпа речи, когда длительность выходного сигнала жестко задается длительностью входного и коэффициентом регулирования темпа, а длительность преобразованного согласно адаптивным технологиям сигнала зависит в общем случае от результатов его разделения на звуки определенных классов. Для этой цели модифицирована модель речевого сигнала введением последовательных пар переходных и стационарных участков определенных классов, разработан метод автоматической сегментации речевого потока на основе использований спектральной метрики в топологическом пространстве элементарных сегментов. На основании неитерационной процедуры оптимизации с ограничением в виде равенства, а также при помощи итерационной схемы со штрафными функциями решена задача оптимального увеличения длительности преобразованного фрагмента в системе регулирования темпа речи. Разработан специализированный программный комплекс для задач преобразования временной структуры сигнала в системах регулирования темпа речи. Комплекс реализован в многопотоковой архитектуре псевдомногозадачной вычислительной среды Win32s и обеспечивает возможность решения широкого комплекса задач выделения, анализа и преобразования звуков украинского языка. Также проведены аудиторные испытания, которые показали, что применение разработанных технологий обеспечивает разборчивость слов не менее 92% при изменении коэффициента регулирования темпа от 1 до 3,5 при исходном нормальном темпе 80-90 слов/мин. The dissertation is devoted to the development of methods and tools for speech tempo slowing on the base of adaptive technologies of signal structure reconstruction in time-scale modification systems. A new method of functions for temporal reconstruction design is developed and 6 functions for major classes of Ukrainian sounds are developed. A method of sound speech sounds segmentation and labeling is modified to detect subclasses of voiced and unvoiced consonants. To use the proposed approach in time-scale modification systems a speech signal temporal model is modified, a new method of segmentation of continuous speech on stationary segments is developed, and the procedure of speech fragments enlargement for speech tempo slowing is optimized. A specialized software for speech time-scale modification on the base of multi-flow architecture under Win32s is developed to be used for different tasks in Ukrainian sounds extraction, analyzing and time-scale modification. Formal listening tests show that on the base of developed technologies separate words recognition is not less than 92% while the original tempo (80-90 words per min) is increased up to 3,5 times.
Description
Keywords
мовний сигнал, модифікація часового масштабу, темпоральна структура, функція темпоральних перетворень, регулювання темпу мови, темпоральная структура, речевой сигнал, модификация временного масштаба, функция темпоральных преобразований, регулирование темпа речи, temporal structure, speech signal, time-scale modification, temporal reconstruction functions, time-scale modification systems
Citation
Купчак М. І. Адаптивне перетворення часової структури мовного сигналу для задач сповільнення темпу : автореферат дисертації на здобуття наукового ступеня кандидата технічних наук : 05.13.23 – системи та засоби штучного інтелекту / Марія Іванівна Купчак ; Національний університет "Львівська політехніка". - Львів, 2012. - 23 с.