Розроблення системи аналізу мультимодальних даних для визначення емоційного стану особи
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет “Львівська політехніка”
Abstract
Магістерська кваліфікаційна робота виконана студентом групи КНСШ-22 Качмариком Віктором Романовичем. Темою роботи є “Розроблення системи аналізу мультимодальних даних для визначення емоційного стану особи”. Робота направлена на здобуття ступеня магістра за спеціальністю 122 «Комп’ютерні науки». Метою роботи є розробка, реалізація та оцінка ефективної та надійної системи, яка використовує мультимодальні методи аналізу даних та найсучасніші алгоритми машинного навчання для визначення емоційного забарвлення та психологічного стану людини. Об’єктом дослідження є комплексна система, яка ефективно інтегрує мультимодальні дані та використовує передові методи машинного навчання. Ця система буде спрямована на точне визначення людських емоцій і психологічного стану, сприяючи різноманітним застосуванням у таких сферах, як оцінка психічного здоров’я, людино-машинна взаємодія, тощо. Предметом дослідження є процес дослідження та перевірки мультимодальних методів аналізу даних і алгоритмів машинного навчання. У цій роботі буде досліджено синергію між різними модальностями даних і обчислювальні моделі та алгоритми, що застосовуються для аналізу та інтерпретації мультимодальних даних, зокрема візуальних даних, отриманих із виразу обличчя, та слухових даних, отриманих із голосових сигналів, з метою розпізнавання емоцій. Методами дослідження є набір алгоритмів машинного навчання, зокрема згорткові нейронні мережі (CNN) і методи ансамблевого навчання. Ці методи використовуються для обробки та аналізу мультимодальних даних – вилучення, вивчення та класифікації емоційних станів зі складних наборів даних. Новизна дослідження полягає у створенні інтегрованої системи, яка поєднує в собі сильні сторони архітектур Inception Resnet v1 та Densenet121 для аналізу візуальних та аудіо даних відповідно. Унікальний підхід цієї системи до мультимодального об’єднання даних є прогресом у точному розшифруванні людських емоцій. Наукова цінність цієї роботи полягає в її внеску в розвиток мультимодальних методів аналізу даних, удосконалення алгоритмів машинного навчання для розпізнавання емоцій, а також у наданні уявлень про синергію між різними модальностями даних. Завдяки розробці ефективної та комплексної системи це дослідження вплине на різні сфери, такі як психічне здоров’я та людино-машинна взаємодія, демонструючи як теоретичні досягнення, так і практичне застосування в реальних сценаріях. Практична цінність цього дослідження полягає в його потенціалі для покращення широкого спектру застосувань і галузей, які покладаються на розуміння людських емоцій і психологічного стану, реальних додатків і послуг шляхом точного визначення людських емоцій і психологічного стану за допомогою мультимодальної системи аналізу даних. Особистий внесок полягає в розробці та оптимізації нової мультимодальної ансамблевої архітектури моделі. Це включає стратегічну попередню обробку візуальних та аудіо даних, тонке налаштування попередньо навчених нейронних мереж як кодувальників (encoders) та інноваційну інтеграцію цих модальностей для створення узгодженої системи для надійного розпізнавання емоцій людей. Це дослідження представляє інноваційний підхід до розпізнавання емоцій шляхом розробки системи, яка об’єднує візуальні та звукові модальності для визначення емоційного стану людини. У дослідженні використовується набір даних EmoReact, який відрізняється тим, що він зосереджений на емоційних реакціях дітей, демографічній групі, яку часто ігнорують у дослідженнях розпізнавання емоцій. Застосовуючи вдосконалені моделі глибокого навчання – Inception Resnet v1 для взаємодії з візуальними даними та Densenet121 для взаємодії з аудіо даними – дослідження демонструє ефективність мультимодального підходу порівняно з одномодальними методами. Комплексний огляд літератури показує новизну застосування набору даних EmoReact і проводить паралелі з існуючими дослідженнями, підкреслюючи унікальні внески та методології цього дослідження. Ключем до дослідження є стратегічний вибір найчіткіших кадрів із відео даних і ретельне перетворення звуку в спектрограми, що забезпечує високу якість вхідних даних для навчання моделі. Дослідження вирішує такі проблеми, як дисбаланс класів, за допомогою методів зваженої вибірки, що сприяє збалансованому навчанню моделей. Кульмінацією цієї роботи є розробка мультимодальної моделі, яка перевершує одномодальні аналоги. Інтеграція візуального і аудіо кодувальників (encoders), попередньо навчених на даних відповідної модальності, призводить до комплексного вектора функцій, який вловлює нюанси людських емоцій. Дослідження не тільки покращує технічні можливості систем розпізнавання емоцій, але й досліджує їх практичні наслідки для покращення взаємодії людини з комп’ютером у різних програмах. The master's qualification work was completed by the student of the group CSAI 22 – Kachmaryk Viktor Romanovych. The topic of the work is “Development of a multimodal data analysis system for determining a person's emotional state”. The work is aimed at obtaining a master's degree in the specialty 122 "Computer Science". In recent years, the search for an understanding of human emotions and psychological states has gained significant momentum, primarily because of the critical role they play in various aspects of our lives [1]. This growing interest underscores the significance of thorough analysis and understanding of emotions. My research contributes to this field by focusing on the development of multimodal data analysis systems, designed to effectively evaluate emotions and psychological states. This approach reflects an evolving landscape where diverse data sources and analytical methods converge to offer a more nuanced understanding of human emotions.
Description
Citation
Качмарик В. Р. Розроблення системи аналізу мультимодальних даних для визначення емоційного стану особи : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Віктор Романович Качмарик ; Національний університет «Львівська політехніка». – Львів, 2023. – 175 с.