Визначення психоемоційного стану людини на основі мультимодальних даних

Жеребецький , Олег Вячеславович2024-04-252024-04-2520232024Жеребецький О. В. Визначення психоемоційного стану людини на основі мультимодальних даних : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Олег Вячеславович Жеребецький ; Національний університет «Львівська політехніка». – Львів, 2023. – 92 с.https://ena.lpnu.ua/handle/ntb/61906Магістерська кваліфікаційна робота виконана студентом групи КНСШ-22 Жеребецьким Олегом Вячеславовичем. Тема “Визначення психоемоційного стану людини на основі мультимодальних даних”. Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Об’єктом дослідження є методології використання міміки обличчя доповідача, тону розповіді та змісту озвучених речень для аналізу психоемоційного стану та настрою. Предметом дослідження є методи попередньої обробки даних модальностей звуку, тексту та аудіо, а також, структури нейронних мереж різного типу, які використовуються у тематиці дипломної роботи. Практичним значенням проведених досліджень є отримання результатів у масштабніших дослідженнях та формування повноцінного продукту для визначення психоемоційного стану та настрою доповідача. Можливе розширення рішення до процесів виявлення розладів та рекомендації практик їх лікування. Досягнення мети відбувається за рахунок кількох покращень. По-перше, використання достатньо великого набору даних, який зібраний спеціально для таких досліджень та співпадає з реальними умовами використання. По-друге, використання якісної обробки трьох модальностей, що будуть використовуватися. По-третє, навчання на складній генеративній нейронній мережі. Перевірка роботи здійснена на ряді записів емоцій людей усіма запропонованими способами, а саме веб-камери, запису та трансляції екрану. У результаті виконання дипломної роботи створено систему з двох частин. Перша це сайт який зчитує зображення, звук та текст користувача обраним методом. Друга це сервер з нетренованими нейронними мережами та функціями попередньої обробки даних трьох модальностей, що передбачають емоцію та настрій людини в кадрі та повертають результат користувачу на клієнт. Окрім цього були отримані результати точності тренування та передбачення нейронної мережі для обраного набору даних та було порівняно цей результат з моделями, що були розглянуті у попередній ітерації даної роботи. Результати сформовані та представлені у вигляді таблиць з поясненням отриманих результатів. В якості апробації, на основі проведених наукових досліджень було подано наукову статтю по темі магістерської роботи у журнал «Scientific Reports» (стаття перебуває на фінальному етапі рецензування). Загальний обсяг роботи: 92 сторінок, 58 рисунків, 43 посилання. Master’s degree work of the student of the group CSAI-22 Zherebetskyi Oleh Viacheslavovich. The topic is "Determining the psycho-emotional state of a person on the basis of multimodal data". The work is aimed at obtaining a master's degree in 122 "Computer Science". The object of the study is the methodology of using the facial expressions of the speaker, the tone of the story and the content of the voiced sentences to analyze the psycho-emotional state and mood. The subject of the research is the methods of pre-processing data of sound, text and audio modalities, as well as the structure of neural networks of various types, which are used in the subject of the thesis. The practical significance of the conducted research is obtaining results in larger-scale research and forming a full-fledged product for determining the psycho emotional state and mood of the speaker. It is possible to extend the solution to the processes of identifying disorders and recommending practices for their treatment. Achieving the goal comes at the expense of several improvements. First, the use of a sufficiently large data set, which is collected specifically for such studies and corresponds to real conditions of use. Second, the use of qualitative processing of the three modalities to be used. Third, training on a complex generative neural network. Validation of the work is carried out on a number of recordings of people's emotions using all 3 proposed methods, namely webcam, recording and screencasting. A two-part system was created as a result of the thesis. The first is a site that reads the user's image, sound and text using the chosen method. The second is a server with untrained neural networks and three-modality data preprocessing functions that predict the emotion and mood of the person in the frame and return the result to the user on the client. In addition, the results of neural network training and prediction accuracy for the selected data set were obtained and this result was compared with the models that were considered in the previous iteration of this work. The results are generated and presented in the form of tables with an explanation of the obtained results. As a test, based on the conducted scientific research, a scientific article on the topic of the master's thesis was submitted to the journal "Scientific Reports" (the article is in the final stage of review). The total volume of work: 92 pages, 58 figures, 43 references.ukаналіз людських емоцій, аналіз людського настрою, розпізнавання емоційного мовлення, мультимодальне розпізнавання, машинне навчання, analysis of human emotions, analysis of human mood, recognition of emotional speech, multimodal recognition, machine learningВизначення психоемоційного стану людини на основі мультимодальних данихDetermining the psycho-emotional state of a person on the basis of multimodal dataStudents_diploma92