Інформаційна система опису відеоконтенту для осіб з вадами зору
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
Сучасне суспільство все більше орієнтується на візуальну інформацію. Відеоконтент відіграє важливу роль у різних сферах, таких як освіта, розваги, інформаційні технології та професійна діяльність. Однак для осіб з порушеннями зору доступ до цієї інформації є обмеженим.
За даними Всесвітньої організації охорони здоров'я (ВООЗ), у світі понад 285 мільйонів людей мають порушення зору, з яких близько 39 мільйонів є повністю незрячими. Ці люди стикаються з проблемами сприйняття відеоматеріалів, що обмежує їх участь у культурному та інформаційному житті.
Традиційні методи, як-от тифлокоментування (аудіоопис), є корисними, але часто їхнє застосування обмежене через високу вартість створення описів та їх відсутність у більшості відео. Сучасні технології вже пропонують різноманітні рішення для адаптації відеоконтенту:
• Ручне тифлокоментування – ефективний метод, але він потребує значних ресурсів і часу.
• Автоматичні генератори текстових описів – мають обмежену точність і не завжди враховують контекст сцени.
• Комп'ютерний зір та штучний інтелект – дозволяють автоматизувати створення аудіоописів, але ще потребують вдосконалення.
Сьогодні є потреба у створенні системи, яка об'єднує сучасні технології штучного інтелекту, комп'ютерного зору та обробки природної мови для автоматизації процесу створення описів відеоконтенту.
Завдяки розвитку глибинного навчання та нейромережевих моделей для обробки зображень і тексту з'являється можливість автоматизувати ці процеси. Ось кілька ключових технологій:
• Згорткові нейронні мережі (CNN) для аналізу відео та виділення ключових об'єктів.
• Рекурентні нейронні мережі (RNN, LSTM, Transformer) для створення текстових описів.
• Text-to-Speech (TTS) для синтезу звукових описів.
• Онтологічні підходи для структурування та логічного зв'язку описів.
Розробка такої інформаційної системи сприятиме інклюзивності та полегшить доступ до відеоконтенту для осіб з порушеннями зору. Запропонована система може бути інтегрована у:
• Онлайн-стрімінгові платформи (YouTube, Netflix, Disney+).
• Освітні ресурси (MOOC, університетські відеолекції).
• Музеї та культурні установи (аудіогіди з автоматичним описом відео).
• Мобільні додатки для людей з порушеннями зору.
Отже, створення інформаційної системи для автоматизованого опису відеоконтенту не тільки вирішить соціально важливу проблему, але й сприятиме розвитку технологій штучного інтелекту в інклюзивних рішеннях.
Актуальність цієї дипломної роботи визначена глобальною потребою забезпечення доступності відеоконтенту для людей з вадами зору. Поєднання методів комп'ютерного зору, обробки природної мови та глибинного навчання дозволить розробити інноваційну систему, яка сприятиме цифровій інклюзії та покращенню якості життя мільйонів людей.
Об'єкт дослідження – процес тифлокоментування відеоконтенту для осіб з вадами зору. Предмет дослідження – розробка засобів тифлокоментування для відеоконтенту.
Метою дослідження є створення та впровадження інформаційної системи, яка автоматично генерує текстові та голосові описи відеоконтенту для осіб з порушеннями зору, використовуючи технології штучного інтелекту, комп'ютерного зору та обробки природної мови.
Ця система повинна забезпечувати автоматичне розпізнавання вмісту відео, створення змістовних описів та генерування аудіокоментарів у реальному часі або для записаних відео.
Основні завдання, які виникають з мети дослідження:
• Аналіз існуючих рішень у сфері тифлокоментування та автоматичного опису відеоконтенту.
• Визначення вимог до інформаційної системи та вибір відповідних технологій (комп'ютерний зір, обробка природної мови, синтез мовлення).
• Розробка методів автоматичного розпізнавання ключових об'єктів і подій у відео за допомогою згорткових нейронних мереж (CNN) та моделей трансформерів (Vision Transformer).
• Створення алгоритмів генерації текстових описів за допомогою рекурентних нейронних мереж (RNN, LSTM) або сучасних мовних моделей (GPT, BERT).
• Розробка модуля синтезу мовлення (TTS) для автоматичного озвучення згенерованих описів.
• Реалізація прототипу системи з можливістю інтеграції у відеоплатформи або мобільні додатки.
• Тестування та оцінка ефективності системи, включаючи точність описів і зручність використання для людей з порушеннями зору.
Результати дослідження допоможуть підвищити доступність відеоконтенту для людей з порушеннями зору, що сприятиме цифровій інклюзії та розширить можливості адаптації технологій для всіх категорій населення.
The modern world is becoming increasingly visually oriented. Video content plays a significant role in various fields, such as education, entertainment, information technology, and professional activities. However, for individuals with visual impairments, access to this information is significantly limited. According to the World Health Organization (WHO), over 285 million people worldwide have some form of visual impairment, with approximately 39 million being completely blind. These individuals face challenges in perceiving video materials, limiting their participation in the cultural and informational space. Traditional methods, such as audio description (audio commentary), are useful but often have limited application due to the high cost of creating descriptions and their absence in most videos. Modern technologies already offer several solutions for adapting video content: • Manual audio description – an effective method, but it requires significant resources and time. • Automated text description generators – limited in accuracy and often fail to consider the scene's context. • Computer vision and artificial intelligence – allow automating the creation of audio descriptions, but still require improvements. Today, there is a need to create a system that combines modern technologies of artificial intelligence, computer vision, and natural language processing to automate the creation of video content descriptions. Thanks to the development of deep learning and neural network models for processing images and text, it is now possible to automate these processes. Key technologies that can be used include: • Convolutional neural networks (CNN) for video analysis and object detection. • Recurrent neural networks (RNN, LSTM, Transformer) for generating text descriptions. • Text-to-Speech (TTS) for synthesizing audio descriptions. • Ontological approaches for structuring and logically connecting descriptions. The development of such an information system will promote inclusivity and enhance the accessibility of video content for people with visual impairments. The proposed system can be integrated into: • Online streaming platforms (YouTube, Netflix, Disney+). • Educational resources (MOOCs, university video lectures). • Museums and cultural institutions (audio guides with automatic video descriptions). • Mobile applications for people with visual impairments. Thus, the creation of an automated video content description information system will not only solve a socially significant problem but also contribute to the development of artificial intelligence technologies in inclusive solutions. The relevance of this thesis is determined by the global need to ensure video content accessibility for people with visual impairments. The combination of computer vision, natural language processing, and deep learning methods will allow the development of an innovative system that will contribute to digital inclusion and improve the quality of life for millions of people. The object of research is the process of audio description for people with visual impairments. The subject of research is the creation of tools for audio description of video content. The aim of the research is to develop and implement an information system that automatically generates text and audio descriptions of video content for people with visual impairments based on artificial intelligence, computer vision, and natural language processing technologies. This system should ensure automatic recognition of video content, the creation of meaningful descriptions, and the generation of audio comments in real-time or for pre-recorded videos. The main tasks arising from the research objective are: • Analysis of existing solutions in the field of audio description, automated video content description systems, and image and text processing technologies. • Determining the requirements for the information system and selecting appropriate technologies (computer vision, natural language processing, speech synthesis). • Developing methods for automatic recognition of key objects and events in videos using convolutional neural networks (CNN) and transformer models (Vision Transformer). • Creating algorithms for generating text descriptions using recurrent neural networks (RNN, LSTM) or modern language models (GPT, BERT). • Developing a Text-to-Speech (TTS) module for automatically voicing generated descriptions. • Implementing a prototype information system with the possibility of integrating into video platforms or mobile applications. • Testing and evaluating the effectiveness of the developed system, including analyzing the accuracy of descriptions and ease of use for people with visual impairments. The results of the research will help improve the accessibility of video content for blind and visually impaired users, promoting digital inclusion and expanding the adaptability of information technologies for all population groups.
The modern world is becoming increasingly visually oriented. Video content plays a significant role in various fields, such as education, entertainment, information technology, and professional activities. However, for individuals with visual impairments, access to this information is significantly limited. According to the World Health Organization (WHO), over 285 million people worldwide have some form of visual impairment, with approximately 39 million being completely blind. These individuals face challenges in perceiving video materials, limiting their participation in the cultural and informational space. Traditional methods, such as audio description (audio commentary), are useful but often have limited application due to the high cost of creating descriptions and their absence in most videos. Modern technologies already offer several solutions for adapting video content: • Manual audio description – an effective method, but it requires significant resources and time. • Automated text description generators – limited in accuracy and often fail to consider the scene's context. • Computer vision and artificial intelligence – allow automating the creation of audio descriptions, but still require improvements. Today, there is a need to create a system that combines modern technologies of artificial intelligence, computer vision, and natural language processing to automate the creation of video content descriptions. Thanks to the development of deep learning and neural network models for processing images and text, it is now possible to automate these processes. Key technologies that can be used include: • Convolutional neural networks (CNN) for video analysis and object detection. • Recurrent neural networks (RNN, LSTM, Transformer) for generating text descriptions. • Text-to-Speech (TTS) for synthesizing audio descriptions. • Ontological approaches for structuring and logically connecting descriptions. The development of such an information system will promote inclusivity and enhance the accessibility of video content for people with visual impairments. The proposed system can be integrated into: • Online streaming platforms (YouTube, Netflix, Disney+). • Educational resources (MOOCs, university video lectures). • Museums and cultural institutions (audio guides with automatic video descriptions). • Mobile applications for people with visual impairments. Thus, the creation of an automated video content description information system will not only solve a socially significant problem but also contribute to the development of artificial intelligence technologies in inclusive solutions. The relevance of this thesis is determined by the global need to ensure video content accessibility for people with visual impairments. The combination of computer vision, natural language processing, and deep learning methods will allow the development of an innovative system that will contribute to digital inclusion and improve the quality of life for millions of people. The object of research is the process of audio description for people with visual impairments. The subject of research is the creation of tools for audio description of video content. The aim of the research is to develop and implement an information system that automatically generates text and audio descriptions of video content for people with visual impairments based on artificial intelligence, computer vision, and natural language processing technologies. This system should ensure automatic recognition of video content, the creation of meaningful descriptions, and the generation of audio comments in real-time or for pre-recorded videos. The main tasks arising from the research objective are: • Analysis of existing solutions in the field of audio description, automated video content description systems, and image and text processing technologies. • Determining the requirements for the information system and selecting appropriate technologies (computer vision, natural language processing, speech synthesis). • Developing methods for automatic recognition of key objects and events in videos using convolutional neural networks (CNN) and transformer models (Vision Transformer). • Creating algorithms for generating text descriptions using recurrent neural networks (RNN, LSTM) or modern language models (GPT, BERT). • Developing a Text-to-Speech (TTS) module for automatically voicing generated descriptions. • Implementing a prototype information system with the possibility of integrating into video platforms or mobile applications. • Testing and evaluating the effectiveness of the developed system, including analyzing the accuracy of descriptions and ease of use for people with visual impairments. The results of the research will help improve the accessibility of video content for blind and visually impaired users, promoting digital inclusion and expanding the adaptability of information technologies for all population groups.
Description
Keywords
Citation
Райта В. А. Інформаційна система опису відеоконтенту для осіб з вадами зору : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.126.00.00 — Інформаційні системи та технології (освітньо-наукова програма)“ / Владислав Андрійович Райта. — Львів, 2024. — 82 с.