Ukrainian Journal of Information Technology
Permanent URI for this communityhttps://ena.lpnu.ua/handle/ntb/56854
Browse
Item Дослідження моделей для розпізнавання жестів з використанням 3D конволюційних нейронних мереж та візуальних трансформерів(Видавництво Львівської політехніки, 2023-02-28) Чорненький, В. Я.; Казимира, І. Я.; Chornenkyi, V. Ya.; Kazymyra, I. Ya.; Національний університет “Львівська політехніка”; Lviv Polytechnic National UniversityУ роботі розглядається актуальне завдання розпізнавання жестів з метою реформування способів до навчання військових, способів комунікації людини та машини та вдосконалення взаємодії людини-людини та людини-машини для осіб з обмеженими можливостями. Проаналізовано методи для розпізнавання жестів руки на основі компʼютерного зору, а також з використанням глибокого навчання. Описано принципи роботи моделей з використанням 3D конволюційних нейронних мереж та трансформерів, наведено їх структурні схеми та проаналізовано особливості функціонування складових. У межах 3D-CNN архітектури розглянуто конволюційну нейронну мережу з двома конволюційними шарами та двома шарами групування. Кожна 3D згортка отримується шляхом згортки ядра 3D-фільтра і складання декількох суміжних кадрів разом для отримання 3D-куба. У межах ViT архітектури розглянуто візуальний трансформер з Linear Projection, Transformer Encoder, двома підшарами: шар Multi-head SelfAttention (MSA) та шаром прямого поширення, також відомим як Multi-Layer Perceptron (MLP). На підставі досліджених архітектур проведено навчання моделей з використанням ASL та NUS-II наборів даних та розглянуто їх ефективність після 20 навчальних епох на основі показників відтворення, точності та F1-оцінки. Визначено вплив тривалості навчання на ефективність моделі з використанням ViT архітектури після 20 та 40 навчальних епох. Продемонстровано, в яких ситуаціях 3D конволюційні нейронні мережі та візуальні трансформери показують кращі результати точності, та обмеження, притаманні кожному підходу в умовах варіативності середовища та обчислювальних потужностей. Отримали подальший розвиток інноваційні архітектури для розпізнавання жестів руки з використанням глибокого навчання для майбутніх досліджень та реалізацій у програмних продуктах.