Методи та засоби покращення точності розпізнавання об’єктів на мобільній платформі IOS у реальному часі

dc.citation.epage88
dc.citation.issue1
dc.citation.journalTitleКомп’ютерні системи та мережі
dc.citation.spage80
dc.citation.volume3
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.authorКушнір, Д. О.
dc.contributor.authorKushnir, D.
dc.coverage.placenameЛьвів
dc.coverage.placenameLviv
dc.date.accessioned2023-04-20T10:52:16Z
dc.date.available2023-04-20T10:52:16Z
dc.date.created2021-06-06
dc.date.issued2021-06-06
dc.description.abstractЗа результатами аналізу літературних джерел встановлено що перспективним напрямом пошуку та розпізнавання об’єктів є сім’я моделей Yolo. Проте наявні реалізації не підтримують можливості запуску моделі на платформі iOS. Для досягнення таких цілей розроблено комплексну масштабовану систему конвертації та підвищення точності розпізнавання довільних моделей на базі системи Docker. Методика покращення полягає у додаванні до оригінальної моделі додаткового шару із функцією активації Mish. Методика конвертації полягає в оперативному перетворенні довільної моделі Yolo у формат CoreML. Під час дослідження цих методик була створена модель нейронної мережі Yolov4_TCAR. Крім того, розроблено метод акселерації навантаження на CPU із використанням додаткового шару нейронної мережі з функцією активації Mish мовою Swift під мобільну платформу iOS. В результаті досліджено ефективність функції активації Mish, навантаження CPU мобільного пристрою, кількість використаної оперативної пам’яті та частоту кадрів у разі використання поліпшеної оригінальної моделі Yolov4-TCAR. Результати досліджень підтвердили функціонування алгоритму конвертації та підвищення точності моделі нейронної мережі у реальному часі
dc.description.abstractAs a result of the analytical review, it was established that the family of Yolo models is a promising area of search and recognition of objects. However, existing implementations do not support the ability to run the model on the iOS platform. To achieve these goals, a comprehensive scalable conversion system has been developed to improve the recognition accuracy of arbitrary models based on the Docker system. The method of improvement is to add a layer with the Mish activation function to the original model. The method of conversion is to quickly convert any Yolo model to CoreML format. As part of the study of these techniques, a model of the neural network Yolov4_TCAR was created. Additionally, a method of accelerating the load on the CPU using an additional layer of neural network with the function of activating Mish in Swift for the iOS mobile platform was added. As a result, the effectiveness of the Mish activation function, the CPU load of the mobile device, the amount of RAM used, and the frame rate when using the improved original Yolov4- TCAR model were studied. The results of the research confirmed the functioning of the algorithm for conversion and accuracy increase of the neural network model in real-time.
dc.format.extent80-88
dc.format.pages9
dc.identifier.citationКушнір Д. О. Методи та засоби покращення точності розпізнавання об’єктів на мобільній платформі IOS у реальному часі / Д. О. Кушнір // Комп’ютерні системи та мережі. — Львів : Видавництво Львівської політехніки, 2021. — Том 3. — № 1. — С. 80–88.
dc.identifier.citationenKushnir D. (2021) Metody ta zasoby pokrashchennia tochnosti rozpiznavannia obiektiv na mobilnii platformi IOS u realnomu chasi [Methods and means for real-time object recognition accuracy increase in video images on IOS mobile platform]. Kompiuterni systemy ta merezhi (Lviv), vol. 3, no 1, pp. 80-88 [in Ukrainian].
dc.identifier.doihttps://doi.org/10.23939/csn2021.01.080
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/57964
dc.language.isouk
dc.publisherВидавництво Львівської політехніки
dc.publisherLviv Politechnic Publishing House
dc.relation.ispartofКомп’ютерні системи та мережі, 1 (3), 2021
dc.relation.references1. Yuefeng Zhang (2020). Deep Learning for Detecting Objects in an Image on Mobile Devices [Online]. Available at: https://towardsdatascience.com/deep-learning-for-detecting-objects-in-an-image-on-mobile-devices7d5b2e5621f9 (Accessed: April 2020)
dc.relation.references2. Redmon J., Divvala S., Girshick R. and Farhadi A. (2016), “You Only Look Once: Unified, Real-Time Object Detection”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 779–788. DOI: 10.1109/CVPR.2016.91.
dc.relation.references3. Bochkovskiy A., Redmon J., Sinigardi S., cyy, Hager T., JaledMC, Maaz M., Zhang V., Alasuutari J., Kahn P., Ovodov I., Veitch-Michaelis J., Dujardin A., Aughey J., Patel A., duohappy, Aven, Smith D., White J., … Giordano M. (2021). AlexeyAB/darknet: YOLOv4 (Version yolov4). Zenodo. DOI: https://doi.org/10.5281/ zenodo.5622675.
dc.relation.references4. Kin-Yiu, W. (2021). Implementation of Scaled-YOLOv4 using PyTorch framework (v1.0.0). Zenodo. DOI: https://doi.org/10.5281/zenodo.5534091.
dc.relation.references5. Jocher G., Stoken A., Chaurasia A., Borovec J., NanoCode012, Xie Tao, Kwon Y., Kalen M., Changyu L., Fang J., Abhiram V., Laughing, tkianai, yxNONG, Skalski P., Hogan A., Nadar Jebastin, imyhxy, Mammana L., … wanghaoyang0106 (2021). ultralytics/yolov5: v6.0 – YOLOv5n 'Nano' models, Roboflow integration, TensorFlow export, OpenCV DNN support (v6.0). Zenodo. DOI: https://doi.org/10.5281/zenodo.5563715.
dc.relation.references6. Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao (2021). You Only Learn One Representation: Unified Network for Multiple Tasks [Online]. Available at: https://arxiv.org/abs/2105.04206 (Accessed: May 2021).
dc.relation.references7. Chamidu Supeshala (2020). YOLO v4 or YOLO v5 or PP-YOLO? [Online]. Available at: https://blog.roboflow.com/yolov5-is-here (Accessed: June 2020).
dc.relation.references8. Chaity Banerjee, Tathagata Mukherjee, and Eduardo Pasiliao. 2020. The Multi-phase ReLU Activation Function. In Proceedings of the 2020 ACM Southeast Conference (ACM SE '20). Association for Computing Machinery, New York, NY, USA, 239–242. DOI:https://doi.org/10.1145/3374135.3385313.
dc.relation.references9. Diganta Misra (2019). Mish: A Self Regularized Non-Monotonic Activation Function [Online]. Available at: https://arxiv.org/abs/1908.08681 (Accessed: June 2020).
dc.relation.references10. Joshi, V., Das, A., Sun, E., Mehta, R. R., Li, J., Gong, Y. (2021). Multiple Softmax Architecture for Streaming Multilingual End-to-End ASR Systems. Proc. Interspeech 2021, 1767–1771. DOI: 10.21437/Interspeech.2021-1298.
dc.relation.references11. Sridhar Narayan (1997). The generalized sigmoid activation function: Competitive supervised learning [Online]. DOI: https://doi.org/10.1016/S0020-0255(96)00200-9 (Accessed: June 1997).
dc.relation.references12. Abhishek Mishra. “Machine Learning for iOS Developers”, John Wiley & Sons, 2020. DOI: 10.1002/9781119602927.
dc.relation.references13. Shuangfeng Li (2020). TensorFlow Lite: On-Device Machine Learning Framework[J]. Journal of Computer Research and Development, 57(9): 1839–1853. DOI: https://doi.org/10.7544/issn1000-1239.2020.20200291.
dc.relation.references14. Opala M. (2018). TensorLite. Core ML vs TensorflowLite: ML Mobile Frameworks Comparison [Online]. Available at: https://www.netguru.com/blog/coreml-vs-tensorflow-lite-mobile (Accessed: December 2018).
dc.relation.references15. Merkel D. (2014). “Docker: lightweight Linux containers for consistent development and deployment”. Linux journal, No. 239, 2 [online]. Available at: https://www.linuxjournal.com/content/dockerlightweight-linux-containers-consistent-development-and-deployment (Accessed: May 2014).
dc.relation.references16. Kushnir D. and Paramud Y. (2020) “Model for Real-Time Object Searching and Recognizing on Mobile Platform”, 2020 IEEE 15th International Conference on Advanced Trends in Radioelectronics, Telecommunications and Computer Engineering (TCSET), 127–130. DOI: 10.1109/TCSET49122.2020.235407.
dc.relation.referencesen1. Yuefeng Zhang (2020). Deep Learning for Detecting Objects in an Image on Mobile Devices [Online]. Available at: https://towardsdatascience.com/deep-learning-for-detecting-objects-in-an-image-on-mobile-devices7d5b2e5621f9 (Accessed: April 2020)
dc.relation.referencesen2. Redmon J., Divvala S., Girshick R. and Farhadi A. (2016), "You Only Look Once: Unified, Real-Time Object Detection", 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 779–788. DOI: 10.1109/CVPR.2016.91.
dc.relation.referencesen3. Bochkovskiy A., Redmon J., Sinigardi S., cyy, Hager T., JaledMC, Maaz M., Zhang V., Alasuutari J., Kahn P., Ovodov I., Veitch-Michaelis J., Dujardin A., Aughey J., Patel A., duohappy, Aven, Smith D., White J., … Giordano M. (2021). AlexeyAB/darknet: YOLOv4 (Version yolov4). Zenodo. DOI: https://doi.org/10.5281/ zenodo.5622675.
dc.relation.referencesen4. Kin-Yiu, W. (2021). Implementation of Scaled-YOLOv4 using PyTorch framework (v1.0.0). Zenodo. DOI: https://doi.org/10.5281/zenodo.5534091.
dc.relation.referencesen5. Jocher G., Stoken A., Chaurasia A., Borovec J., NanoCode012, Xie Tao, Kwon Y., Kalen M., Changyu L., Fang J., Abhiram V., Laughing, tkianai, yxNONG, Skalski P., Hogan A., Nadar Jebastin, imyhxy, Mammana L., … wanghaoyang0106 (2021). ultralytics/yolov5: v6.0 – YOLOv5n 'Nano' models, Roboflow integration, TensorFlow export, OpenCV DNN support (v6.0). Zenodo. DOI: https://doi.org/10.5281/zenodo.5563715.
dc.relation.referencesen6. Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao (2021). You Only Learn One Representation: Unified Network for Multiple Tasks [Online]. Available at: https://arxiv.org/abs/2105.04206 (Accessed: May 2021).
dc.relation.referencesen7. Chamidu Supeshala (2020). YOLO v4 or YOLO v5 or PP-YOLO? [Online]. Available at: https://blog.roboflow.com/yolov5-is-here (Accessed: June 2020).
dc.relation.referencesen8. Chaity Banerjee, Tathagata Mukherjee, and Eduardo Pasiliao. 2020. The Multi-phase ReLU Activation Function. In Proceedings of the 2020 ACM Southeast Conference (ACM SE '20). Association for Computing Machinery, New York, NY, USA, 239–242. DOI:https://doi.org/10.1145/3374135.3385313.
dc.relation.referencesen9. Diganta Misra (2019). Mish: A Self Regularized Non-Monotonic Activation Function [Online]. Available at: https://arxiv.org/abs/1908.08681 (Accessed: June 2020).
dc.relation.referencesen10. Joshi, V., Das, A., Sun, E., Mehta, R. R., Li, J., Gong, Y. (2021). Multiple Softmax Architecture for Streaming Multilingual End-to-End ASR Systems. Proc. Interspeech 2021, 1767–1771. DOI: 10.21437/Interspeech.2021-1298.
dc.relation.referencesen11. Sridhar Narayan (1997). The generalized sigmoid activation function: Competitive supervised learning [Online]. DOI: https://doi.org/10.1016/S0020-0255(96)00200-9 (Accessed: June 1997).
dc.relation.referencesen12. Abhishek Mishra. "Machine Learning for iOS Developers", John Wiley & Sons, 2020. DOI: 10.1002/9781119602927.
dc.relation.referencesen13. Shuangfeng Li (2020). TensorFlow Lite: On-Device Machine Learning Framework[J]. Journal of Computer Research and Development, 57(9): 1839–1853. DOI: https://doi.org/10.7544/issn1000-1239.2020.20200291.
dc.relation.referencesen14. Opala M. (2018). TensorLite. Core ML vs TensorflowLite: ML Mobile Frameworks Comparison [Online]. Available at: https://www.netguru.com/blog/coreml-vs-tensorflow-lite-mobile (Accessed: December 2018).
dc.relation.referencesen15. Merkel D. (2014). "Docker: lightweight Linux containers for consistent development and deployment". Linux journal, No. 239, 2 [online]. Available at: https://www.linuxjournal.com/content/dockerlightweight-linux-containers-consistent-development-and-deployment (Accessed: May 2014).
dc.relation.referencesen16. Kushnir D. and Paramud Y. (2020) "Model for Real-Time Object Searching and Recognizing on Mobile Platform", 2020 IEEE 15th International Conference on Advanced Trends in Radioelectronics, Telecommunications and Computer Engineering (TCSET), 127–130. DOI: 10.1109/TCSET49122.2020.235407.
dc.relation.urihttps://towardsdatascience.com/deep-learning-for-detecting-objects-in-an-image-on-mobile-devices7d5b2e5621f9
dc.relation.urihttps://doi.org/10.5281/
dc.relation.urihttps://doi.org/10.5281/zenodo.5534091
dc.relation.urihttps://doi.org/10.5281/zenodo.5563715
dc.relation.urihttps://arxiv.org/abs/2105.04206
dc.relation.urihttps://blog.roboflow.com/yolov5-is-here
dc.relation.urihttps://doi.org/10.1145/3374135.3385313
dc.relation.urihttps://arxiv.org/abs/1908.08681
dc.relation.urihttps://doi.org/10.1016/S0020-0255(96)00200-9
dc.relation.urihttps://doi.org/10.7544/issn1000-1239.2020.20200291
dc.relation.urihttps://www.netguru.com/blog/coreml-vs-tensorflow-lite-mobile
dc.relation.urihttps://www.linuxjournal.com/content/dockerlightweight-linux-containers-consistent-development-and-deployment
dc.rights.holder© Національний університет „Львівська політехніка“, 2021
dc.rights.holder© Кушнір Д. О., 2021
dc.subjectYolo
dc.subjectалгоритм конвертації та покращення вхідної моделі
dc.subjectмодель нейронної мережі
dc.subjectфункція активації
dc.subjectакселерація CPU
dc.subjectмасштабована система
dc.subjectMish
dc.subjectDocker
dc.subjectреальний час
dc.subjectSwift
dc.subjectYolo
dc.subjectinput model conversion and improvement algorithm
dc.subjectneural network model
dc.subjectactivation function
dc.subjectCPU acceleration
dc.subjectscalable system
dc.subjectMish
dc.subjectDocker
dc.subjectreal time
dc.subjectSwift
dc.subject.udc004.415.2
dc.titleМетоди та засоби покращення точності розпізнавання об’єктів на мобільній платформі IOS у реальному часі
dc.title.alternativeMethods and means for real-time object recognition accuracy increase in video images on IOS mobile platform
dc.typeArticle

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
2021v3n1_Kushnir_D-Methods_and_means_for_real_80-88.pdf
Size:
795.33 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.75 KB
Format:
Plain Text
Description: