Покращення моделі інкрементального навчання з використанням потокової обробки даних

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет «Львівська політехніка»

Abstract

Бакалаврська кваліфікаційна робота виконана студентом групи КН-410 Сидь Андрієм Андрійовичем. Тема «Покращення моделі інкрементального навчання з використанням потокової обробки даних». Робота направлена на здобуття ступеня бакалавр за спеціальністю 122 «Комп’ютерні науки». Мета дипломної полягає у підвищенні стійкості та швидкості обробки потокових даних, та передачі цих даних в обробленому вигляді до системи інкрементального навчання. Досягнення мети відбувається шляхом розроблення системи, що використовує Apache Spark та модуль машинного навчання River. Апробацію роботи розробленої системи потокової обробки даних та інкрементального навчання здійснено з використанням різних обсягів даних згенерованих на основі набору даних для класифікації грудного раку. Об’єктом дослідження є процеси ефективного читання та обробки великого об’єму даних. Відмовостійкість системи та можливість її масштабування, коректність передбачень системи інкрементального навчання. Предметом досліджень є методи та алгоритми обробки великих даних, системи інкрементального навчання. У результаті виконання дипломної роботи розроблено систему, що здатна обробляти великі об’єми даних за малий час, виконувати обробку даних та тренування моделі інкрементального навчання в реальному часі. Також розроблено REST API інтерфейс для взаємодії із системою. Загальний обсяг роботи: 55 сторінок, 22 рисунків, 18 посилань. Bachelor degree work was performed by student CS-410 Syd Andriy Andriyovych. Topic «Improving the model of incremental learning using streaming data processing». The work is aimed at a bachelor's degree in 122 «Computer Science». The purpose of the diploma is to increase the stability and speed of processing streaming data, and the transfer of this data in a processed form to the system of incremental learning. The goal is achieved by developing a system that uses Apache Spark and the River machine learning module. Approbation of the developed system of streaming data processing and incremental training was carried out using different amounts of data generated on the basis of a data set for the classification of breast cancer. The object of research is the processes of efficient reading and processing of large amounts of data. Fault tolerance of the system and the possibility of its scaling, the correctness of the predictions of the incremental learning system. The subject of research is the methods and algorithms of big data processing, incremental learning systems. As a result of the thesis, a system has been developed that is capable of processing large amounts of data in a short time, performing data processing and training the model of incremental learning in real time. A REST API interface for system interaction has also been developed. Total volume of work: 55 pages, 22 figures, 18 links

Description

Citation

Сидь А. А. Покращення моделі інкрементального навчання з використанням потокової обробки даних : пояснювальна записка до бакалаврської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Андрій Андрійович Сидь ; Національний університет «Львівська політехніка». – Львів, 2022. – 54 с.

Endorsement

Review

Supplemented By

Referenced By