Удосконалення процесу генерації робочих програм засобами великих даних
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет «Львівська політехніка»
Abstract
Магістерська кваліфікаційна робота виконана студентом групи КНСШ-21 Альчуком Іваном Івановичем. Тема “Удосконалення процесу генерації робочих програм засобами великих даних”. Робота направлена на здобуття ступеня магістра за спеціальністю 122 «Комп’ютерні науки». Метою дипломної роботи є розробка веб-додатку для трансформації неструктурованих та напівструктурованих даних у структурований формат, що дозволить автоматично генерувати файли робочих програм і забезпечити уніфікований доступ до всіх вхідних даних, організованих у Data Lake. Об’єкт дослідження — це централізоване сховище даних, що підтримує різні формати та типи даних, а також процеси перетворення неструктурованої та напівструктурованої інформації у структуровану. Предмет дослідження включає архітектуру та програмне забезпечення для реалізації Data Lake, а також методи попередньої обробки даних. Для досягнення поставленої мети створено програмний фасад, який забезпечує уніфіковану роботу з кількома сховищами, реалізує пайплайни
попередньої обробки визначених вхідних даних і функції генерації робочих файлів. Попередня обробка даних виконується за допомогою набору бібліотек, призначених для роботи з різними типами файлів. Коректність генерації вихідних файлів перевірено шляхом мануального та автоматизованого тестування на основі заздалегідь підготовлених та перевірених файлів з однаковими тестовими параметрами. У результаті виконаної роботи створено веб-додаток, який є універсальним джерелом для роботи з неопрацьованими даними, тобто вхідними файлами різних форматів, і з обробленими файлами — згенерованими робочими програмами. Master`s qualification work was completed by a student of the KNSSH-21 group Ivan Alchuk Ivanovych. The topic is " Improving the process of generating work programs using big data". The work is aimed at obtaining a master’s degree in 122 "Computer Science". The purpose of this thesis is to develop a web application for transforming unstructured and semi-structured data into a structured format, which will allow for the automatic generation of syllabi files and provide unified access to all input data organized in a Data Lake. The object of research is a centralized data repository that supports various data formats and types, as well as the processes of converting unstructured and semistructured information into a structured format. The subject of research includes the architecture and software for implementing a Data Lake, as well as methods of data preprocessing. To achieve the set goal, a software facade was created that provides unified access to multiple data repositories, implements pipelines for preprocessing defined input data, and includes functions for generating syllabi files. Data preprocessing is performed using a set of libraries designed to work with different file types. The correctness of the generated output files was verified through manual and automated testing based on pre-prepared and verified files with identical test parameters. As a result of the work, a web application was developed that serves as a universal source for working with raw data, i.e., input files of various formats, and processed files.
Description
Citation
Альчук І. І. Удосконалення процесу генерації робочих програм засобами великих даних : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Іван Іванович Альчук ; Національний університет «Львівська політехніка». – Львів, 2024. – 68 с.