Магістерські роботи
Permanent URI for this collectionhttps://ena.lpnu.ua/handle/ntb/62310
Browse
Item Дослідження методів управління процесами збору та аналізу даних в розподілених інформаційних системах(Національний університет "Львівська політехніка", 2020) Журавель, Станіслав Сергійович; Zhuravel, Stanislav Serhiiovych; Селюченко, Мар'ян Олександрович; Національний університет "Львівська політехніка"Сьогодні багато програм вимагають можливість працювати з великими обсягами даних, на відміну від необхідності у обчислювальних можливостях, сира потужність процесора не часто є обмежувальним фактором для цих систем - більшими проблемами, як правило, є обсяг даних, складність даних та швидкість, з якою вони змінюються [1]. За останні роки з’явилося багато нових інструментів для зберігання та обробки даних. Вони оптимізовані для різноманітних випадків використання, і більше не входять у традиційні категорії [2]. Наприклад, існують сховища даних, які також використовуються як черги повідомлень (Redis), а є черги повідомлень із гарантіями зберігання, подібними до бази даних (Apache Kafka), дані про такі рішення стають не систематизованими. Одночасно розвиваються напрями які продукують значні об’єми даних які вимагають від систем можливості обробляти, зберігати та аналізувати значні об’єми даних в короткий проміжок часу [3]. У магістерській кваліфікаційній роботі представлено моделі представлення даних сучасних сховищ, структури організації пошукових індексів в залежності від способу використання. Окреслено інформаційні системи в залежності від способу використання такі як OLTP (Online transaction processing) та OLAP (Online analytics processing) [4]. Проведено аналіз, узагальнення, пояснення, та класифікацію методів аналізу та обробки даних в розподілених інформаційних системах [5]. Побудовано розподілену інформаційну систему для обробки та зберігання великих об’ємів даних від пристроїв IoT, яка здатна в реальному часі реагувати на зміни показників виміряної температури (шляхом використання потокової обробки за допомогою розподіленого брокеру повідомлень) та продукувати нові події в системі які можуть попереджати про наростання температури, виникнення пожежі та її зупинку, використовуючи пакетну обробку з застосуванням машинного навчання система здатна обробити історично накоплені дані та виявити групи непрацездатних датчиків. Проведено аналіз результатів роботи розробленої системи в ході якого було підтверджено зверхність виокремлених раніше методів [6]. Об’єкт дослідження - розподілені інформаційні системи. Предмет дослідження - методи аналізу, обробки та управління процесами збору та зберігання великих об’ємів даних. Мета дослідження: розглянути методи для зберігання та обробки даних в великих кількостях, виокремити найбільш доречні до використання, окреслити їх межі та сфери використання та емпірично довести працездатність цих методів. Результати дослідження: встановлено що потокова та пакетна обробка не є взаємозамінними, хоч це можливо, методи слід використовувати в певних рамках, потоку обробку - в системах реального часу, а пакетну обробку - в системах де час виконання проведення аналітики не є важливим [7]. Аналіз потокової системи показав, що потокова обробка за допомогою розподіленого брокеру повідомлень дозволяє не тільки обробляти дані в майже реальному часі, але й проводити складну агрегацію (Сomplex Event Processing) та аналітику в системі, та дозволяє реалізовувати підходи які дозволяють відновлювати систему внаслідок збою її роботи, (наприклад підходи Change Data Capture та Event Sourcing) [8]. Внаслідок розгляду пакетної обробки за допомогою систем подібних до Map-Reduce та розподілених файлових систем було встановлено що їхні можливості набагато ширші у сфері аналітики ніж можливості баз даних MPP (Massive Parallel Processing), скільки дозволяють проводити не тільки складні агрегації на великих об'ємах даних але й застосовувати алгоритми машинного навчання задля досягнення цілей системи [9].