Дослідження методів управління процесами збору та аналізу даних в розподілених інформаційних системах

Loading...
Thumbnail Image

Date

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет "Львівська політехніка"

Abstract

Сьогодні багато програм вимагають можливість працювати з великими обсягами даних, на відміну від необхідності у обчислювальних можливостях, сира потужність процесора не часто є обмежувальним фактором для цих систем - більшими проблемами, як правило, є обсяг даних, складність даних та швидкість, з якою вони змінюються [1]. За останні роки з’явилося багато нових інструментів для зберігання та обробки даних. Вони оптимізовані для різноманітних випадків використання, і більше не входять у традиційні категорії [2]. Наприклад, існують сховища даних, які також використовуються як черги повідомлень (Redis), а є черги повідомлень із гарантіями зберігання, подібними до бази даних (Apache Kafka), дані про такі рішення стають не систематизованими. Одночасно розвиваються напрями які продукують значні об’єми даних які вимагають від систем можливості обробляти, зберігати та аналізувати значні об’єми даних в короткий проміжок часу [3]. У магістерській кваліфікаційній роботі представлено моделі представлення даних сучасних сховищ, структури організації пошукових індексів в залежності від способу використання. Окреслено інформаційні системи в залежності від способу використання такі як OLTP (Online transaction processing) та OLAP (Online analytics processing) [4]. Проведено аналіз, узагальнення, пояснення, та класифікацію методів аналізу та обробки даних в розподілених інформаційних системах [5]. Побудовано розподілену інформаційну систему для обробки та зберігання великих об’ємів даних від пристроїв IoT, яка здатна в реальному часі реагувати на зміни показників виміряної температури (шляхом використання потокової обробки за допомогою розподіленого брокеру повідомлень) та продукувати нові події в системі які можуть попереджати про наростання температури, виникнення пожежі та її зупинку, використовуючи пакетну обробку з застосуванням машинного навчання система здатна обробити історично накоплені дані та виявити групи непрацездатних датчиків. Проведено аналіз результатів роботи розробленої системи в ході якого було підтверджено зверхність виокремлених раніше методів [6]. Об’єкт дослідження - розподілені інформаційні системи. Предмет дослідження - методи аналізу, обробки та управління процесами збору та зберігання великих об’ємів даних. Мета дослідження: розглянути методи для зберігання та обробки даних в великих кількостях, виокремити найбільш доречні до використання, окреслити їх межі та сфери використання та емпірично довести працездатність цих методів. Результати дослідження: встановлено що потокова та пакетна обробка не є взаємозамінними, хоч це можливо, методи слід використовувати в певних рамках, потоку обробку - в системах реального часу, а пакетну обробку - в системах де час виконання проведення аналітики не є важливим [7]. Аналіз потокової системи показав, що потокова обробка за допомогою розподіленого брокеру повідомлень дозволяє не тільки обробляти дані в майже реальному часі, але й проводити складну агрегацію (Сomplex Event Processing) та аналітику в системі, та дозволяє реалізовувати підходи які дозволяють відновлювати систему внаслідок збою її роботи, (наприклад підходи Change Data Capture та Event Sourcing) [8]. Внаслідок розгляду пакетної обробки за допомогою систем подібних до Map-Reduce та розподілених файлових систем було встановлено що їхні можливості набагато ширші у сфері аналітики ніж можливості баз даних MPP (Massive Parallel Processing), скільки дозволяють проводити не тільки складні агрегації на великих об'ємах даних але й застосовувати алгоритми машинного навчання задля досягнення цілей системи [9].
Today, many programs require the ability to work with large amounts of data, as opposed to the need for computing power, raw CPU power is not often a limiting factor for these systems – real problems are usually the amount of data, data complexity and speed of it changing [1]. Many new data storage and processing tools have emerged in recent years. They are optimized for a variety of use cases, and no longer fall into traditional categories [2]. For example, there are data warehouses that are also used as message queues (Redis), and there are message queues with storage guarantees like a database (Apache Kafka), proper usage of such systems becomes unclear. At the same time, there are areas that produce large amounts of data that require systems to process, store and analyze large amounts of data in a short period of time [3]. The master's thesis presents data models of modern databases, the structure of the organization of search indexes depending on the method of use. Information systems depending on the method of use such as OLTP (Online transaction processing) and OLAP (Online analytics processing) are outlined [4]. Performed analysis, generalization, explanation, and classification of methods of analysis and data processing in distributed information systems [5]. Through the work was build the distributed information system for processing and storing large amounts of data from IoT devices, which can respond in real time to temperature changes (using streaming with a distributed message broker) and produce new events that can warn of temperature growth, the occurrence of fire and its stop, using batch processing and machine learning, the system can process historically accumulated data and detect groups of broken sensors. By means of examination of results of work of developed system was outlined superiority, described earlier, method for data processing [6]. Study object - distributed information systems. Subject of research - methods of analysis, processing and management of data collection and storage processes. Goal of research: to research methods for storing and processing data in large quantities, to identify the most appropriate for use, outline their boundaries and areas of usage and to empirically prove the effectiveness of these methods. The results of the study: it is established that stream and batch processing are not interchangeable, although it is possible, the methods should be used within certain boundaries, stream processing - for real-time systems, whereas batch processing – for systems where analytics time is not important [7]. Analysis of the streaming system showed that streaming with a distributed message broker allows not only to process data in near real time, but also to perform complex aggregation (Complex Event Processing) and analytics in the system and allows to implement approaches to restore the system to functioning state in case of failure. (e.g. Change Data Capture and Event Sourcing approaches) [8]. Considering batch processing using systems such as Map-Reduce and distributed file systems, it was found that their capabilities are much wider in the field of analytics than the capabilities of MPP databases (Massive Parallel Processing), as they allow not only complex aggregations on large amounts of data but also gives a possibility to apply machine learning algorithms to achieve the goals of the system [9].

Description

Keywords

3.172.00.00

Citation

Журавель С. С. Дослідження методів управління процесами збору та аналізу даних в розподілених інформаційних системах : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.172.00.00 — Телекомунікації та радіотехніка (освітньо-наукова програма)“ / Станіслав Сергійович Журавель. — Львів, 2020.

Endorsement

Review

Supplemented By

Referenced By