Система інтелектуального аналізу тексту (Text Mining) в режимі реального часу

dc.contributor.advisorБерко, Андрій Юліанович
dc.contributor.affiliationНаціональний університет "Львівська політехніка"
dc.contributor.authorЛях, Давид Романович
dc.contributor.authorLiakh, Davyd Romanovych
dc.coverage.placenameЛьвів
dc.date.accessioned2025-02-26T13:00:47Z
dc.date.created2021
dc.date.issued2021
dc.description.abstractПід час виконання цієї магістерської роботи виконується дослідження процес інтелектуального аналізу тексту в режимі реального часу, розглядається існуючі аналоги до розробленої системи. Також формується загальне значення про алгоритми аналізів текстів[1] загалом і як вони працюють при різних конфігураціях. В роботі формується наступне бачення такої системи, як системи яка призначена для аналізу текстових вибірок даних з мінімальними затратами часу та фінансів. Пізніше проводиться аналіз сьогоднішніх справ на ринку систем інтелектуального аналізу тексту в режимі реального часу. Також в роботі виконується порівняльна характеристика найбільш популярних систем аналізу тексту, а саме наступних систем: Lexalytics!, Microsoft Azure Text Analytics, Amazon Comprehend[2]. Також за результатами проведеного аналізу, обирається алгоритм та поведінка аналізу для виконання практичного завдання. В другому розділі проведено моделювання бізнес процесів, моделювання вимог проекту, таких як: бізнес вимоги, користувацькі вимоги, функціональні вимоги та нефункціональні вимоги також проведене моделювання об'єктів предметної області та моделювання процесів розв'язання задачі системи керування вмістом. Після чого, побудовані наступні UML-діаграми: діаграма варіантів використання, діаграма класів та діаграми діяльності. Ці діаграми відображають роботу обраної системи на прикладі пошуку співпадінь по датасетах даних. Далі в цій роботі представлено теорію по засобах, згідно з якими буде розроблено програмний продукт, а також будуть обґрунтовані ресурси, використані для розробки та реалізації проекту. Після теорії показаний повний процес ініціалізації та розгортання тестового продукту на базі обраних засобів для реалізації системи [3]. Розглядаються основні елементи цієї системи та проводиться їх огляд і тестування. Під час розробки використано середовище програмування – intellij idea Ultimate [4], платформа JAVA 11 [5], база даних Mongo DB [6], програмний фреймворк для реалізації режиму реального часу Apache Kafka [7]. Побудовано моделі та структуру цієї системи аналізу тексту, розроблено програмні модулі та протестована коректність роботи системи. В останньому розділі магістерської кваліфікаційної роботи проводиться розрахунок витрат на розробку програмного забезпечення системи. Проведено економічні розрахунки для відображення доцільності розробки програмно- апаратного комплексу, а також здійснено порівняння з існуючим аналогом. За результатами даних обчислень можна зробити висновок, що таке проектне рішення переважає над аналогом, а коефіцієнт конкурентоздатності становить 0,63. Отримано додатній економічний ефект у розмірі 11230,55грн. Тому можна зробити висновок, що розробка і впровадження даного проекту з використанням цієї системи є актуально. Об’єкт дослідження - система інтелектуального аналізу даних в режимі реального часу. Предмет дослідження - інтелектуальний аналіз тексту та його можливості в обробці та швидкості доставки даних Мета дослідження – ознайомитись з фундаментальною логікою, що лежить в основі аналізу тексту, задіяними аналітичними етапами та розробити іноваційну систему для розробки системи інтелектуального аналізу даних Результати дипломної роботи є те що досліджувана система надала можливості системи інтелектуального аналізу даних, яка готова для використання. Ця система є достатньо гнучкою для подальшої розробки та удосконалення та реалізована використовуючи сучасні технології, які дозволяють оптимізувати та покращити процес розробки програмного забезпечення в даній галузі.
dc.description.abstractDuring the performance of this master's work the research process of intellectual analysis of the text in real time is carried out, the existing analogues to the developed system are considered. It also forms a general meaning about the algorithms of text analysis [1] in general and how they work in different configurations. The paper forms the following vision of such a system as a system that is designed to analyze text samples of data with minimal time and money. Later, the analysis of today's cases in the market of text mining systems in real time. The paper also compares the most popular text analysis systems, namely the following systems: Lexalytics !, Microsoft Azure Text Analytics, Amazon Comprehend [2]. Also, based on the results of the analysis, the algorithm and behavior of the analysis is selected to perform a practical task. The second section provides modeling of business processes, modeling of project requirements, such as: business requirements, user requirements, functional requirements and non-functional requirements, also modeling of subject area objects and modeling of processes for solving the problem of content management system. Then, the following UML diagrams are constructed: usage diagram, class diagram and activity diagram. These diagrams show the operation of the selected system on the example of matching matches on datasets. Further in this work the theory on means according to which the software product will be developed, and also the resources used for development and realization of the project will be substantiated is presented. After the theory, the complete process of initialization and deployment of the test product on the basis of selected tools for system implementation is shown [3]. The main elements of this system are considered and reviewed and tested. During the development, a programming environment was used - intellij idea Ultimate [4], JAVA 11 platform [5], Mongo DB database [6], software framework for real-time implementation of Apache Kafka [7]. Models and are built the structure of this text analysis system, software modules have been developed and the correctness of the system operation has been tested. In the last section of the master's qualification work is the calculation of costs for software development system. Economic calculations were performed to reflect the feasibility of developing a software and hardware complex, as well as a comparison with the existing analogue. According to the results of these calculations, we can conclude that such a design solution prevails over the analogue, and the competitiveness factor is 0.63. A positive economic effect in the amount of UAH 11,230.55 was obtained. Therefore, we can conclude that the development and implementation of this project using this system is relevant. The object of research is a real-time data mining system. The subject of research is the intellectual analysis of the text and its possibilities in data processing and speed of data delivery The purpose of the study is to get acquainted with the fundamental logic that underlies the analysis of the text, the analytical stages involved and to develop an innovative system for the development of data mining The results of the thesis are that the studied system provided the capabilities of a data mining system that is ready for use. This system is flexible enough for further development and improvement and is implemented using modern technologies that allow you to optimize and improve the software development process in this area.
dc.format.pages101
dc.identifier.citationЛях Д. Р. Система інтелектуального аналізу тексту (Text Mining) в режимі реального часу : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „8.124.00.03 — Аналіз даних (Data Science)“ / Давид Романович Лях. — Львів, 2021. — 101 с.
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/63281
dc.language.isouk
dc.publisherНаціональний університет "Львівська політехніка"
dc.relation.referencesІнтелектуальний аналіз тексту. URL: https://uk.wikipedia.org/wiki/ Інтелектуальний_аналіз_тексту (дата звернення: 01.11.2021).
dc.relation.referencesWhat Is Amazon Comprehend?. URL: https://docs.aws.amazon.com/comprehend/latest/dg/what-is.html (дата звернення: 01.11.2021).
dc.relation.referencesElasticsearch: What It Is, How It Works, And What It’s Used For? URL: https://www.knowi.com/blog/what-is-elastic-search/ (дата звернення: 01.11.2021).
dc.relation.referencesWhat Does IntelliJ IDEA Mean? URL: https://www.techopedia.com/definition/7755/intellij-idea (дата звернення: 11.11.2021).
dc.relation.referencesWhat is Java technology and why do I need it??. URL: https://www.java.com/en/download/help/whatis_java.html (дата звернення: 11.11.2021).
dc.relation.referencesWhat is MongoDB? Introduction, Architecture, Features & Example. URL: https://www.guru99.com/what-is-mongodb.html (дата звернення: 11.11.2021).
dc.relation.referencesWhat is Apache Kafka?. URL: https://www.confluent.io/what-is-apache-kafka/ (дата звернення: 11.11.2021)
dc.rights.holder© Національний університет "Львівська політехніка", 2021
dc.rights.holder© Лях, Давид Романович, 2021
dc.subject8.124.00.03
dc.subjecttext-mining
dc.subjectсистема інтелектуального аналізу даних
dc.subjectрежим реального часу
dc.subjectKafka
dc.subjectElasticSearch
dc.subjectAmazon
dc.subjectшаблон
dc.subjectмодуль
dc.subjecttext-mining
dc.subjectdata mining system
dc.subjectreal-time mode
dc.subjectKafka
dc.subjectElasticSearch
dc.subjectAmazon
dc.subjecttemplate
dc.subjectmodule. List of used literature sources. 1. Intellectual analysis of the text. URL: https://uk.wikipedia.org/wiki/ Intellectual_analysis_of_text (access date: 01.11.2021). 2. What Is Amazon Comprehend ?. URL: https://docs.aws.amazon.com/comprehend/latest/dg/what-is.html (access date: 01.11.2021). 3. Elasticsearch: What It Is
dc.subjectHow It Works
dc.subjectAnd What It’s Used For? URL: https://www.knowi.com/blog/what-is-elastic-search/ (access date: 01.11.2021). 4. What Does IntelliJ IDEA Mean? URL: https://www.techopedia.com/definition/7755/intellij-idea (access date: 11.11.2021). 5. What is Java technology and why do I need it ??. URL: https://www.java.com/en/download/help/whatis_java.html (accessed 11.11.2021). 6. What is MongoDB? Introduction
dc.subjectArchitecture
dc.subjectFeatures & Example. URL: https://www.guru99.com/what-is-mongodb.html (access date: 11/11/2021). 7. What is Apache Kafka ?. URL: https://www.confluent.io/what-is-apache-kafka/ (access date: 11.11.2021)
dc.titleСистема інтелектуального аналізу тексту (Text Mining) в режимі реального часу
dc.title.alternativeIntelligent text analysis system (Text Mining) in real time
dc.typeStudents_diploma

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2021_81240003_Liakh_Davyd_Romanovych_125164.pdf
Size:
1.49 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
2.91 KB
Format:
Plain Text
Description: