Інтелектуальна система агрегації новин

Теплий, Ярослав Богданович; Teplyi, Yaroslav Bohdanovych

Інтелектуальна система агрегації новин

Files

Primary 2022_31240000_Teplyi_Iaroslav_Bohdanovych_148827.pdf (3.79 MB)

Date

2022

Authors

Теплий, Ярослав Богданович

Teplyi, Yaroslav Bohdanovych

Publisher

Національний університет "Львівська політехніка"

Abstract

У епоху цифрових технологій, споживання новин значною мірою змістилося в сторону соціальних мереж та месенджерів. Ця зміна, зокрема в Україні [1], зумовила необхідність розробки систем агрегації новин, яка б відображала динамічний характер сучасного інформаційного середовища. Традиційні методи агрегації новин, вже не відповідають усім вимогам користувачів, тому зростає потреба в інтелектуальній системі агрегації новин, здатній ефективно збирати та обробляти новини з різних джерел, включаючи соціальні мережі та месенджери. Система, розроблена в цій роботі, використовує методи штучного інтелекту (AI) і обробки природної мови (NLP), щоб надавати користувачам персоналізований та релевантний контент. Об’єктом дослідження є процес агрегування новин із різноманітних джерел і надання персоналізованих рекомендацій на основі вподобань користувачів. Предмет дослідження охоплює методології та інструменти, залучені в розробці інтелектуальної системи агрегації новин, яка використовує методи AI та NLP для інтелектуального аналізу тексту новин. Метою дослідження є розробка інтелектуальної системи агрегації новин, яка надає функціонал для широкого спектра груп користувачів і полегшує інтеграцію із зовнішніми системами. Мета розробки системи полягає в тому, щоб надати користувачам доступ до останніх новин із різноманітних джерел, адаптованих до їхніх унікальних інтересів і вподобань. Розроблена система пропонує удосконалений підхід до агрегації новин, інтегруючи новини із нетрадиційних джерел, таких як соціальні мережі та месенджери, що гарантує користувачам доступ до актуальних новин із різних джерел та сприятиме розширенню кругозору та висвітленню різних думок. Використовуючи сучасні алгоритми обробки природної мови, система ефективно аналізує та класифікує великі обсяги даних, забезпечуючи таким чином надання інформації, яка відповідає інтересам користувачів. Система побудована на принципах прозорості, що дозволяє користувачам зрозуміти, чому їм рекомендовано ті чи інші новини та надає можливість налаштовувати стрічку новин відповідно до власних побажань. Система розроблена таким чином, щоб бути масштабованою, відмовостійкою та надавати відкриті API для легкої інтеграції з іншими службами та платформами. Така архітектура не тільки забезпечує доступність системи для широкого кола користувачів, але й сприяє розвитку спільноти розробників, які можуть покращити її функціональність. Для реалізації інтелектуальної складової системи, було проведено експериментальний аналіз чотирьох моделей рекомендацій новин. Цей аналіз включав DKN [4], NRMS [6], TANR [7] і NAML [5] моделі та став основою для інтелектуального компонента системи. Моделі оцінювалися на основі трьох типів вкладень слів: випадково ініціалізовані, контекстно-усереднених BERT [2] і GloVe [3]. Результати експерименту показують покращення в усіх моделях під час навчання з використанням контекстно-усереднених вкладень BERT та GloVe. Найкращі результати показала модель NAML із вкладенням GloVe, саме тому її було використано для надання рекомендації новин. Архітектура системи складається з кількох ключових компонентів, до них входять компоненти агрегації та обробки даних, компонент машинного навчання, компонент інтерфейсу користувача та бекенд компонент. Взаємодія між цими компонентами формує основу системи, забезпечуючи ефективний потік даних від збору, обробки до кінцевого відображення інформації для користувача. Для розробки компонентів машинного навчання було обрано Python разом із бібліотекою PyTorch, а базою даних було обрано MongoDB. Інтерфейс користувача доступний у вигляді Telegram бота та написаний на Java. Для розгортання та керування системою використовувалися Docker та Kubernetes. Очікується, що впровадження цієї інтелектуальної системи агрегації новин матиме численні позитивні наслідки. Серед них можна зазначити, покращення взаємодії з користувачем, швидкий доступ до інформації, підвищення обізнаності користувачів, повніше та збалансоване уявлення про поточні події та заохочення користувачів до нових тем і думок. Для власників і редакторів джерел новин система може надати цінну інформацію про вподобання користувачів і тенденції, які можна використовувати для оптимізації виробництва контенту. API системи дозволяє легко інтегрувати її зі сторонніми платформами та службами, розширюючи її охоплення та корисність. Нарешті, зібраний набір даних про новини можна використовувати для академічних досліджень, аналізу ринку та визначення тенденцій, сприяючи тим самим кращому розумінню динаміки інформаційного простору. Отже, інтелектуальна система агрегації новин, представлена у цій роботі, є значним удосконаленням у сфері споживання новин, пропонуючи комплексну, орієнтовану на користувача та універсальну платформу, яка відповідає динаміці розвитку сучасного інформаційного середовища. Система обіцяє значно покращити користувацький досвід та служитиме ресурсом для академічних і ринкових досліджень.
In the era of digital technologies, news consumption has significantly shifted towards social networks and messengers. This shift, particularly evident in Ukraine [1], has necessitated the development of news aggregation systems that reflect the dynamic nature of the contemporary information environment. Traditional news aggregation methods no longer meet all user requirements, hence there is a growing need for an intelligent news aggregation system capable of effectively gathering and processing news from various sources, including social networks and messengers. The system developed in this work uses artificial intelligence (AI) and natural language processing (NLP) methodologies to provide users with personalized and relevant content. Study object - the process of aggregating news from various sources and providing personalized recommendations based on user preferences. Scope of research - encompasses methodologies and tools involved in the development of an intelligent news aggregation system that uses AI and NLP methods for intelligent news text analysis. Goal of research: is to develop an intelligent news aggregation system that provides functionality for a broad spectrum of user groups and facilitates integration with external systems. The purpose of the system's development is to provide users with access to the latest news from various sources, tailored to their unique interests and preferences. The developed system offers an improved approach to news aggregation, integrating news from non-traditional sources such as social networks and messengers, thus ensuring users have access to timely news from various sources and fostering a broader perspective and the exposure of diverse opinions. Using advanced natural language processing algorithms, the system effectively analyzes and categorizes large volumes of data, thereby providing information that matches user interests. The system is built on principles of transparency, allowing users to understand why they are recommended certain news and giving them the ability to customize their news feed according to their preferences. The system is designed to be scalable, fault-tolerant, and to provide open APIs for easy integration with other services and platforms. This architecture not only ensures the system's accessibility to a broad range of users, but also promotes the development of a community of developers who can enhance its functionality. To implement the system's intelligent component, an experimental analysis of four news recommendation models was conducted. This analysis included the DKN [4], NRMS [6], TANR [7], and NAML [5] models and formed the basis for the system's intelligent component. Models were evaluated based on three types of word embeddings: randomly initialized, contextually averaged BERT [2], and GloVe [3]. The experiment's results show improvements in all models when trained with contextually averaged BERT and GloVe embeddings. The NAML model with GloVe embedding yielded the best results, and so it was selected for news recommendation. The system's architecture consists of several key components, including data aggregation and processing components, a machine learning component, a user interface component, and a backend component. The interaction between these components forms the basis of the system, ensuring an effective data flow from collection and processing to the final display of information to the user. Python along with the PyTorch library was chosen for the development of the machine learning components, and MongoDB was chosen as the database. The user interface is available as a Telegram bot and is written in Java. Docker and Kubernetes were used for deployment and system management. The implementation of this intelligent news aggregation system is expected to have numerous positive implications. These include improved user interaction, quick access to information, increased user awareness, a more comprehensive and balanced view of current events, and the encouragement of users to explore new topics and opinions. For news source owners and editors, the system can provide valuable information about user preferences and trends that can be used to optimize content production. The system's API allows for easy integration with third-party platforms and services, expanding its coverage and usefulness. Finally, the collected news dataset can be used for academic research, market analysis, and trend identification, thereby contributing to a better understanding of the dynamics of the information space. Therefore, the intelligent news aggregation system presented in this work is a significant advancement in the news consumption field, offering a comprehensive, user-oriented, and universal platform that responds to the dynamics of the modern information environment. The system promises to significantly improve the user experience and serve as a resource for academic and market research.

Keywords

3.124.00.00, – агрегація новин, моделі рекомендації новин, моделі трансформери, векторні представлення слів, інтелектуальні системи, news aggregation, news recommendation models, transformer models, word embeddings, intellectual systems

Citation

Теплий Я. Б. Інтелектуальна система агрегації новин : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.124.00.00 — Системний аналіз (освітньо-наукова програма)“ / Ярослав Богданович Теплий. — Львів, 2022. — 116 с.

URI

https://ena.lpnu.ua/handle/ntb/63577

Collections

Магістерські роботи

Full item page

Інтелектуальна система агрегації новин

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By