Динамічне ранжування контенту з використанням класифікації тексту

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет "Львівська політехніка"

Abstract

Магістерська кваліфікаційна дипломна робота присвячена аналізу та дослідженню методів динамічного ранжування контенту з використанням адаптивної класифікації тексту. У дослідженні розглянуто широкий спектр питань, що включають класифікацію текстових даних, аналіз існуючих алгоритмів обробки та оцінку ефективності запропонованих методів у контексті оптимізації роботи інформаційних систем. Тема роботи охоплює важливі аспекти інтерактивної взаємодії користувачів із контентом, які спрямовані на забезпечення персоналізованих і релевантних результатів. Зібрані дані підкреслюють значення таких елементів, як адаптивна класифікація тексту, яка враховує зміни у вподобаннях користувачів, і алгоритми ранжування, які впроваджують контекстуальні та тематичні зв’язки. Ці методи мають вирішальне значення для функціонування сучасних інформаційних систем, включно з пошуковими платформами, новинними агрегаторами та соціальними мережами. Робота також акцентує увагу на важливості попередньої обробки текстових даних, яка включає токенізацію, лематизацію, виділення сутностей і визначення ключових слів. Цей етап є критично важливим для забезпечення точності і швидкості обчислень на наступних етапах класифікації та ранжування. Об'єктом дослідження є процеси динамічного ранжування контенту та обробки текстових даних у сучасних інформаційних системах. Предметом дослідження є алгоритми адаптивної класифікації тексту та методи ранжування, які забезпечують точність, релевантність і персоналізацію результатів для користувачів. Метою роботи є аналіз і розробка ефективного підходу до динамічного ранжування контенту з використанням адаптивних моделей для покращення роботи інформаційних систем у реальному часі. 8 У першому розділі, "Огляд і аналіз сучасних систем ранжування контенту", проведено детальний аналіз існуючих підходів до обробки даних у пошукових системах, новинних агрегаторах і соціальних мережах. Основну увагу приділено проблемам релевантності, контекстуальності й адаптивності систем, а також недолікам, пов'язаним із недостатньою персоналізацією, відсутністю багатомовної підтримки та маніпулятивним контентом. Аналіз показав, що традиційні методи ранжування не завжди враховують змінні потреби користувачів і виклики багатомовного середовища. Другий розділ, "Обґрунтування вибору методів і технологій", присвячено вибору ефективних інструментів і платформ для реалізації адаптивних алгоритмів класифікації тексту та динамічного ранжування контенту. Особливу увагу приділено вибору обчислювальних платформ, бібліотек для обробки тексту (таких як SpaCy і TensorFlow), а також методів інтеграції з великими базами даних і API. У розділі наведено обґрунтування вибору алгоритмів машинного навчання, які забезпечують адаптивність до змін користувацьких уподобань і поведінки. Третій розділ зосереджено на розробці та реалізації алгоритму динамічного ранжування контенту з урахуванням сучасних викликів. У ньому описано методологію побудови системи, зокрема її архітектуру, інтеграцію модулів обробки природної мови (NLP) і класифікації тексту, а також механізм адаптивного ранжування. Особливу увагу приділено зворотному зв’язку з користувачем, автоматичному інкрементальному навчання алгоритмів та інтеграції модерації для виявлення маніпулятивного або небажаного контенту. Результати досліджень показали ефективність запропонованих методів у контексті зменшення затримок обробки, підвищення точності класифікації та релевантності контенту. У межах експериментального тестування система продемонструвала на 15% вищу швидкість ранжування та на 12% точнішу класифікацію порівняно з аналогами. 9
The master's qualification thesis is dedicated to the analysis and research of dynamic content ranking methods using adaptive text classification. The study addresses a wide range of topics, including text data classification, analysis of existing processing algorithms, and evaluation of the efficiency of the proposed methods in the context of optimizing the performance of information systems. The topic of the thesis covers critical aspects of interactive user interaction with content, aimed at providing personalized and relevant results. The collected data emphasize the importance of elements such as adaptive text classification, which accounts for changes in user preferences, and ranking algorithms that implement contextual and thematic relationships. These methods are crucial for the functioning of modern information systems, including search platforms, news aggregators, and social networks. The work also highlights the significance of preprocessing textual data, which includes tokenization, lemmatization, entity recognition, and keyword extraction. This stage is critical to ensuring accuracy and computational efficiency in subsequent stages of classification and ranking. Ranking and classification methods are evaluated based on criteria such as relevance, contextuality, performance, and adaptability. Particular attention is paid to minimizing computational costs, improving system responsiveness, reducing the frequency of erroneous recommendations, and enhancing the overall user experience. This research also considers the needs of multilingual systems and the adaptation of algorithms to the specific features of various languages. The object of the research is the processes of dynamic content ranking and text data processing in modern information systems. The subject of the research is algorithms for adaptive text classification and ranking methods that ensure accuracy, relevance, and personalization of results for users. 11 The purpose of the work is to analyze and develop an effective approach to dynamic content ranking using adaptive models to improve the performance of information systems in real time. In the first chapter, "Review and Analysis of Modern Content Ranking Systems," a detailed analysis of existing approaches to data processing in search systems, news aggregators, and social networks is presented. The primary focus is on the issues of relevance, contextuality, and adaptability of systems, as well as the shortcomings associated with insufficient personalization, lack of multilingual support, and manipulative content. The analysis revealed that traditional ranking methods do not always address the changing needs of users and the challenges of a multilingual environment. The second chapter, "Justification for the Choice of Methods and Technologies," is devoted to selecting effective tools and platforms for implementing adaptive text classification algorithms and dynamic content ranking. Particular attention is given to the selection of computational platforms, text processing libraries (such as SpaCy and TensorFlow), and methods for integrating with large databases and APIs. The chapter provides a rationale for the selection of machine learning algorithms that ensure adaptability to changes in user preferences and behavior. The third chapter focuses on the development and implementation of a dynamic content ranking algorithm that addresses modern challenges. It describes the methodology for building the system, including its architecture, the integration of natural language processing (NLP) and text classification modules, and the adaptive ranking mechanism. Special emphasis is placed on user feedback, automatic incremental training of algorithms, and the integration of moderation mechanisms to identify manipulative or undesirable content. The research results demonstrated the effectiveness of the proposed methods in reducing processing delays, improving classification accuracy, and enhancing content relevance. During experimental testing, the system exhibited 15% faster ranking and 12% more accurate classification compared to existing counterparts. 12

Description

Keywords

8.174.00.06, динамічне ранжування контенту, адаптивна класифікація тексту, обробка природної мови (NLP), алгоритми машинного навчання, персоналізація, інформаційні системи. ПЕРЕЛІК ВИКОРИСТАНИХ ЛІТЕРАТУРНИХ ДЖЕРЕЛ 1. Гуренко Ю. М. "Технології штучного інтелекту для інформаційних систем". Київ: Науково-технічне видавництво, 2021. 2. Олійник С. Г., Мельник В. В. "Моделювання систем обробки даних". Харків: Видавництво "Ранок", 2022. 3. Кравчук П.О., "Методи та засоби обробки даних в системах Інтернету речей", Львів: Видавництво Національного університету "Львівська політехніка", 2019 4. Литвин В. В., Висоцька В. А., Досин Д. Г. "Методи та засоби опрацювання інформаційних ресурсів на основі онтологій". Львів: Видавництво Львівської політехніки 5. Висоцька В. А. "Аналіз та синтез комп’ютерних лінгвістичних систем опрацювання україномовного текстового контенту": автореф. дис. ... д-ра техн. наук. Львів: Національний університет "Львівська політехніка", 2021. 6. Чирун В., Висоцька В. А. "Метод контент-аналізу текстової інформації інтернет-газети" // Науковий вісник НУ "Львівська політехніка". Серія: Інформаційні системи та мережі. – 2017. – № 864 10, dynamic content ranking, adaptive text classification, natural language processing (NLP), machine learning algorithms, personalization, information systems. LIST OF REFERENCES 1. Gurenko Y. M. "Artificial Intelligence Technologies for Information Systems". Kyiv: Scientific and Technical Publishing House, 2021. 2. Oliinyk S. H., Melnyk V. V. "Modeling Data Processing Systems". Kharkiv: Ranok Publishing, 2022. 3. Kravchuk P. O. "Methods and Tools for Data Processing in Internet of Things Systems". Lviv: Publishing House of the National University "Lviv Polytechnic", 2019. 4. Lytvyn V. V., Vysotska V. A., Dosyn D. H. "Methods and Tools for Processing Information Resources Based on Ontologies". Lviv: Lviv Polytechnic Publishing House. 5. Vysotska V. A. "Analysis and Synthesis of Computer Linguistic Systems for Processing Ukrainian Text Content": abstract of doctoral dissertation in technical sciences. Lviv: National University "Lviv Polytechnic", 2021. 6. Chyrun V., Vysotska V. A. "Method of Content Analysis of Textual Information in Online Newspapers". // Scientific Bulletin of NU "Lviv Polytechnic". Series: Information Systems and Networks. – 2017. – № 864. 13

Citation

Бешта Я. Т. Динамічне ранжування контенту з використанням класифікації тексту : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „8.174.00.06 — Комп'ютеризовані системи управління та автоматика“ / Ярослав Тарасович Бешта. — Львів, 2024. — 88 с.

Endorsement

Review

Supplemented By

Referenced By