Інформаційна система виявлення джерел фейків та пропаганди на основі bigdata analysis
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
Магістерська робота присвячена розробці інформаційної системи виявлення джерел фейкової інформації та пропаганди на основі аналізу великих даних. Враховуючи актуальність проблеми дезінформації, яка є невід’ємною частиною сучасних інформаційних воєн, зокрема у глобальному інформаційному просторі та в контексті гібридних загроз, розробка автоматизованих систем для виявлення маніпулятивного контенту та ідентифікації його джерел є надзвичайно потрібною.
Основною метою роботи було створення архітектури та прототипу інформаційної системи, яка здатна здійснювати масштабований збір, обробку, аналіз та інтерпретацію контенту із різноманітних джерел — соціальних мереж, месенджерів, новинних сайтів — з метою виявлення ознак умисного інформаційного впливу.
У першому розділі роботи проведено глибокий аналітичний огляд літератури, що охоплює питання дефініцій фейків і пропаганди, методи їх виявлення, техніки контентного і мережевого аналізу, а також огляд наявних рішень для боротьби з дезінформацією (StopFake, EUvsDisinfo, Texty.org.ua, CrowdTangle та ін.). Проаналізовано переваги і обмеження існуючих інструментів, що у випадку більшості проектів зводяться до обмеженої автоматизації, низької швидкодії або орієнтації лише на фактчекінг в ручному режимі.
У другому розділі виконано системний аналіз предметної області, визначено об’єкти і мету дослідження, побудовано дерево цілей, сформовано архітектурну декомпозицію системи. Запропонована модульна структура, яка включає підсистеми збору інформації, попередньої обробки, аналізу контенту, ідентифікації джерел, зберігання даних та формування аналітичних звітів. Кожний модуль опрацьований з урахуванням функціональних вимог, навантаження, реалій україномовного контенту.
У третьому розділі виконано проєктування основних компонентів інформаційної системи, зокрема обрано технології (Elasticsearch, Spark, Python, Scikit-learn, NetworkX, Telegram API, Twitter API, PostgreSQL, Flask, Grafana тощо), визначено підходи до обробки неструктурованих текстів і метаданих, реалізовано інструменти семантичного аналізу, класифікації, детекції емоційної маніпуляції та скоординованих інформаційних кампаній. Описано архітектурні патерни, використані діаграми UML (варіантів використання, класів, послідовності, діяльності) з метою візуалізації взаємодії компонентів і суб’єктів системи.
У четвертому розділі представлено результати розробки функціонального прототипу інформаційної системи. Тестування проводилось на основі даних із соціальних мереж, зібраних через власно розроблені модулі збору. Ключовими функціями прототипу стали автоматичне класифікування текстів за визначенням ймовірності дезінформації, виявлення джерел поширення, візуалізація графів зв’язків між акаунтами та інтерактивні дашборди. Реалізовано механізм взаємодії із модератором для верифікації спірних результатів, що є необхідною умовою точності та довіри до результатів.
Насамкінець, робота підтвердила доцільність та ефективність інтеграції технологій обробки великих даних, штучного інтелекту і текстового аналізу для боротьби з фейками, створення інструменту, що може інтегруватись у системи моніторингу медіаполя, забезпечувати підтримку журналістської розвідки, допомогу державним інституціям та інформування громадськості. Отримані результати мають високу практичну значущість і та перспективи для подальшого розвитку та впровадження на території України.
The master's thesis is dedicated to the development of an information system for detecting sources of fake news and propaganda based on big data analysis. Given the relevance of the disinformation issue, which is an integral part of modern information warfare—particularly in the context of global hybrid threats—the development of automated systems for identifying manipulative content and tracing its origins is extremely important. The main goal of the thesis was to create an architecture and a prototype of an information system capable of scalable collection, processing, analysis, and interpretation of content from a variety of sources—social media, messengers, and news sites—with the aim of detecting signs of deliberate informational influence. In the first chapter, a comprehensive literature review was conducted, covering the definitions of fake news and propaganda, methods for their detection, content and network analysis techniques, as well as an overview of existing solutions for countering disinformation (e.g., StopFake, EUvsDisinfo, Texty.org.ua, CrowdTangle, etc.). The advantages and limitations of current tools were analyzed, with a conclusion that most existing projects suffer from limited automation, low performance, or reliance on manual fact-checking. The second chapter contains a systematic analysis of the subject area, defining the research objectives and goals, constructing a goal tree, and forming the architectural decomposition of the system. A modular structure was proposed, including subsystems for data collection, preprocessing, content analysis, source identification, data storage, and analytical report generation. Each module was designed with consideration for functional requirements, processing load, and the specifics of the Ukrainian-language information environment. The third chapter focuses on the design of the system’s key components, including the selection of technologies (Elasticsearch, Spark, Python, Scikit-learn, NetworkX, Telegram API, Twitter API, PostgreSQL, Flask, Grafana, etc.), approaches to processing unstructured texts and metadata, and implementation of tools for semantic analysis, classification, detection of emotional manipulation, and coordinated disinformation campaigns. Architectural patterns and UML diagrams (use case, class, sequence, activity) were used to visualize interactions among system components and actors. The fourth chapter presents the results of developing a functional prototype of the information system. Testing was conducted on social media data collected via custom-built data harvesting modules. The prototype's core features included automatic classification of texts to determine disinformation probability, detection of dissemination sources, visualization of connection graphs between accounts, and interactive dashboards. A mechanism for human moderation of questionable results was implemented, which ensures accuracy and trust in the system's conclusions. In conclusion, the thesis confirmed the feasibility and effectiveness of integrating big data processing, artificial intelligence, and text analysis technologies for combating fake news. The developed tool can be integrated into media monitoring systems, support journalistic investigations, aid public institutions, and inform the general public. The results have high practical value and potential for further development and implementation in Ukraine.
The master's thesis is dedicated to the development of an information system for detecting sources of fake news and propaganda based on big data analysis. Given the relevance of the disinformation issue, which is an integral part of modern information warfare—particularly in the context of global hybrid threats—the development of automated systems for identifying manipulative content and tracing its origins is extremely important. The main goal of the thesis was to create an architecture and a prototype of an information system capable of scalable collection, processing, analysis, and interpretation of content from a variety of sources—social media, messengers, and news sites—with the aim of detecting signs of deliberate informational influence. In the first chapter, a comprehensive literature review was conducted, covering the definitions of fake news and propaganda, methods for their detection, content and network analysis techniques, as well as an overview of existing solutions for countering disinformation (e.g., StopFake, EUvsDisinfo, Texty.org.ua, CrowdTangle, etc.). The advantages and limitations of current tools were analyzed, with a conclusion that most existing projects suffer from limited automation, low performance, or reliance on manual fact-checking. The second chapter contains a systematic analysis of the subject area, defining the research objectives and goals, constructing a goal tree, and forming the architectural decomposition of the system. A modular structure was proposed, including subsystems for data collection, preprocessing, content analysis, source identification, data storage, and analytical report generation. Each module was designed with consideration for functional requirements, processing load, and the specifics of the Ukrainian-language information environment. The third chapter focuses on the design of the system’s key components, including the selection of technologies (Elasticsearch, Spark, Python, Scikit-learn, NetworkX, Telegram API, Twitter API, PostgreSQL, Flask, Grafana, etc.), approaches to processing unstructured texts and metadata, and implementation of tools for semantic analysis, classification, detection of emotional manipulation, and coordinated disinformation campaigns. Architectural patterns and UML diagrams (use case, class, sequence, activity) were used to visualize interactions among system components and actors. The fourth chapter presents the results of developing a functional prototype of the information system. Testing was conducted on social media data collected via custom-built data harvesting modules. The prototype's core features included automatic classification of texts to determine disinformation probability, detection of dissemination sources, visualization of connection graphs between accounts, and interactive dashboards. A mechanism for human moderation of questionable results was implemented, which ensures accuracy and trust in the system's conclusions. In conclusion, the thesis confirmed the feasibility and effectiveness of integrating big data processing, artificial intelligence, and text analysis technologies for combating fake news. The developed tool can be integrated into media monitoring systems, support journalistic investigations, aid public institutions, and inform the general public. The results have high practical value and potential for further development and implementation in Ukraine.
Description
Keywords
Citation
Данилевич Р. О. Інформаційна система виявлення джерел фейків та пропаганди на основі bigdata analysis : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.126.00.00 — Інформаційні системи та технології (освітньо-наукова програма)“ / Роман Олександрович Данилевич. — Львів, 2024. — 95 с.