Інформаційна система аналізу великих даних для ідентифікації джерел розповсюдження дезінформації та виявлення автентичної поведінки чат-ботів
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
У сучасному цифровому середовищі однією з головних загроз є поширення дезінформації, зокрема фейкових новин. Її виявлення потребує використання інструментів обробки природної мови, методів векторизації тексту та алгоритмів машинного навчання, здатних розпізнавати приховані закономірності в масштабних масивах даних. Запропоноване рішення передбачає створення класифікаційної системи, що поєднує статистичні TF-IDF-ознаки та контекстуальні ембеддинги Granite. Таке гібридне представлення дозволяє аналізувати як частотні характеристики тексту, так і його змістовне навантаження, що сприяє покращенню точності класифікації.
Розробка інформаційної системи для аналізу великих даних з метою виявлення джерел дезінформації та ідентифікації поведінки чат-ботів має надзвичайну актуальність, з огляду на:
Сутність проблеми
Дезінформація — це навмисне поширення неправдивих або викривлених фактів з метою впливу на громадську думку, політичні процеси або економічну ситуацію. В умовах, коли більшість інформації поширюється через цифрові платформи — соціальні мережі, блоги, онлайн-ЗМІ — боротьба з такими загрозами стає пріоритетним завданням. Це зумовлює потребу в автоматизованих інструментах, здатних ефективно визначати джерела фейкової інформації та моделі її поширення.
Мета дослідження
Метою є створення ефективного інструменту для автоматизації процесу виявлення фальшивих новин, інформаційних маніпуляцій та неавтентичної поведінки ботів у медіапросторі. Це досягається завдяки застосуванню технологій обробки великих даних, штучного інтелекту та машинного навчання.
Основні завдання:
? Розробити алгоритми для виявлення та класифікації джерел дезінформації в онлайн-середовищі.
? Визначити моделі маніпулятивної поведінки, включаючи дії ботів та інших автоматизованих систем.
? Розробити методи для розпізнавання поведінкових патернів чат-ботів і відмінностей між ними та реальними користувачами.
? Створити інструменти для підвищення рівня медіаграмотності користувачів шляхом оцінки достовірності контенту.
Технічні завдання:
? Побудова моделей машинного навчання для класифікації новин і виявлення фейкових повідомлень.
? Аналіз текстових повідомлень та поведінки в соціальних мережах з метою виявлення дезінформаційних кампаній.
? Розробка механізмів ідентифікації характерної поведінки автоматизованих акаунтів.
? Підвищення ефективності боротьби з дезінформацією через аналітику та моделювання на базі великих даних.
Об’єкт дослідження: процес аналізу великих даних.
Предмет дослідження: створення системи для виявлення джерел дезінформації та визначення поведінкових ознак чат-ботів.
Практичне значення
Результати роботи мають велике прикладне значення для таких сфер, як медіа, політика, безпека та інформаційні технології. Основні переваги полягають у можливості швидко реагувати на інформаційні загрози, підвищувати рівень обізнаності користувачів та формувати стійкість до маніпуляцій у цифровому середовищі.
In today’s digital environment, the spread of disinformation—especially in the form of fake news—poses one of the most significant threats. Detecting such content requires the application of natural language processing tools, text vectorization methods, and machine learning algorithms capable of uncovering hidden patterns in large volumes of data. The proposed solution involves a classification system that combines statistical TF-IDF features with contextual Granite embeddings. This hybrid vector representation captures both the surface-level frequency characteristics and the semantic aspects of the text, which enhances the overall classification performance. Developing an information system for big data analysis aimed at identifying disinformation sources and detecting chatbot behavior is highly relevant due to several key factors: Nature of the Problem Disinformation refers to the intentional dissemination of false or distorted information to manipulate public opinion or influence political and economic processes. In a world where the majority of content circulates through digital platforms—social media, blogs, and online news sources—tackling disinformation has become a top global priority. This creates an urgent need for automated systems capable of quickly identifying the sources and spread of false information. Research Objective The primary goal is to develop an efficient tool for automating the detection of fake news, disinformation, and manipulative content in the media space, as well as identifying non-authentic or automated chatbot behavior. This is achieved by leveraging big data analysis, artificial intelligence, and machine learning techniques. Key Tasks: ? Develop algorithms for identifying and classifying disinformation sources in online environments. ? Detect manipulation patterns, including those driven by bots and other automated systems. ? Design methods for recognizing behavioral patterns of chatbots and distinguishing them from real users. ? Create tools to enhance media literacy by assessing content credibility and alerting users to potentially manipulative information. Technical Objectives: ? Build machine learning models for classifying news and detecting fake content. ? Analyze text and social media interactions to identify disinformation campaigns. ? Develop mechanisms to identify behavioral patterns of automated accounts in social networks. ? Improve the effectiveness of disinformation countermeasures through automated analysis and modeling based on big data. Object of the Study: the process of big data analysis. Subject of the Study: development of an information system for identifying disinformation sources and detecting authentic chatbot behavior. Practical Value The outcomes of this work hold significant practical value for fields such as media, politics, security, and information technology. The key benefits lie in the ability to rapidly respond to information threats, raise user awareness, and build resilience against manipulation in the digital space.
In today’s digital environment, the spread of disinformation—especially in the form of fake news—poses one of the most significant threats. Detecting such content requires the application of natural language processing tools, text vectorization methods, and machine learning algorithms capable of uncovering hidden patterns in large volumes of data. The proposed solution involves a classification system that combines statistical TF-IDF features with contextual Granite embeddings. This hybrid vector representation captures both the surface-level frequency characteristics and the semantic aspects of the text, which enhances the overall classification performance. Developing an information system for big data analysis aimed at identifying disinformation sources and detecting chatbot behavior is highly relevant due to several key factors: Nature of the Problem Disinformation refers to the intentional dissemination of false or distorted information to manipulate public opinion or influence political and economic processes. In a world where the majority of content circulates through digital platforms—social media, blogs, and online news sources—tackling disinformation has become a top global priority. This creates an urgent need for automated systems capable of quickly identifying the sources and spread of false information. Research Objective The primary goal is to develop an efficient tool for automating the detection of fake news, disinformation, and manipulative content in the media space, as well as identifying non-authentic or automated chatbot behavior. This is achieved by leveraging big data analysis, artificial intelligence, and machine learning techniques. Key Tasks: ? Develop algorithms for identifying and classifying disinformation sources in online environments. ? Detect manipulation patterns, including those driven by bots and other automated systems. ? Design methods for recognizing behavioral patterns of chatbots and distinguishing them from real users. ? Create tools to enhance media literacy by assessing content credibility and alerting users to potentially manipulative information. Technical Objectives: ? Build machine learning models for classifying news and detecting fake content. ? Analyze text and social media interactions to identify disinformation campaigns. ? Develop mechanisms to identify behavioral patterns of automated accounts in social networks. ? Improve the effectiveness of disinformation countermeasures through automated analysis and modeling based on big data. Object of the Study: the process of big data analysis. Subject of the Study: development of an information system for identifying disinformation sources and detecting authentic chatbot behavior. Practical Value The outcomes of this work hold significant practical value for fields such as media, politics, security, and information technology. The key benefits lie in the ability to rapidly respond to information threats, raise user awareness, and build resilience against manipulation in the digital space.
Description
Keywords
Citation
Куспісь М. А. Інформаційна система аналізу великих даних для ідентифікації джерел розповсюдження дезінформації та виявлення автентичної поведінки чат-ботів : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.126.00.00 — Інформаційні системи та технології (освітньо-наукова програма)“ / Мар'ян Андрійович Куспісь. — Львів, 2024. — 100 с.