Система підтримки прийняття рішень виявлення дезінформації, фейків та пропаганди на основі машинного навчання

Abstract

Внаслідок спрощення процесів створення та поширення новин через інтернет, а також через фізичну неможливість перевірки великих обсягів інформації, що циркулює у мережі, значно зросли обсяги поширення дезінформації та фейкових новин. Побудовано систему підтримки прийняття рішень щодо виявлення дезінформації, фейків та пропаганди на основі машинного навчання. Досліджено методику аналізу тексту новин для ідентифікації фейку та передбачення виявлення дезінформації в текстах новин. У зв’язку з цим виявлення неправдивих новин стає критичним завданням. Це не лише забезпечує надання користувачам перевіреної та достовірної інформації, а й допомагає запобігти маніпулюванню суспільною свідомістю. Посилення контролю за достовірністю новин важливе для підтримки надійної екосистеми інформаційного простору. Комбінування IR та NLP дає змогу системам автоматично аналізувати та відстежувати інформацію, щоб виявляти можливі факти дезінформації або фейкові новини. Важливо також враховувати контекст, джерело інформації та інші фактори для точного визначення достовірності. Такі автоматичні методи допомагають у реальному часі виявляти та вирішувати проблеми, пов’язані з поширенням дезінформації в соціальних мережах. Для експерименту ми використали набір даних із загальною кількістю 20 000 статей: 10 000 записів для фейкових новин і 10 000 для нефейкових. Більшість статей пов’язані з політикою. Для обох піднаборів даних виконано основні процедури очищення тексту, такі як зміна тексту на малі літери, видалення знаків пунктуації, очищення тегів розташування та автора, а також видалення стоп-слів тощо. Після очищення виконано токенізацію та лематизацію. Для кращих результатів лематизації кожен токен позначено тегом POS. Використання тегів POS допомагає точніше виконувати лематизацію. Для обох піднаборів даних створено біграми та триграми, щоб краще зрозуміти контекст статей у наборі даних. Виявлено, що у нефейкових новинах використовується офіційніший мовний стиль. Проаналізовано настрої в обох піднаборах даних. Результати показують, що фальшивий субнабір даних містить більше негативних балів, тоді як нефальшивий субнабір даних – переважно позитивні оцінки. Піднабори даних були об’єднані перед створенням моделі прогнозування. Для моделі прогнозування використано функції BOW і Logistic Regression. Оцінка F1 становить 0,98 для обох класів фейк / не фейк.
Due to the simplification of the processes of creating and distributing news via the Internet, as well as due to the physical impossibility of checking large volumes of information circulating in the network, the volume of disinformation and fake news distribution has increased significantly. A decision support system for identifying disinformation, fakes and propaganda based on machine learning has been built. The method of news text analysis for identifying fakes and predicting the detection of disinformation in news texts has been studied. Due to the simplification of the processes of creating and distributing news via the Internet, as well as due to the physical impossibility of checking large volumes of information circulating in the network, the volume of disinformation and fake news distribution has increased significantly. In this regard, detection of fake news becomes a critical task. This not only ensures the provision of verified and reliable information to users, but also helps prevent manipulation of public consciousness. Strengthening control over the credibility of news is important for maintaining a reliable ecosystem of the information space. The combination of IR and NLP allows systems to automatically analyse and track information to detect potential misinformation or fake news. It is also important to consider context, source of information, and other factors to accurately determine credibility. Such automated methods can help in real-time detection and resolution of problems related to the spread of misinformation in social networks. For our experiment, we use a dataset with a total number of 20,000 articles: 10,000 entries for fake news and 10,000 for non-fake news. Most of the articles are related to politics. For both subsets of the data, basic text cleaning procedures such as changing text to lowercase, removing punctuation marks, cleaning location and author tags, and removing stop words, etc., were performed. After cleaning, tokenization and lemmatization were performed. For better lemmatization results, each token is labelled with a POS tag. Using POS tags helps perform lemmatization more accurately. For both subsets of the data, bigrams and trigrams were created to better understand the context of the articles in the data set. It was found that non-fake news uses a more formal language style. Next, we performed sentiment analysis on both subsets of the data. The results show that the fake sub-dataset contains more negative scores, while the non-false sub-dataset has mostly positive scores. Subsets of the data were combined before building the prediction model. BOW and Logistic Regression functions were used for the forecast model. The F1 score is 0.98 for both fake/non-fake classes.

Description

Citation

Висоцька В. А. Система підтримки прийняття рішень виявлення дезінформації, фейків та пропаганди на основі машинного навчання / В. А. Висоцька, Р. В. Романчук // Український журнал інформаційних технологій. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 2. — С. 105–116.

Endorsement

Review

Supplemented By

Referenced By