Метод виявлення дезінформації на основі аналізу текстових даних із застосуванням TF-IDF та контекстних векторних представлень
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет “Львівська політехніка”
Abstract
У статті розглянуто підхід до виявлення джерел дезінформації у цифровому середовищі за допомогою аналізу текстів із використанням методів машинного навчання та опрацювання природної мови. Запропонований метод базується на гібридному представленні тексту, яке поєднує частотні ознаки (TF-IDF) з контекстними векторними представленнями, отриманими за допомогою моделі IBM Granite. Розроблено повний цикл опрацювання даних, що охоплює етапи дослідницького аналізу (EDA), попереднього опрацювання та токенізації текстів, формування векторних представлень, навчання моделі логістичної регресії та отримання ключових метрик. Основні етапи попереднього опрацювання тексту включали приведення всіх символів до нижнього регістру, видалення URL-адрес і HTML-тегів, очищення від небуквених символів і зайвих пробілів, усунення дублікатів для уникнення повторного навчання, уніфікацію значень певних полів. Для векторизації очищених текстів застосовано поєднання TF-IDF з контекстними векторними представленнями, що дало змогу моделі одночасно враховувати статистичну значущість термінів та їхній семантичний контекст у межах повідомлень. Побудована модель логістичної регресії у поєднанні з гібридним представленням текстових даних продемонструвала високу ефективність, досягнувши загальної точності 82 % та збалансованими значеннями F1-міри для класів “правда” і “фейк”. Для ідентифікації найбільш релевантних термінів застосовано аналіз ваг TF-IDF-ознак на основі коефіцієнтів логістичної регресії. Проведений аналіз показав, що модель схильна асоціювати правдиву інформацію з україномовною, нейтральною лексикою, тоді як тексти з ознаками дезінформації часто містять російськомовні елементи, характерні для пропагандистських або маніпулятивних повідомлень. Подальші дослідження будуть спрямовані на розширення набору даних та створення нових ансамблевих моделей для виявлення джерел дезінформації. The article considers an approach to detecting fake news in the digital environment through text analysis using machine learning and natural language processing methods. The proposed method is based on a hybrid text representation combining frequency features (TF-IDF) and contextual embeddings obtained using the IBM Granite model. A complete data processing cycle was developed, covering the stages of exploratory analysis (EDA), text preprocessing and tokenization, forming vector representations, training a logistic regression model, and obtaining key metrics. The main stages of text preprocessing included converting all characters to lowercase, removing URLs and HTML tags, cleaning from non-letter characters and excess spaces, eliminating duplicates to avoid re-training, and unifying the values of specific fields. A combination of TF-IDF with contextual embeddings was used to vectorize the cleaned texts, which allowed the model to simultaneously consider the statistical significance of terms and their semantic context within the messages. The constructed logistic regression model combined with a hybrid representation of text data demonstrated high efficiency, achieving an overall accuracy of 82 % and balanced F1-measure values for the “true” and “fake” classes. An analysis of TF-IDF feature weights based on logistic regression coefficients was applied to identify the most relevant terms. The study showed that the model tends to associate truthful information with Ukrainian-language, neutral vocabulary, while texts with signs of disinformation often contain Russianlanguage elements characteristic of propaganda or manipulative messages. Further research will be aimed at expanding the dataset and creating new ensemble models to identify sources of disinformation.
Description
Citation
Метод виявлення дезінформації на основі аналізу текстових даних із застосуванням TF-IDF та контекстних векторних представлень / Ольга Лозинська, Вікторія Висоцька, Оксана Марків, Мар’ян Куспісь // Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. – 2025. – Випуск 18 (частина 1). – С. 98–110.