Intellectual analysis of textual data in social networks using BERT and XGBoost

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет «Львівська політехніка»

Abstract

This article presents a comprehensive approach to sentiment analysis in social networks by leveraging modern text processing methods and machine learning algorithms. The primary focus is the integration of the Sentence-BERT model for text vectorization and XGBoost for sentiment classification. Using the Sentiment140 dataset, an extensive study of text messages labeled with sentiment annotations was conducted. The Sentence-BERT model enables the generation of high-quality vector representations of textual data, preserving both lexical and contextual relationships between words. This contributes to a more accurate semantic understanding of messages, thereby enhancing classification performance. The results of the study demonstrate the high efficacy of the proposed model, achieving an overall classification accuracy of 90 %. The ROC curve (AUC) value of 0.88 further confirms the model's capability to distinguish between sentiment classes effectively. The Precision-Recall curve analysis highlights a strong balance between precision and recall, which is particularly crucial for handling imbalanced datasets. Additionally, calibration curves indicate a high degree of consistency between predicted probabilities and actual outcomes, while the cosine similarity matrix validates the model's ability to capture semantic proximity between texts. Beyond classification, the study also examines the F1-score at various threshold levels, enabling the identification of the optimal operational range for the model. The cumulative gain chart illustrates the progressive improvement in classification performance, emphasizing the model's stability when processing large-scale textual data. The proposed approach serves as a versatile tool for sentiment analysis, text clustering, and trend identification in social networks. The findings of this study have practical implications in fields such as marketing, public opinion analysis, automated content moderation, and social trend prediction. У цій статті представлено комплексний підхід до аналізу настроїв у соціальних мережах із застосуванням сучасних методів опрацювання тексту та алгоритмів машинного навчання. Основний фокус — інтеграція моделі Sentence-BERT для векторизації тексту та XGBoost для класифікації настроїв. Використовуючи набір даних Sentiment140, було проведено широке дослідження текстових повідомлень, позначених анотаціями настроїв. Модель Sentence-BERT дозволяє генерувати високоякісні векторні представлення текстових даних, зберігаючи як лексичні, так і контекстуальні зв’язки між словами. Це сприяє більш точному семантичному розумінню повідомлень, тим самим підвищуючи ефективність класифікації. Результати дослідження демонструють високу ефективність запропонованої моделі, досягнення загальної точності класифікації 90 %. Площа під кривою ROC (AUC) 0,88 додатково підтверджує здатність моделі ефективно розрізняти класи настрою. Аналіз кривої Precision-Recall підкреслює міцний баланс між точністю та запам’ятовуванням, що особливо важливо для опрацювання незбалансованих наборів даних. Крім того, калібрувальні криві вказують на високий ступінь узгодженості між прогнозованими ймовірностями та фактичними результатами, тоді як матриця косинусної подібності підтверджує здатність моделі фіксувати семантичну близькість між текстами. Окрім класифікації, у дослідженні також розглядається показник F1 на різних порогових рівнях, що дозволяє визначити оптимальний робочий діапазон для моделі. Діаграма сукупного посилення ілюструє поступове покращення продуктивності класифікації, підкреслюючи стабільність моделі під час опрацювання великомасштабних текстових даних. Запропонований підхід служить універсальним інструментом для аналізу настроїв, кластеризації тексту та ідентифікації трендів у соціальних мережах. Результати цього дослідження мають практичне значення в таких сферах, як маркетинг, аналіз громадської думки, автоматизована модерація вмісту та прогнозування соціальних тенденцій.

Description

Citation

Batiuk T. Intellectual analysis of textual data in social networks using BERT and XGBoost / Taras Batiuk, Dmytro Dosyn // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2025. — № 17. — С. 44–60.

Endorsement

Review

Supplemented By

Referenced By