Інтелектуальна система дослідження громадської думки на основі аналізу україномовних твітів
dc.contributor.advisor | Висоцька, Вікторія Анатоліївна | |
dc.contributor.affiliation | Національний університет "Львівська політехніка" | |
dc.contributor.author | Прокіпчук, Олег Анатолійович | |
dc.contributor.author | Prokipchuk, Oleh Anatoliiovych | |
dc.coverage.placename | Львів | |
dc.date.accessioned | 2025-01-15T12:12:35Z | |
dc.date.created | 2022 | |
dc.date.issued | 2022 | |
dc.description.abstract | Збір, добування та обробка даних про громадську думку є важливою складовою процесу прийняття рішень у різних сферах, таких як політика, бізнес та соціальні питання. Для кожної із зацікавлених сторін важливо знати актуальний стан речей в країні для того, щоб приймати своєчасні, вигідні та правильні рішення. Основним джерелом даних про соціальну думку в Україні зараз слугують результати опитувань громадян він відповідних центрів. Такий спосіб дослідження громадської думки містить ряд недоліків: • Вартість: проведення звичних процесів збору громадської думки, якими займаються соціальні центри вимагають значної кількості ручної праці. Для кожної досліджуваної теми потрібно організовувати окремий ряд процесів, які потрібно фінансувати, що породжує необхідність в замовниках досліджень [1]; • Вразливість: надійність та достовірність результатів проведених досліджень напряму залежить від організації, що її проводить. Етапи збору, обробки та представлення даних повністю зосереджені у відповідних організаціях. У випадку коли соціальні організації керуються корисливими цілями, результати досліджень можуть бути спотворені, скориговані чи подані таким шляхом, який є вигідний зацікавленій особі [2-3]; • Недовготривалість: результати проведення конкретного опитування є актуальними лише протягом невеликого проміжку часу із моменту його проведення. Чим більша різниця в часі до дати проведення, тим більша різниця результатів із реальністю. Для того, щоб впоратись із наслідками зміни громадської думки, соціальні центри проводять повторювані дослідження у певних проміжках часу. Проте це призводить до додаткових витрат та ресурсів. Ці недоліки можуть бути вирішені автоматизацією процесів дослідження громадської думки. Неупередженість алгоритмів повинна усунути можливість коригування результатів на користь зацікавлених сторін, а повторюваність є одною із головних переваг автоматизованих систем, що дозволить постійно підтримувати актуальність даних. Об’єкт дослідження: процес автоматизації дослідження та обробки громадської думки. Предмет дослідження: засоби створення автоматичної системи дослідження громадської думки, що опирається на ресурси електронно-обчислювальних машин, працює в інтернет просторі та черпає дані дослідження із соціальних мереж. Мета дослідження: розробка системи, що дозволить автоматично збирати та компілювати громадську думку українців із соціальної мережі Twitter. Створення рішення, яке буде простим у використанні та стане хорошим та економічно вигідним доповненням до вже існуючих засобів та методів дослідження громадської думки в Україні. Система повинна регулярно проводити збір даних в Twitter, аналізувати їх та надавати в легкий та зручний доступ. В результаті проведення дослідження була розроблена система, що не є вразливою до обмежень, описаних вище. Система збирає публічні висловлювання громадян України в Twitter, обробляє їх та надає статистику громадської думки двох типів: • Статистика популярних тем в Україні, відображає теми, що найчастіше згадуються в соціальній мережі Twitter. • Статистика позитивних та негативних тем в Україні, що визначає теми із найбільшим позитивним та негативним емоційним забарвленням, вираженим у твітах користувачів з України. Ця система дозволить бізнесу, державним службовцям та приватним особам отримати уявлення про громадську думку без проведення дорогих опитувань або досліджень. Вона може бути використана для розуміння вподобань споживачів, політичних настроїв або для виявлення соціальних проблем, які потребують уваги. Основними користувачами системи можуть бути: медіа-організації, урядові організації, вільні дослідники та розробники інших систем. Ядром розробленої системи є пайплайн процесів, що виконується щоденно, та покриває увесь спектр робіт він збору даних до створення кінцевої статистики та використовує як звичайні, так й інтелектуальні алгоритми обробки даних. До пайплайну входять такі процеси, як збір твітів через Twitter API v2, фільтрація твітів, попередня обробка твітів із допомогою методів стемінгу та лематизації, обробка тексту регулярними виразами, векторизація отриманого тексту алгоритмами TF-IDF, Bag of Words, BERT та подальше групування за допомогою алгоритмів кластеризації K-Means, Agglomerative clustering, HDBSCAN та злиття кластерів між собою через злиття їхніх відбитків та обробка отриманих кластерів для отримання кінцевої статистики. Розроблена система базується на мікросервісній архітектурі [4], в якій кожен сервіс виконує певну частину роботи. Разом всі сервіси запускаються у вигляді Kubernetes кластера. Для відображення результатів дослідження, розроблений веб-сайт, що показує статистику громадської думки українців та оновлює її дані щоденно. Дослідження результатів розробленого пайплайну вказало на деякі фактори, котрі можна використати для збільшення ефективності системи. Розкрито особливості стемінгу та лематизації для української мови, та різну ефективність інструментів стемінгу для неї на основі оцінок OI (overstemming index) та UI (understemming index) [5]. Визначено скорочення вхідного словника за допомогою стемінгу на ~ 40% та за допомогою лематизації на ~ 33%. Знайдено комбінації методів векторизації та кластеризації тексту для різних цілей. BERT [6] та HDBSCAN [7] для точності результатів, TF-IDF та K-Means для швидкодії та ефективності. Знайдено методи порівняння тексту, що найбільше відповідають цілям системи. До них входять fuzz sort, fuzz set та levenshtein, для яких різниця між подібним та відмінним текстом становить більше 20%. | |
dc.description.abstract | Collecting, extracting, and processing public opinion data is an important part of the decision-making process in various areas such as politics, business, and social issues. For each stakeholder, it is important to know the current state of affairs in the country in order to make timely, profitable, and correct decisions. The main data source on social opinion in Ukraine is currently the results of public opinion polls conducted by relevant centers. This method of public opinion research has a number of drawbacks: • Cost: Conducting the usual processes of collecting public opinion, which are carried out by social centers, requires a significant amount of manual effort. For each topic under study, it is necessary to organize a separate set of processes that need to be financed, which creates the need for clients for research [1]; • Vulnerability: the reliability and validity of the research results directly depend on the organization that conducts it. The stages of data collection, processing, and presentation are fully concentrated in the respective organizations. If social organizations are guided by selfish goals, research results can be distorted, adjusted, or presented in a way that is beneficial to the person concerned [2-3]; • Short-term: the results of a particular survey are relevant only for a short period of time after it was conducted. The greater the time difference before the date of the survey, the greater the difference between the results and reality. In order to cope with the consequences of changing public opinion, social centers conduct repeated surveys at certain intervals. However, this leads to additional costs and resources. These drawbacks can be solved by automating public opinion research processes. The impartiality of the algorithms should eliminate the possibility of adjusting the results in favor of stakeholders, and repeatability is one of the main advantages of automated systems, which will allow for keeping the data up-to-date. Study object: the process of automating public opinion research and processing. Scope of research: means of creating an automatic public opinion research system that relies on the resources of electronic computers, works in the Internet space, and draws research data from social networks. Goal of research: to develop a system that will automatically collect and compile public opinion of Ukrainians from the social network Twitter. To create a solution that is easy to use and will be a good and cost-effective addition to the existing tools and methods of public opinion research in Ukraine. The system should regularly collect data on Twitter, analyze it, and make it easily and conveniently available. The study resulted in the development of a system that is not vulnerable to the limitations described above. The system collects public statements of Ukrainian citizens on Twitter, processes them, and provides two types of public opinion statistics: • Statistics of popular topics in Ukraine, reflecting the topics most often mentioned on Twitter; • Statistics on positive and negative topics in Ukraine, which identifies the topics with the most positive and negative sentiment expressed in tweets from Ukrainian users. This system will allow businesses, government officials, and individuals to gain insight into public opinion without conducting expensive surveys or research. It can be used to understand consumer preferences, and political sentiment, or to identify social issues that require attention. The main users of the system can be: media organizations, government organizations, free researchers, and developers of other systems. The core of the developed system is a daily process pipeline that covers the entire spectrum of work from data collection to the creation of final statistics and uses both conventional and intelligent data processing algorithms. The pipeline includes processes such as collecting tweets via Twitter API v2, filtering tweets, pre-processing tweets using stemming and lemmatization methods, processing text with regular expressions, and vectorizing the resulting text with TF-IDF algorithms, Bag of Words, BERT algorithms, and further grouping using K-Means, Agglomerative clustering, HDBSCAN clustering algorithms and merging clusters with each other by merging their fingerprints and processing the resulting clusters to obtain the final statistics. The developed system is based on a microservice architecture [4], where each service performs a specific part of the work. Together, all services run as a Kubernetes cluster. To display the results of the study, a website has been developed that shows statistics on the public opinion of Ukrainians and updates its data daily. The study of the results of the developed pipeline has pointed to some factors that can be used to increase the efficiency of the system. The specifics of stemming and lemmatization for the Ukrainian language and the different efficiency of stemming tools for it based on the OI (overstemming index) and UI (understemming index) estimates are revealed [5]. The reduction of the input vocabulary by stemming by ~40% and by lemmatization by ~33% was determined. Combinations of text vectorization and clustering methods for different purposes have been found. BERT [6] and HDBSCAN [7] for accuracy of results, TF-IDF, and K-Means for speed and efficiency. We found the text comparison methods that best meet the system's goals. They include fuzz sort, fuzz set, and levenshtein, for which the difference between similar and different text is more than 20%. | |
dc.format.pages | 129 | |
dc.identifier.citation | Прокіпчук О. А. Інтелектуальна система дослідження громадської думки на основі аналізу україномовних твітів : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.126.00.00 — Інформаційні системи та технології (освітньо-наукова програма)“ / Олег Анатолійович Прокіпчук. — Львів, 2022. — 129 с. | |
dc.identifier.uri | https://ena.lpnu.ua/handle/ntb/62809 | |
dc.language.iso | uk | |
dc.publisher | Національний університет "Львівська політехніка" | |
dc.relation.references | Касьяненко, С. (2021, 15 березня). Результати соцопитувань як джерело інформації. Академія майбутніх професій. https://academy.suspilne.media/articles/rezultati_socopituvan_yak_dzherelo_informaciyi | |
dc.relation.references | Interfax-Ukraine. (2021, 14 грудня). Хто в Україні просуває російську дезу та завищує рейтинги ОПЗЖ. Інтерфакс-Україна. https://ua.interfax.com.ua/news/press-release/785967.html | |
dc.relation.references | Шаповалов, С. (2020, 16 березня). Інструменти маніпулювання соціологічними даними та помилки при інтерпретації результатів опитувань. Головна - Фонд «Демократичні ініціативи» ім. Ілька Кучеріва. https://dif.org.ua/article/instrumenti-manipulyuvannya-sotsiologichnimi-danimi-ta-pomilki-pri-interpretatsii-rezultativ-opituvan | |
dc.relation.references | Richardson, C. (2018). Microservices patterns: With examples in Java. Manning Publications. | |
dc.relation.references | Paice, C. D. (1996). Method for evaluation of stemming algorithms based on error counting. Journal of the American Society for Information Science, 47(8), 632–649. https://doi.org/10.1002/(SICI)1097-4571(199608)47:8<632::AID-ASI8>3.0.CO;2-U | |
dc.relation.references | Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. ArXiv preprint, (arXiv:1810.04805). | |
dc.relation.references | McInnes, L., & Healy, J. (2017). Accelerated hierarchical density based clustering. У 2017 IEEE international conference on data mining workshops (ICDMW). IEEE. https://doi.org/10.1109/icdmw.2017.12 | |
dc.relation.referencesen | Касьяненко, С. (2021, 15 березня). Результати соцопитувань як джерело інформації. Академія майбутніх професій. https://academy.suspilne.media/articles/rezultati_socopituvan_yak_dzherelo_informaciyi | |
dc.relation.referencesen | Interfax-Ukraine. (2021, 14 грудня). Хто в Україні просуває російську дезу та завищує рейтинги ОПЗЖ. Інтерфакс-Україна. https://ua.interfax.com.ua/news/press-release/785967.html | |
dc.relation.referencesen | Шаповалов, С. (2020, 16 березня). Інструменти маніпулювання соціологічними даними та помилки при інтерпретації результатів опитувань. Головна - Фонд «Демократичні ініціативи» ім. Ілька Кучеріва. https://dif.org.ua/article/instrumenti-manipulyuvannya-sotsiologichnimi-danimi-ta-pomilki-pri-interpretatsii-rezultativ-opituvan | |
dc.relation.referencesen | Richardson, C. (2018). Microservices patterns: With examples in Java. Manning Publications. | |
dc.relation.referencesen | Paice, C. D. (1996). Method for evaluation of stemming algorithms based on error counting. Journal of the American Society for Information Science, 47(8), 632–649. https://doi.org/10.1002/(SICI)1097-4571(199608)47:8<632::AID-ASI8>3.0.CO;2-U | |
dc.relation.referencesen | Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. ArXiv preprint, (arXiv:1810.04805). | |
dc.relation.referencesen | McInnes, L., & Healy, J. (2017). Accelerated hierarchical density based clustering. У 2017 IEEE international conference on data mining workshops (ICDMW). IEEE. https://doi.org/10.1109/icdmw.2017.12 | |
dc.rights.holder | © Національний університет "Львівська політехніка", 2022 | |
dc.rights.holder | © Прокіпчук, Олег Анатолійович, 2022 | |
dc.subject | 3.126.00.00 | |
dc.subject | громадська думка | |
dc.subject | кластеризація | |
dc.subject | pipeline | |
dc.subject | стеммінг | |
dc.subject | лематизація | |
dc.subject | подібність кластерів | |
dc.subject | Bag of Words | |
dc.subject | TF-IDF | |
dc.subject | BERT | |
dc.subject | K-Means | |
dc.subject | Agglomerative Hierarchical Clustering | |
dc.subject | HDBSCAN | |
dc.subject | social opinion | |
dc.subject | clustering | |
dc.subject | pipeline | |
dc.subject | stemming | |
dc.subject | lemmatization | |
dc.subject | clusters’ similarity | |
dc.subject | Bag of Words | |
dc.subject | TF-IDF | |
dc.subject | BERT | |
dc.subject | K-Means | |
dc.subject | Agglomerative Hierarchical Clustering | |
dc.subject | HDBSCAN | |
dc.title | Інтелектуальна система дослідження громадської думки на основі аналізу україномовних твітів | |
dc.title.alternative | An intelligent system of public opinion research based on the analysis of Ukrainian-language tweets | |
dc.type | Students_diploma |