Магістерські роботи
Permanent URI for this collectionhttps://ena.lpnu.ua/handle/ntb/62342
Browse
Item Інтелектуальна система дослідження громадської думки на основі аналізу україномовних твітів(Національний університет "Львівська політехніка", 2022) Прокіпчук, Олег Анатолійович; Prokipchuk, Oleh Anatoliiovych; Висоцька, Вікторія Анатоліївна; Національний університет "Львівська політехніка"Збір, добування та обробка даних про громадську думку є важливою складовою процесу прийняття рішень у різних сферах, таких як політика, бізнес та соціальні питання. Для кожної із зацікавлених сторін важливо знати актуальний стан речей в країні для того, щоб приймати своєчасні, вигідні та правильні рішення. Основним джерелом даних про соціальну думку в Україні зараз слугують результати опитувань громадян він відповідних центрів. Такий спосіб дослідження громадської думки містить ряд недоліків: • Вартість: проведення звичних процесів збору громадської думки, якими займаються соціальні центри вимагають значної кількості ручної праці. Для кожної досліджуваної теми потрібно організовувати окремий ряд процесів, які потрібно фінансувати, що породжує необхідність в замовниках досліджень [1]; • Вразливість: надійність та достовірність результатів проведених досліджень напряму залежить від організації, що її проводить. Етапи збору, обробки та представлення даних повністю зосереджені у відповідних організаціях. У випадку коли соціальні організації керуються корисливими цілями, результати досліджень можуть бути спотворені, скориговані чи подані таким шляхом, який є вигідний зацікавленій особі [2-3]; • Недовготривалість: результати проведення конкретного опитування є актуальними лише протягом невеликого проміжку часу із моменту його проведення. Чим більша різниця в часі до дати проведення, тим більша різниця результатів із реальністю. Для того, щоб впоратись із наслідками зміни громадської думки, соціальні центри проводять повторювані дослідження у певних проміжках часу. Проте це призводить до додаткових витрат та ресурсів. Ці недоліки можуть бути вирішені автоматизацією процесів дослідження громадської думки. Неупередженість алгоритмів повинна усунути можливість коригування результатів на користь зацікавлених сторін, а повторюваність є одною із головних переваг автоматизованих систем, що дозволить постійно підтримувати актуальність даних. Об’єкт дослідження: процес автоматизації дослідження та обробки громадської думки. Предмет дослідження: засоби створення автоматичної системи дослідження громадської думки, що опирається на ресурси електронно-обчислювальних машин, працює в інтернет просторі та черпає дані дослідження із соціальних мереж. Мета дослідження: розробка системи, що дозволить автоматично збирати та компілювати громадську думку українців із соціальної мережі Twitter. Створення рішення, яке буде простим у використанні та стане хорошим та економічно вигідним доповненням до вже існуючих засобів та методів дослідження громадської думки в Україні. Система повинна регулярно проводити збір даних в Twitter, аналізувати їх та надавати в легкий та зручний доступ. В результаті проведення дослідження була розроблена система, що не є вразливою до обмежень, описаних вище. Система збирає публічні висловлювання громадян України в Twitter, обробляє їх та надає статистику громадської думки двох типів: • Статистика популярних тем в Україні, відображає теми, що найчастіше згадуються в соціальній мережі Twitter. • Статистика позитивних та негативних тем в Україні, що визначає теми із найбільшим позитивним та негативним емоційним забарвленням, вираженим у твітах користувачів з України. Ця система дозволить бізнесу, державним службовцям та приватним особам отримати уявлення про громадську думку без проведення дорогих опитувань або досліджень. Вона може бути використана для розуміння вподобань споживачів, політичних настроїв або для виявлення соціальних проблем, які потребують уваги. Основними користувачами системи можуть бути: медіа-організації, урядові організації, вільні дослідники та розробники інших систем. Ядром розробленої системи є пайплайн процесів, що виконується щоденно, та покриває увесь спектр робіт він збору даних до створення кінцевої статистики та використовує як звичайні, так й інтелектуальні алгоритми обробки даних. До пайплайну входять такі процеси, як збір твітів через Twitter API v2, фільтрація твітів, попередня обробка твітів із допомогою методів стемінгу та лематизації, обробка тексту регулярними виразами, векторизація отриманого тексту алгоритмами TF-IDF, Bag of Words, BERT та подальше групування за допомогою алгоритмів кластеризації K-Means, Agglomerative clustering, HDBSCAN та злиття кластерів між собою через злиття їхніх відбитків та обробка отриманих кластерів для отримання кінцевої статистики. Розроблена система базується на мікросервісній архітектурі [4], в якій кожен сервіс виконує певну частину роботи. Разом всі сервіси запускаються у вигляді Kubernetes кластера. Для відображення результатів дослідження, розроблений веб-сайт, що показує статистику громадської думки українців та оновлює її дані щоденно. Дослідження результатів розробленого пайплайну вказало на деякі фактори, котрі можна використати для збільшення ефективності системи. Розкрито особливості стемінгу та лематизації для української мови, та різну ефективність інструментів стемінгу для неї на основі оцінок OI (overstemming index) та UI (understemming index) [5]. Визначено скорочення вхідного словника за допомогою стемінгу на ~ 40% та за допомогою лематизації на ~ 33%. Знайдено комбінації методів векторизації та кластеризації тексту для різних цілей. BERT [6] та HDBSCAN [7] для точності результатів, TF-IDF та K-Means для швидкодії та ефективності. Знайдено методи порівняння тексту, що найбільше відповідають цілям системи. До них входять fuzz sort, fuzz set та levenshtein, для яких різниця між подібним та відмінним текстом становить більше 20%.