Інформаційна система семантичного аналізу текстового контенту автора для визначення психологічного рівня схильності до вбивства/самогубства/насилля
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
Робота складається з чотирьох взаємодоповнюючих розділів в яких розкривається тематика роботи. Перший розділ присвячений літературному пошуку та аналізу існуючих напрацювань що стосувалися вибраного напрямку дослідження. В підсумку виконано узагальнюючий висновок та обрано напрямок та методи дослідження. В наступних розділах поетапно розкривається структурно-логічна схема та обґрунтування алгоритму роботи системи. В якості інструментів її реалізації обрано мову програмування python та модуль sklearn, які на сьогоднішній день широко застосовуються для вирішення завдань машинного навчання. Для забезпечення можливості роботи з створеною системою, користувачу, створено клієнтський веб-застосунок з використанням мета-фреймворку Next.js. Таким чином користувач має змогу просто перейшовши за адресою розміщеного в мережі інтернет сервісу – проаналізувати текст та отримати оцінку його приналежності до однієї з трьох категорій, які включають: нейтральний текст, текст що свідчить про деяку ступінь відхилень та ступінь критичну. Кожен користувач має безлімітну кількість запитів до системи. Кількість користувачі що одночасно використовують сервіс є необмеженою адже архітектура дозволяє масштабується автоматично. В якості вихідних даних при розробці системи зібрано текстові повідомлення людей що представляють досліджувану категорію. Після відповідного форматування та обробки, що передбачає собою видалення шумового тексту та розділення на n-грами вони були зібрані в датасет що в подальшому був використаний для навчання моделі машинного навчання.
Суть роботи розробленої системи полягає у формуванні коефіцієнта схильності до психологічних відхилень на основі текстових даних що передаються в систему для аналізу. Практична цінність полягає в унікальності системи, аналогів якій, що мають відкритий вихідний код та виконують завдання в такій вузькій області наразі не існує. Вона дозволяє визначати відхилення які можуть вказувати на психологічні відхилення в людини. Це актуально для медичних установ чи персонально людям дозволяючи вчасно виявляти та надавати необхідну допомогу таким людям.
The work consists of four complementary sections that explore the themes of the project. The first section is dedicated to literary research and analysis of existing work related to the chosen research direction. In conclusion, a summary is provided, and the direction and methods of research are chosen. The following sections gradually reveal the structural-logical scheme and justification of the system's workflow algorithm. The Python programming language and the sklearn module have been selected as the implementation tools, as they are widely used for machine learning tasks today. To enable users to work with the created system, a client web application has been developed using the Next.js meta-framework. This way, users can easily access the internet-hosted service, analyze text, and receive an evaluation of its belonging to one of three categories: neutral text, text indicating a certain degree of deviation, and critical text. Each user has an unlimited number of queries to the system. The number of users simultaneously using the service is unlimited, as the architecture allows for automatic scalability. The development of the system utilized text messages from individuals representing the investigated category as the input data. After appropriate formatting and processing, which involved removing noisy text and splitting it into n-grams, they were collected into a dataset that was used for training the machine learning model.The essence of the developed system lies in the formation of a propensity coefficient for psychological deviations based on textual data transmitted to the system for analysis. The practical value lies in the uniqueness of the system, as there are currently no open-source counterparts that perform tasks in such a narrow field. It allows for identifying deviations that may indicate psychological abnormalities in individuals. This is relevant for medical institutions or individuals, as it enables timely detection and provision of necessary assistance to such individuals.
The work consists of four complementary sections that explore the themes of the project. The first section is dedicated to literary research and analysis of existing work related to the chosen research direction. In conclusion, a summary is provided, and the direction and methods of research are chosen. The following sections gradually reveal the structural-logical scheme and justification of the system's workflow algorithm. The Python programming language and the sklearn module have been selected as the implementation tools, as they are widely used for machine learning tasks today. To enable users to work with the created system, a client web application has been developed using the Next.js meta-framework. This way, users can easily access the internet-hosted service, analyze text, and receive an evaluation of its belonging to one of three categories: neutral text, text indicating a certain degree of deviation, and critical text. Each user has an unlimited number of queries to the system. The number of users simultaneously using the service is unlimited, as the architecture allows for automatic scalability. The development of the system utilized text messages from individuals representing the investigated category as the input data. After appropriate formatting and processing, which involved removing noisy text and splitting it into n-grams, they were collected into a dataset that was used for training the machine learning model.The essence of the developed system lies in the formation of a propensity coefficient for psychological deviations based on textual data transmitted to the system for analysis. The practical value lies in the uniqueness of the system, as there are currently no open-source counterparts that perform tasks in such a narrow field. It allows for identifying deviations that may indicate psychological abnormalities in individuals. This is relevant for medical institutions or individuals, as it enables timely detection and provision of necessary assistance to such individuals.
Description
Keywords
6.126.00.01, - машинне навчання, tf-idf, nextjs, python, sklearn, текстові дані.
Перелік використаних джерел.
1. Никаноров, С. П. Системний аналіз: етап розвитку методології рішення проблем США / Системне управління – проблеми і рішення . – 2001. –Випуск 12. – 259 с.
2. Волкова В. Н. З історії систем та системного аналізу. / В. Н. Волкова., 2001. – 412 с, machine learning, tf-idf, Next.js, Python, sklearn, textual data
Citation
Томин П. Д. Інформаційна система семантичного аналізу текстового контенту автора для визначення психологічного рівня схильності до вбивства/самогубства/насилля : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „6.126.00.01 — Інтелектуальні інформаційні технології“ / Петро Дмитрович Томин. — Львів, 2022. — 79 с.