Система розпізнавання і модерування неприпустимого контенту на вебсторінках
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
Інтернет надав людям безпрецедентну свободу слова. Однак, з такого величезного привілею і можливості випливає і свобода створення неприпустимого вмісту[1].
Неприпустимим вмістом може бути зображення з текстом, відверті фото, лайка, написані слова, які можуть засмучувати, тривожити або образити. Люди можуть зіткнутися з невідповідним контентом випадково або навмисно, до якого вони не готові. Це особливо актуально в контексті захисту вразливих груп населення, включаючи дітей, людей з психологічними захворюваннями, з тривожністю і тп. [2].
Завдяки розширенню, інтернет стане більш захищеним від негативного впливу небажаного контенту, сприяючи створенню більш позитивного і продуктивного онлайн середовища.
Об'єктом дослідження є процес автоматичного виявлення та цензурування неприпустимого контенту (тексту та зображень) на веб сторінках.
Предметом дослідження є методи та технології цензурування неприпустимого контенту на веб сторінках за допомогою браузерного розширення.
Метою роботи є розробка та впровадження ефективної системи цензурування неприпустимого контенту на веб сторінках за допомогою браузерного розширення, що призведе до покращення комфорту та якості перегляду інтернет-ресурсів користувачами. Ця система дозволить користувачам контролювати та фільтрувати контент, з яким вони стикаються в мережі Інтернет.
Основними завданнями роботи є:
1. Аналіз існуючих підходів і технологій для цензурування неприпустимого контенту на веб-сторінках.
2. Ознайомлення з методами штучного інтелекту для аналізу тексту та зображень.
3. Визначення основних компонентів системи цензурування та розробка їх архітектури.
4. Тренування моделей для досягнення необхідних результатів.
5. Реалізація методів аналізу тексту та зображень.
6. Створення зручного інтерфейсу для налаштування параметрів цензури.
7. Тестування розширення на різних веб-сторінках та оптимізація його роботи для підвищення ефективності.
У роботі було проведено системний аналіз для системи. Ідентифіковано системи аналоги; Net Nanny, K9 Web Protection, Adblock Plus. Advanced Profanity Filter, Advanced Profanity Filter. Для них створено шкали показників, на їх базі порівняно характеристики. Зважаючи на ці результати, створення проекту було доцільним і необхідним.
Було проаналізовано бізнес-процеси та продемонстровано взаємодію між учасниками за допомогою методології BPMN. Окреслено вимоги до системи: бізнес-вимоги, користувацькі, функціональні та нефункціональні. Ідентифіковано зацікавлені сторони, передумови прецеденту, основний сценарій успіху, альтернативні шляхи, пост-умови, системні та додаткові вимоги, а також необхідні технології. На основі цих вимог створено діаграму варіантів використання за UML-нотацією. Також визначено класи об'єктів, їх атрибути, методи та зв’язки для побудови діаграми класів. Розроблено описи ключових процесів у вигляді UML-діаграми діяльності та створено діаграми послідовності. Програми Lucidchart, Visual paradigm та Rational Rose використовувалися для побудови BPMN та UML діаграм.
Було визначено завдання роботи, описано ключові функції та мету розроблення. Подано детальний опис призначення системи та зазначено її місце застосування. Обґрунтовано необхідність створення системи, проведено її розроблення та сплановано впровадження. Також окреслено очікувані ефекти від впровадження системи. Була обрана інкрементна модель розробки ПЗ.
Для класифікації тексту були використані такі алгоритми, як Naive Bayes, Decision Tree, Random Forest, Logistic Regression і KNN. Також використана бібліотека FastText. Для створення та навчання моделей було використано Google Colab. Python був мовою програмування, яка використовувалася для попередньої обробки даних, навчання моделі та оцінювання. Найкращий результат точності класифікації виявився у FastText, а саме: 92%. Бібліотеки pytesseract, NudeDetector використовувалися для завдань розпізнавання зображень.
Для розробки розширення Google використовувалися React JS, Firebase і GitHub. Ці технології дозволили створити інтерактивний і зручний інтерфейс.
Методом тестування, було доведено, що проект успішно відповідає поставленим задачам і вимогам. Також система є економічно доцільною. Розроблений засіб продемонстрував ефективність у вирішенні визначеної задачі в заданих умовах, забезпечуючи отримання коректних і релевантних результатів. Система справляється з основними функціями: «Приховати слова з Вашого словника», «Приховати неприпустимий текст», «Приховати зображення з неприпустимим текстом», «Приховати зображення з оголеністю».
Розширення можна встановити на будь-який веб-браузер, що забезпечує його доступність для великої кількості користувачів. Це сприяє поширенню інструмента та забезпечує його корисність для різних категорій інтернет-користувачів.
The Internet has given people unprecedented freedom of speech. However, from such a huge privilege and opportunity also follows the freedom to create inappropriate content[1]. Inappropriate content may include images with text, revealing photos, swearing, or written words that may upset, disturb, or offend. People may be exposed to inappropriate content by accident or on purpose that they are not prepared for. This is especially crucial in the context of protecting vulnerable groups, including children, people with psychological illnesses, anxiety, etc. [2]. Thanks to the expansion, the Internet will become more protected from the negative impact of unwanted content, contributing to a more positive and productive online environment. The object of research is the process of automatic detection and censorship of inappropriate content (text and images) on web pages. The subject of the study is methods and technologies for censoring inappropriate content on web pages using a browser extension. The purpose of the study is to develop and implement an effective system for censoring inappropriate content on web pages using a browser extension, which will improve the comfort and quality of browsing Internet resources by users. This system allows users to control and filter the content they encounter on the Internet. The main tasks of the work are: 1. Analysis of existing approaches and technologies for censoring inappropriate content on web pages. 2. Review of artificial intelligence methods for text and image analysis. 3. Identification of the main components of the censorship system and development of their architecture. 4. Training models to achieve the required results. 5. Implementation of text and image analysis methods. 6. Creating a user-friendly interface for setting up censorship parameters. 7. Testing the extension on different web pages and optimizing its performance to increase efficiency. In this paper, a system analysis was conducted for the system. Analogous systems have been identified; Net Nanny, K9 Web Protection, Adblock Plus. Advanced Profanity Filter, Advanced Profanity Filter. Scales of indicators were created for them, and their characteristics were compared. Given these results, the creation of the project was appropriate and necessary. Business processes were analyzed and interaction between participants was demonstrated using the BPMN methodology. The requirements for the system are outlined: business requirements, user requirements, functional and non-functional requirements. Stakeholders, precedent conditions, the main success scenario, alternative paths, post-conditions, system and additional requirements, and the necessary technologies were identified. Based on these requirements, a use case diagram was created using UML notation. The classes of objects, their attributes, methods, and relationships are also defined to build a class diagram. Descriptions of key processes in the form of UML activity diagrams were developed and sequence diagrams were created. The programs Lucidchart, Visual paradigm and Rational Rose were used to build BPMN and UML diagrams. The work tasks were defined, the key functions and the purpose of the development were described. A detailed description of the purpose of the system is given and its place of application is indicated. The necessity of creating the system was substantiated, its development was carried out and implementation was planned. The expected effects of the system implementation are also outlined. The incremental model of software development was chosen. To classify the text, Naive Bayes, Decision Tree, Random Forest, Logistic Regression, and KNN algorithms were used. The FastText library was also used. Google Colab was used to create and train the models. Python was the programming language used for data preprocessing, model training, and evaluation. The best result of classification accuracy was obtained with FastText, as follows: 92%. The pytesseract and NudeDetector libraries were used for image recognition tasks. React JS, Firebase, and GitHub were used to develop the Google extension. These technologies allowed us to create an interactive and user-friendly interface. The testing method proved that the project successfully meets the tasks and requirements. The system is also economically sustainable. The developed tool has demonstrated its effectiveness in solving a specific task under given conditions, providing correct and relevant results. The system handles the main functions: “Hide words from your dictionary”, ‘Hide inappropriate text’, ‘Hide images with inappropriate text’, ‘Hide images with nudity’. The extension can be installed on any web browser, making it available to a large number of users. This facilitates the distribution of the tool and ensures its usefulness for different categories of Internet users.
The Internet has given people unprecedented freedom of speech. However, from such a huge privilege and opportunity also follows the freedom to create inappropriate content[1]. Inappropriate content may include images with text, revealing photos, swearing, or written words that may upset, disturb, or offend. People may be exposed to inappropriate content by accident or on purpose that they are not prepared for. This is especially crucial in the context of protecting vulnerable groups, including children, people with psychological illnesses, anxiety, etc. [2]. Thanks to the expansion, the Internet will become more protected from the negative impact of unwanted content, contributing to a more positive and productive online environment. The object of research is the process of automatic detection and censorship of inappropriate content (text and images) on web pages. The subject of the study is methods and technologies for censoring inappropriate content on web pages using a browser extension. The purpose of the study is to develop and implement an effective system for censoring inappropriate content on web pages using a browser extension, which will improve the comfort and quality of browsing Internet resources by users. This system allows users to control and filter the content they encounter on the Internet. The main tasks of the work are: 1. Analysis of existing approaches and technologies for censoring inappropriate content on web pages. 2. Review of artificial intelligence methods for text and image analysis. 3. Identification of the main components of the censorship system and development of their architecture. 4. Training models to achieve the required results. 5. Implementation of text and image analysis methods. 6. Creating a user-friendly interface for setting up censorship parameters. 7. Testing the extension on different web pages and optimizing its performance to increase efficiency. In this paper, a system analysis was conducted for the system. Analogous systems have been identified; Net Nanny, K9 Web Protection, Adblock Plus. Advanced Profanity Filter, Advanced Profanity Filter. Scales of indicators were created for them, and their characteristics were compared. Given these results, the creation of the project was appropriate and necessary. Business processes were analyzed and interaction between participants was demonstrated using the BPMN methodology. The requirements for the system are outlined: business requirements, user requirements, functional and non-functional requirements. Stakeholders, precedent conditions, the main success scenario, alternative paths, post-conditions, system and additional requirements, and the necessary technologies were identified. Based on these requirements, a use case diagram was created using UML notation. The classes of objects, their attributes, methods, and relationships are also defined to build a class diagram. Descriptions of key processes in the form of UML activity diagrams were developed and sequence diagrams were created. The programs Lucidchart, Visual paradigm and Rational Rose were used to build BPMN and UML diagrams. The work tasks were defined, the key functions and the purpose of the development were described. A detailed description of the purpose of the system is given and its place of application is indicated. The necessity of creating the system was substantiated, its development was carried out and implementation was planned. The expected effects of the system implementation are also outlined. The incremental model of software development was chosen. To classify the text, Naive Bayes, Decision Tree, Random Forest, Logistic Regression, and KNN algorithms were used. The FastText library was also used. Google Colab was used to create and train the models. Python was the programming language used for data preprocessing, model training, and evaluation. The best result of classification accuracy was obtained with FastText, as follows: 92%. The pytesseract and NudeDetector libraries were used for image recognition tasks. React JS, Firebase, and GitHub were used to develop the Google extension. These technologies allowed us to create an interactive and user-friendly interface. The testing method proved that the project successfully meets the tasks and requirements. The system is also economically sustainable. The developed tool has demonstrated its effectiveness in solving a specific task under given conditions, providing correct and relevant results. The system handles the main functions: “Hide words from your dictionary”, ‘Hide inappropriate text’, ‘Hide images with inappropriate text’, ‘Hide images with nudity’. The extension can be installed on any web browser, making it available to a large number of users. This facilitates the distribution of the tool and ensures its usefulness for different categories of Internet users.
Description
Keywords
8.124.00.03, – соціальні мережі, вебсайти, цензурування тексту, цензурування зображень, алгоритми класифікації тексту, надання мітки, приховання вмісту, Profanity Eater, Naive Bayes, Decision Tree, Random Forest, Logistic Regression, KNN, FastText, - social networks, websites, text censoring, image censoring, text classification algorithms, labeling, content hiding, Profanity Eater, Naive Bayes, Decision Tree, Random Forest, Logistic Regression, KNN, FastText
Citation
Твердохліб О. П. Система розпізнавання і модерування неприпустимого контенту на вебсторінках : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „8.124.00.03 — Аналіз даних (Data Science)“ / Олексій Петрович Твердохліб. — Львів, 2024. — 119 с.