Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом

Заверчук, Андрій Миколайович; Zaverchuk, Andrii Mykolaiovych

Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом

Files

Primary 2024_61220000_Zaverchuk_Andrii_Mykolaiovych_273854.pdf (2.83 MB)

Date

2024

Authors

Заверчук, Андрій Миколайович

Zaverchuk, Andrii Mykolaiovych

Publisher

Національний університет "Львівська політехніка"

Abstract

Робота складається з 74 сторінок, 12 рисунків, 10 таблиць, 1 додатка, 5 плакатів. Використано 14 джерел інформації. Метою бакалаврської кваліфікаційної роботи є створення інформаційної системи, здатної автоматично аналізувати та визначати ймовірність того, що текст українською мовою був згенерований штучним інтелектом. Основні завдання роботи: ? Проаналізувати сучасні підходи до виявлення текстів, створених штучним інтелектом. ? Вивчити моделі машинного навчання, зокрема трансформери, що використовуються для генерації та класифікації текстів. ? Дослідити лінгвістичні ознаки, характерні для текстів, створених штучним інтелектом. ? Розробити алгоритм виявлення штучно згенерованих текстів українською мовою. ? Реалізувати інформаційну систему, що інтегрує алгоритм виявлення з користувацьким інтерфейсом. 4 ? Провести тестування системи та оцінити її точність, продуктивність і надійність. ? Проаналізувати потенційні напрями застосування розробленої системи в освіті, журналістиці, академічному середовищі та сфері безпеки. Предметом дослідження є технології обробки природної мови (NLP), методи класифікації текстів і штучний інтелект. У роботі було проведено аналіз відомих моделей штучного інтелекту (GPT, BERT, RoBERTa) та підходів до виявлення штучного походження тексту, досліджено специфіку української мови в контексті NLP. Створено програмне забезпечення, яке дозволяє автоматично аналізувати текст та визначати його ймовірне походження. Система інтегрує алгоритми лінгвістичного аналізу, векторизації, класифікації на основі моделей машинного навчання. Результати дослідження: розроблено інформаційну систему, здатну з високою точністю визначати тексти, створені за допомогою ШІ. Проведено тестування на корпусах природних та згенерованих текстів українською мовою, отримано точність понад 85%. Розглянуто можливість масштабування системи на інші мови та застосування у різних сферах. Практична цінність: запропонована система може використовуватись у сфері освіти для виявлення плагіату, в журналістиці для перевірки автентичності текстів, у кібербезпеці для виявлення дезінформації, а також як інструмент для наукових досліджень у сфері ШІ та лінгвістики. Ключові переваги: • Висока точність виявлення згенерованого тексту • Підтримка української мови • Можливість інтеграції з веб-платформами та системами перевірки контенту • Відкритий код для адаптації під різні потреби 5
The thesis consists of 74 pages, 12 figures, 10 tables, 1 appendix, and 5 posters. 14 information sources were used. The objective of this bachelor’s qualification work is to develop an information system capable of automatically analyzing and determining the likelihood that a Ukrainian-language text was generated by artificial intelligence. Main tasks of the work include: • Analyzing current approaches to detecting AI-generated texts. • Studying machine learning models, particularly transformers, used for text generation and classification. • Investigating linguistic features typical of AI-generated texts. • Developing an algorithm for detecting AI-generated texts in Ukrainian. • Implementing an information system that integrates the detection algorithm with a user interface. • Conducting system testing and evaluating its accuracy, performance, and reliability. • Analyzing potential applications of the developed system in education, journalism, academia, and security. The subject of the research includes natural language processing (NLP) technologies, text classification methods, and artificial intelligence. 7 This study analyzes well-known AI models (GPT, BERT, RoBERTa) and approaches to identifying artificially generated texts. It also explores the specifics of the Ukrainian language in the context of NLP. A software solution was developed to automatically analyze a text and determine its likely origin. The system integrates linguistic analysis, vectorization, and classification algorithms based on machine learning models. Research results: an information system was developed that accurately identifies texts generated by AI. Testing on corpora of natural and generated Ukrainian texts showed accuracy above 85%. The possibility of scaling the system to other languages and applying it in various domains was also explored. Practical value: the proposed system can be used in education to detect plagiarism, in journalism to verify content authenticity, in cybersecurity to detect disinformation, and as a tool for research in AI and linguistics. Key advantages: • High accuracy in detecting generated texts • Support for the Ukrainian language • Integration with web platforms and content verification systems • Open-source code for adaptation to different needs

Keywords

6.122.00.00, штучний інтелект, згенерований текст, українська мова, NLP, класифікація, машинне навчання, GPT, виявлення фейків, інформаційна система, artificial intelligence, generated text, Ukrainian language, NLP, classification, machine learning, GPT, fake detection, information system

Citation

Заверчук А. М. Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „6.122.00.00 — Комп'ютерні науки“ / Андрій Миколайович Заверчук. — Львів, 2024. — 85 с.

URI

https://ena.lpnu.ua/handle/ntb/100915

Collections

Бакалаврські роботи

Full item page

Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By