Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом

Заверчук, Андрій Миколайович; Zaverchuk, Andrii Mykolaiovych

Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом

dc.contributor.advisor	Черна, Тарас Ігорович
dc.contributor.affiliation	Національний університет "Львівська політехніка"
dc.contributor.author	Заверчук, Андрій Миколайович
dc.contributor.author	Zaverchuk, Andrii Mykolaiovych
dc.coverage.placename	Львів
dc.date.accessioned	2025-06-29T18:55:24Z
dc.date.created	2024
dc.date.issued	2024
dc.description.abstract	Робота складається з 74 сторінок, 12 рисунків, 10 таблиць, 1 додатка, 5 плакатів. Використано 14 джерел інформації. Метою бакалаврської кваліфікаційної роботи є створення інформаційної системи, здатної автоматично аналізувати та визначати ймовірність того, що текст українською мовою був згенерований штучним інтелектом. Основні завдання роботи: ? Проаналізувати сучасні підходи до виявлення текстів, створених штучним інтелектом. ? Вивчити моделі машинного навчання, зокрема трансформери, що використовуються для генерації та класифікації текстів. ? Дослідити лінгвістичні ознаки, характерні для текстів, створених штучним інтелектом. ? Розробити алгоритм виявлення штучно згенерованих текстів українською мовою. ? Реалізувати інформаційну систему, що інтегрує алгоритм виявлення з користувацьким інтерфейсом. 4 ? Провести тестування системи та оцінити її точність, продуктивність і надійність. ? Проаналізувати потенційні напрями застосування розробленої системи в освіті, журналістиці, академічному середовищі та сфері безпеки. Предметом дослідження є технології обробки природної мови (NLP), методи класифікації текстів і штучний інтелект. У роботі було проведено аналіз відомих моделей штучного інтелекту (GPT, BERT, RoBERTa) та підходів до виявлення штучного походження тексту, досліджено специфіку української мови в контексті NLP. Створено програмне забезпечення, яке дозволяє автоматично аналізувати текст та визначати його ймовірне походження. Система інтегрує алгоритми лінгвістичного аналізу, векторизації, класифікації на основі моделей машинного навчання. Результати дослідження: розроблено інформаційну систему, здатну з високою точністю визначати тексти, створені за допомогою ШІ. Проведено тестування на корпусах природних та згенерованих текстів українською мовою, отримано точність понад 85%. Розглянуто можливість масштабування системи на інші мови та застосування у різних сферах. Практична цінність: запропонована система може використовуватись у сфері освіти для виявлення плагіату, в журналістиці для перевірки автентичності текстів, у кібербезпеці для виявлення дезінформації, а також як інструмент для наукових досліджень у сфері ШІ та лінгвістики. Ключові переваги: • Висока точність виявлення згенерованого тексту • Підтримка української мови • Можливість інтеграції з веб-платформами та системами перевірки контенту • Відкритий код для адаптації під різні потреби 5
dc.description.abstract	The thesis consists of 74 pages, 12 figures, 10 tables, 1 appendix, and 5 posters. 14 information sources were used. The objective of this bachelor’s qualification work is to develop an information system capable of automatically analyzing and determining the likelihood that a Ukrainian-language text was generated by artificial intelligence. Main tasks of the work include: • Analyzing current approaches to detecting AI-generated texts. • Studying machine learning models, particularly transformers, used for text generation and classification. • Investigating linguistic features typical of AI-generated texts. • Developing an algorithm for detecting AI-generated texts in Ukrainian. • Implementing an information system that integrates the detection algorithm with a user interface. • Conducting system testing and evaluating its accuracy, performance, and reliability. • Analyzing potential applications of the developed system in education, journalism, academia, and security. The subject of the research includes natural language processing (NLP) technologies, text classification methods, and artificial intelligence. 7 This study analyzes well-known AI models (GPT, BERT, RoBERTa) and approaches to identifying artificially generated texts. It also explores the specifics of the Ukrainian language in the context of NLP. A software solution was developed to automatically analyze a text and determine its likely origin. The system integrates linguistic analysis, vectorization, and classification algorithms based on machine learning models. Research results: an information system was developed that accurately identifies texts generated by AI. Testing on corpora of natural and generated Ukrainian texts showed accuracy above 85%. The possibility of scaling the system to other languages and applying it in various domains was also explored. Practical value: the proposed system can be used in education to detect plagiarism, in journalism to verify content authenticity, in cybersecurity to detect disinformation, and as a tool for research in AI and linguistics. Key advantages: • High accuracy in detecting generated texts • Support for the Ukrainian language • Integration with web platforms and content verification systems • Open-source code for adaptation to different needs
dc.format.pages	85
dc.identifier.citation	Заверчук А. М. Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „6.122.00.00 — Комп'ютерні науки“ / Андрій Миколайович Заверчук. — Львів, 2024. — 85 с.
dc.identifier.uri	https://ena.lpnu.ua/handle/ntb/100876
dc.language.iso	uk
dc.publisher	Національний університет "Львівська політехніка"
dc.rights.holder	© Національний університет "Львівська політехніка", 2024
dc.rights.holder	© Заверчук, Андрій Миколайович, 2024
dc.subject	6.122.00.00
dc.subject	штучний інтелект
dc.subject	згенерований текст
dc.subject	українська мова
dc.subject	NLP
dc.subject	класифікація
dc.subject	машинне навчання
dc.subject	GPT
dc.subject	виявлення фейків
dc.subject	інформаційна система
dc.subject	artificial intelligence
dc.subject	generated text
dc.subject	Ukrainian language
dc.subject	NLP
dc.subject	classification
dc.subject	machine learning
dc.subject	GPT
dc.subject	fake detection
dc.subject	information system
dc.title	Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом
dc.title.alternative	Development of an information system for identifying Ukrainian texts generated by artificial intelligence
dc.type	Students_diploma

Files

Original bundle

Now showing 1 - 1 of 1

Name:: 2024_61220000_Zaverchuk_Andrii_Mykolaiovych_273854.pdf
Size:: 2.83 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 2.91 KB
Format:: Plain Text
Description:

Download

Collections

Бакалаврські роботи