Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом

dc.contributor.advisorЧерна, Тарас Ігорович
dc.contributor.affiliationНаціональний університет "Львівська політехніка"
dc.contributor.authorЗаверчук, Андрій Миколайович
dc.contributor.authorZaverchuk, Andrii Mykolaiovych
dc.coverage.placenameЛьвів
dc.date.accessioned2025-06-29T18:55:24Z
dc.date.created2024
dc.date.issued2024
dc.description.abstractРобота складається з 74 сторінок, 12 рисунків, 10 таблиць, 1 додатка, 5 плакатів. Використано 14 джерел інформації. Метою бакалаврської кваліфікаційної роботи є створення інформаційної системи, здатної автоматично аналізувати та визначати ймовірність того, що текст українською мовою був згенерований штучним інтелектом. Основні завдання роботи: ? Проаналізувати сучасні підходи до виявлення текстів, створених штучним інтелектом. ? Вивчити моделі машинного навчання, зокрема трансформери, що використовуються для генерації та класифікації текстів. ? Дослідити лінгвістичні ознаки, характерні для текстів, створених штучним інтелектом. ? Розробити алгоритм виявлення штучно згенерованих текстів українською мовою. ? Реалізувати інформаційну систему, що інтегрує алгоритм виявлення з користувацьким інтерфейсом. 4 ? Провести тестування системи та оцінити її точність, продуктивність і надійність. ? Проаналізувати потенційні напрями застосування розробленої системи в освіті, журналістиці, академічному середовищі та сфері безпеки. Предметом дослідження є технології обробки природної мови (NLP), методи класифікації текстів і штучний інтелект. У роботі було проведено аналіз відомих моделей штучного інтелекту (GPT, BERT, RoBERTa) та підходів до виявлення штучного походження тексту, досліджено специфіку української мови в контексті NLP. Створено програмне забезпечення, яке дозволяє автоматично аналізувати текст та визначати його ймовірне походження. Система інтегрує алгоритми лінгвістичного аналізу, векторизації, класифікації на основі моделей машинного навчання. Результати дослідження: розроблено інформаційну систему, здатну з високою точністю визначати тексти, створені за допомогою ШІ. Проведено тестування на корпусах природних та згенерованих текстів українською мовою, отримано точність понад 85%. Розглянуто можливість масштабування системи на інші мови та застосування у різних сферах. Практична цінність: запропонована система може використовуватись у сфері освіти для виявлення плагіату, в журналістиці для перевірки автентичності текстів, у кібербезпеці для виявлення дезінформації, а також як інструмент для наукових досліджень у сфері ШІ та лінгвістики. Ключові переваги: • Висока точність виявлення згенерованого тексту • Підтримка української мови • Можливість інтеграції з веб-платформами та системами перевірки контенту • Відкритий код для адаптації під різні потреби 5
dc.description.abstractThe thesis consists of 74 pages, 12 figures, 10 tables, 1 appendix, and 5 posters. 14 information sources were used. The objective of this bachelor’s qualification work is to develop an information system capable of automatically analyzing and determining the likelihood that a Ukrainian-language text was generated by artificial intelligence. Main tasks of the work include: • Analyzing current approaches to detecting AI-generated texts. • Studying machine learning models, particularly transformers, used for text generation and classification. • Investigating linguistic features typical of AI-generated texts. • Developing an algorithm for detecting AI-generated texts in Ukrainian. • Implementing an information system that integrates the detection algorithm with a user interface. • Conducting system testing and evaluating its accuracy, performance, and reliability. • Analyzing potential applications of the developed system in education, journalism, academia, and security. The subject of the research includes natural language processing (NLP) technologies, text classification methods, and artificial intelligence. 7 This study analyzes well-known AI models (GPT, BERT, RoBERTa) and approaches to identifying artificially generated texts. It also explores the specifics of the Ukrainian language in the context of NLP. A software solution was developed to automatically analyze a text and determine its likely origin. The system integrates linguistic analysis, vectorization, and classification algorithms based on machine learning models. Research results: an information system was developed that accurately identifies texts generated by AI. Testing on corpora of natural and generated Ukrainian texts showed accuracy above 85%. The possibility of scaling the system to other languages and applying it in various domains was also explored. Practical value: the proposed system can be used in education to detect plagiarism, in journalism to verify content authenticity, in cybersecurity to detect disinformation, and as a tool for research in AI and linguistics. Key advantages: • High accuracy in detecting generated texts • Support for the Ukrainian language • Integration with web platforms and content verification systems • Open-source code for adaptation to different needs
dc.format.pages85
dc.identifier.citationЗаверчук А. М. Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „6.122.00.00 — Комп'ютерні науки“ / Андрій Миколайович Заверчук. — Львів, 2024. — 85 с.
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/100876
dc.language.isouk
dc.publisherНаціональний університет "Львівська політехніка"
dc.rights.holder© Національний університет "Львівська політехніка", 2024
dc.rights.holder© Заверчук, Андрій Миколайович, 2024
dc.subject6.122.00.00
dc.subjectштучний інтелект
dc.subjectзгенерований текст
dc.subjectукраїнська мова
dc.subjectNLP
dc.subjectкласифікація
dc.subjectмашинне навчання
dc.subjectGPT
dc.subjectвиявлення фейків
dc.subjectінформаційна система
dc.subjectartificial intelligence
dc.subjectgenerated text
dc.subjectUkrainian language
dc.subjectNLP
dc.subjectclassification
dc.subjectmachine learning
dc.subjectGPT
dc.subjectfake detection
dc.subjectinformation system
dc.titleРозроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом
dc.title.alternativeDevelopment of an information system for identifying Ukrainian texts generated by artificial intelligence
dc.typeStudents_diploma

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2024_61220000_Zaverchuk_Andrii_Mykolaiovych_273854.pdf
Size:
2.83 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
2.91 KB
Format:
Plain Text
Description: