Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом
dc.contributor.advisor | Черна, Тарас Ігорович | |
dc.contributor.affiliation | Національний університет "Львівська політехніка" | |
dc.contributor.author | Заверчук, Андрій Миколайович | |
dc.contributor.author | Zaverchuk, Andrii Mykolaiovych | |
dc.coverage.placename | Львів | |
dc.date.accessioned | 2025-06-29T18:56:17Z | |
dc.date.created | 2024 | |
dc.date.issued | 2024 | |
dc.description.abstract | Робота складається з 74 сторінок, 12 рисунків, 10 таблиць, 1 додатка, 5 плакатів. Використано 14 джерел інформації. Метою бакалаврської кваліфікаційної роботи є створення інформаційної системи, здатної автоматично аналізувати та визначати ймовірність того, що текст українською мовою був згенерований штучним інтелектом. Основні завдання роботи: ? Проаналізувати сучасні підходи до виявлення текстів, створених штучним інтелектом. ? Вивчити моделі машинного навчання, зокрема трансформери, що використовуються для генерації та класифікації текстів. ? Дослідити лінгвістичні ознаки, характерні для текстів, створених штучним інтелектом. ? Розробити алгоритм виявлення штучно згенерованих текстів українською мовою. ? Реалізувати інформаційну систему, що інтегрує алгоритм виявлення з користувацьким інтерфейсом. 4 ? Провести тестування системи та оцінити її точність, продуктивність і надійність. ? Проаналізувати потенційні напрями застосування розробленої системи в освіті, журналістиці, академічному середовищі та сфері безпеки. Предметом дослідження є технології обробки природної мови (NLP), методи класифікації текстів і штучний інтелект. У роботі було проведено аналіз відомих моделей штучного інтелекту (GPT, BERT, RoBERTa) та підходів до виявлення штучного походження тексту, досліджено специфіку української мови в контексті NLP. Створено програмне забезпечення, яке дозволяє автоматично аналізувати текст та визначати його ймовірне походження. Система інтегрує алгоритми лінгвістичного аналізу, векторизації, класифікації на основі моделей машинного навчання. Результати дослідження: розроблено інформаційну систему, здатну з високою точністю визначати тексти, створені за допомогою ШІ. Проведено тестування на корпусах природних та згенерованих текстів українською мовою, отримано точність понад 85%. Розглянуто можливість масштабування системи на інші мови та застосування у різних сферах. Практична цінність: запропонована система може використовуватись у сфері освіти для виявлення плагіату, в журналістиці для перевірки автентичності текстів, у кібербезпеці для виявлення дезінформації, а також як інструмент для наукових досліджень у сфері ШІ та лінгвістики. Ключові переваги: • Висока точність виявлення згенерованого тексту • Підтримка української мови • Можливість інтеграції з веб-платформами та системами перевірки контенту • Відкритий код для адаптації під різні потреби 5 | |
dc.description.abstract | The thesis consists of 74 pages, 12 figures, 10 tables, 1 appendix, and 5 posters. 14 information sources were used. The objective of this bachelor’s qualification work is to develop an information system capable of automatically analyzing and determining the likelihood that a Ukrainian-language text was generated by artificial intelligence. Main tasks of the work include: • Analyzing current approaches to detecting AI-generated texts. • Studying machine learning models, particularly transformers, used for text generation and classification. • Investigating linguistic features typical of AI-generated texts. • Developing an algorithm for detecting AI-generated texts in Ukrainian. • Implementing an information system that integrates the detection algorithm with a user interface. • Conducting system testing and evaluating its accuracy, performance, and reliability. • Analyzing potential applications of the developed system in education, journalism, academia, and security. The subject of the research includes natural language processing (NLP) technologies, text classification methods, and artificial intelligence. 7 This study analyzes well-known AI models (GPT, BERT, RoBERTa) and approaches to identifying artificially generated texts. It also explores the specifics of the Ukrainian language in the context of NLP. A software solution was developed to automatically analyze a text and determine its likely origin. The system integrates linguistic analysis, vectorization, and classification algorithms based on machine learning models. Research results: an information system was developed that accurately identifies texts generated by AI. Testing on corpora of natural and generated Ukrainian texts showed accuracy above 85%. The possibility of scaling the system to other languages and applying it in various domains was also explored. Practical value: the proposed system can be used in education to detect plagiarism, in journalism to verify content authenticity, in cybersecurity to detect disinformation, and as a tool for research in AI and linguistics. Key advantages: • High accuracy in detecting generated texts • Support for the Ukrainian language • Integration with web platforms and content verification systems • Open-source code for adaptation to different needs | |
dc.format.pages | 85 | |
dc.identifier.citation | Заверчук А. М. Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „6.122.00.00 — Комп'ютерні науки“ / Андрій Миколайович Заверчук. — Львів, 2024. — 85 с. | |
dc.identifier.uri | https://ena.lpnu.ua/handle/ntb/100915 | |
dc.language.iso | uk | |
dc.publisher | Національний університет "Львівська політехніка" | |
dc.rights.holder | © Національний університет "Львівська політехніка", 2024 | |
dc.rights.holder | © Заверчук, Андрій Миколайович, 2024 | |
dc.subject | 6.122.00.00 | |
dc.subject | штучний інтелект | |
dc.subject | згенерований текст | |
dc.subject | українська мова | |
dc.subject | NLP | |
dc.subject | класифікація | |
dc.subject | машинне навчання | |
dc.subject | GPT | |
dc.subject | виявлення фейків | |
dc.subject | інформаційна система | |
dc.subject | artificial intelligence | |
dc.subject | generated text | |
dc.subject | Ukrainian language | |
dc.subject | NLP | |
dc.subject | classification | |
dc.subject | machine learning | |
dc.subject | GPT | |
dc.subject | fake detection | |
dc.subject | information system | |
dc.title | Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом | |
dc.title.alternative | Development of an information system for identifying Ukrainian texts generated by artificial intelligence | |
dc.type | Students_diploma |