Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
Робота складається з 74 сторінок, 12 рисунків, 10 таблиць, 1 додатка, 5
плакатів. Використано 14 джерел інформації.
Метою бакалаврської кваліфікаційної роботи є створення
інформаційної системи, здатної автоматично аналізувати та визначати
ймовірність того, що текст українською мовою був згенерований штучним
інтелектом.
Основні завдання роботи:
? Проаналізувати сучасні підходи до виявлення текстів, створених штучним
інтелектом.
? Вивчити моделі машинного навчання, зокрема трансформери, що
використовуються для генерації та класифікації текстів.
? Дослідити лінгвістичні ознаки, характерні для текстів, створених штучним
інтелектом.
? Розробити алгоритм виявлення штучно згенерованих текстів українською
мовою.
? Реалізувати інформаційну систему, що інтегрує алгоритм виявлення з
користувацьким інтерфейсом.
4
? Провести тестування системи та оцінити її точність, продуктивність і
надійність.
? Проаналізувати потенційні напрями застосування розробленої системи в
освіті, журналістиці, академічному середовищі та сфері безпеки.
Предметом дослідження є технології обробки природної мови (NLP),
методи класифікації текстів і штучний інтелект.
У роботі було проведено аналіз відомих моделей штучного інтелекту (GPT,
BERT, RoBERTa) та підходів до виявлення штучного походження тексту,
досліджено специфіку української мови в контексті NLP. Створено програмне
забезпечення, яке дозволяє автоматично аналізувати текст та визначати його
ймовірне походження. Система інтегрує алгоритми лінгвістичного аналізу,
векторизації, класифікації на основі моделей машинного навчання.
Результати дослідження: розроблено інформаційну систему, здатну з
високою точністю визначати тексти, створені за допомогою ШІ. Проведено
тестування на корпусах природних та згенерованих текстів українською мовою,
отримано точність понад 85%. Розглянуто можливість масштабування системи
на інші мови та застосування у різних сферах.
Практична цінність: запропонована система може використовуватись у
сфері освіти для виявлення плагіату, в журналістиці для перевірки автентичності
текстів, у кібербезпеці для виявлення дезінформації, а також як інструмент для
наукових досліджень у сфері ШІ та лінгвістики.
Ключові переваги:
• Висока точність виявлення згенерованого тексту
• Підтримка української мови
• Можливість інтеграції з веб-платформами та системами перевірки
контенту
• Відкритий код для адаптації під різні потреби
5
The thesis consists of 74 pages, 12 figures, 10 tables, 1 appendix, and 5 posters. 14 information sources were used. The objective of this bachelor’s qualification work is to develop an information system capable of automatically analyzing and determining the likelihood that a Ukrainian-language text was generated by artificial intelligence. Main tasks of the work include: • Analyzing current approaches to detecting AI-generated texts. • Studying machine learning models, particularly transformers, used for text generation and classification. • Investigating linguistic features typical of AI-generated texts. • Developing an algorithm for detecting AI-generated texts in Ukrainian. • Implementing an information system that integrates the detection algorithm with a user interface. • Conducting system testing and evaluating its accuracy, performance, and reliability. • Analyzing potential applications of the developed system in education, journalism, academia, and security. The subject of the research includes natural language processing (NLP) technologies, text classification methods, and artificial intelligence. 7 This study analyzes well-known AI models (GPT, BERT, RoBERTa) and approaches to identifying artificially generated texts. It also explores the specifics of the Ukrainian language in the context of NLP. A software solution was developed to automatically analyze a text and determine its likely origin. The system integrates linguistic analysis, vectorization, and classification algorithms based on machine learning models. Research results: an information system was developed that accurately identifies texts generated by AI. Testing on corpora of natural and generated Ukrainian texts showed accuracy above 85%. The possibility of scaling the system to other languages and applying it in various domains was also explored. Practical value: the proposed system can be used in education to detect plagiarism, in journalism to verify content authenticity, in cybersecurity to detect disinformation, and as a tool for research in AI and linguistics. Key advantages: • High accuracy in detecting generated texts • Support for the Ukrainian language • Integration with web platforms and content verification systems • Open-source code for adaptation to different needs
The thesis consists of 74 pages, 12 figures, 10 tables, 1 appendix, and 5 posters. 14 information sources were used. The objective of this bachelor’s qualification work is to develop an information system capable of automatically analyzing and determining the likelihood that a Ukrainian-language text was generated by artificial intelligence. Main tasks of the work include: • Analyzing current approaches to detecting AI-generated texts. • Studying machine learning models, particularly transformers, used for text generation and classification. • Investigating linguistic features typical of AI-generated texts. • Developing an algorithm for detecting AI-generated texts in Ukrainian. • Implementing an information system that integrates the detection algorithm with a user interface. • Conducting system testing and evaluating its accuracy, performance, and reliability. • Analyzing potential applications of the developed system in education, journalism, academia, and security. The subject of the research includes natural language processing (NLP) technologies, text classification methods, and artificial intelligence. 7 This study analyzes well-known AI models (GPT, BERT, RoBERTa) and approaches to identifying artificially generated texts. It also explores the specifics of the Ukrainian language in the context of NLP. A software solution was developed to automatically analyze a text and determine its likely origin. The system integrates linguistic analysis, vectorization, and classification algorithms based on machine learning models. Research results: an information system was developed that accurately identifies texts generated by AI. Testing on corpora of natural and generated Ukrainian texts showed accuracy above 85%. The possibility of scaling the system to other languages and applying it in various domains was also explored. Practical value: the proposed system can be used in education to detect plagiarism, in journalism to verify content authenticity, in cybersecurity to detect disinformation, and as a tool for research in AI and linguistics. Key advantages: • High accuracy in detecting generated texts • Support for the Ukrainian language • Integration with web platforms and content verification systems • Open-source code for adaptation to different needs
Description
Citation
Заверчук А. М. Розроблення інформаційної системи для визначення текстів українською мовою, створених штучним інтелектом : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „6.122.00.00 — Комп'ютерні науки“ / Андрій Миколайович Заверчук. — Львів, 2024. — 85 с.