Інтелектуальна інформаційна система асиметричного ембедингу україномовного тексту

dc.contributor.advisorКунанець, Наталія Едуардівна
dc.contributor.affiliationНаціональний університет "Львівська політехніка"
dc.contributor.authorМедяков, Олександр Олександрович
dc.contributor.authorMediakov, Oleksandr Oleksandrovych
dc.coverage.placenameЛьвів
dc.date.accessioned2025-05-30T18:00:32Z
dc.date.created2024
dc.date.issued2024
dc.description.abstractАктуальність. Обробка природної мови є однією з центральних сфер штучного інтелекту та комп’ютерних наук, а розробка якісних моделей ембедингу, тобто векторного представлення тексту, займає в ній центральне місце. Незважаючи на значний прогрес, існуючі багатомовні моделі-ембедири, на основі архітектури трансформерів [1], часто мають обмежену підтримку або недостатню якість для української мови, що зумовлене лімітованою доступністю до якісних україномовних даних для навчання та недостатнє покриття української мови в існуючих бенчмарках для оцінки якості ембединг-моделей. Такі особливості створюють певне обмеження на можливість використання сучасних NLP рішень для української мови, що в свою чергу підкреслює актуальність розробки та впровадження сучасних, високоякісних моделей ембедингу, спеціально адаптованих для української мови Сучасні тенденції у розробці ембединг-моделей включають використання архітектур з підтримкою асиметричності векторизації відносно типу тексту та задачі, для якої буде використано ембединг-вектор. Іншою важливою інновацією є навчання з репрезентаційним навчанням MRL [2], що дозволяє одній моделі генерувати ембединги різної розмірності, підвищуючи її гнучкість та ефективність. Через недостатню кількість якісних реальних даних для української мови, важливим напрямком розвитку є генерація синтетичних даних за допомогою LLM, які доповнюють колекцію можливих наборів даних для навчання ембединг-моделей. Об’єктом дослідження є процес створення та застосування моделей векторного представлення тексту для української мови. Предметом дослідження є методи генерації синтетичних даних для навчання ембединг-моделей, архітектура асиметричної моделі-трансформера на основі бінаризації UTF-символів та механізмів уваги з ковзним вікном, методи навчання та оцінки якості таких моделей, а також розробка та реалізація інтелектуальної інформаційної системи для їх використання при обробці україномовних текстів. Метою даної роботи є проєктування та імплементація інтелектуальної інформаційної системи асиметричного ембедингу україномовних текстів на основі “енкодер-тільки” моделі-трансформера. Досягнення поставленої мети передбачає вирішення таких задач: • Провести аналітичний огляд наявних підходів побудови та навчання моделей ембедингу тексту, методів генерації синтетичних датасетів та застосування цих ідей для української мови. • Виконати системний аналіз предметної області й розробити концептуальну модель інтелектуальної системи асиметричного ембедингу україномовного тексту. • Розробити та обґрунтувати методи генерації синтетичних україномовних даних для навчання та донавчання моделі. • Запропонувати та обґрунтувати архітектуру моделі-трансформера для асиметричного ембедингу україномовного тексту. • Вибрати та обґрунтувати програмні засоби для реалізації моделі та інтелектуальної системи й здійснити практичну реалізацію інтелектуальної системи, включаючи навчання моделі, розробку бази даних та інтерфейсів взаємодії з користувачем (графічного та API). Наукова новизна відповідних результатів роботи полягає у кількох аспектах, включно з запропонованою архітектурою моделі-трансформера для асиметричного ембедингу тексту українською мовою, яка поєднує бінаризацію Unicode кодів символів як метод ембедингу без токенізації, механізм уваги з ковзним вікном для початкової контекстуалізації символів, стандартні трансформер-блоки для подальшого опрацювання та підтримку MRL для генерації векторів різної розмірності. У роботі також запропоновано вдосконалений підхід до генерації синтетичних даних для навчання ембединг-моделей української мови шляхом комбінації повністю синтетичної та генерації з малою кількістю прикладів. Практичне значення отриманих результатів полягає у: • Запропоновано нову архітектуру моделі-трансформера для асиметричного ембедингу, адаптовану для української мови. • Імплементовано програмне забезпечення системи з двома інтерфейсами взаємодії з користувачем, що дозволяє ембедити україномовний текст та проводити оцінку семантичної подібності текстів. Опис реалізації завдання. Реалізація системи включала створення та навчання моделі, використовуючи Keras як основний фреймворк розробки мовної моделі-ембедингу. Розробка моделі включає створення та комбінування описаних шарів та елементів архітектури, підбір гіперпараметрів. Для використання моделі користувачами створено два типи інтерфейсу взаємодії – графічний, що включає логіку реєстрації та входження, створення API ключів, проведення ембедингу тексту та оцінки семантичної подібності кількох уривків до одного тексту-запиту. Другий інтерфейс включає публічну API, розроблено відповідно до архітектури JSON RCP 2.0, через який користувачі з ключами можуть застосовувати модель для ембедингу багатьох текстів одночасно.
dc.description.abstractRelevance. Natural language processing is a central domain within artificial intelligence and computer science, with the development of high-quality embedding models, i.e., vector representations of text, holding an integral position. Despite significant advancements, existing multilingual embedding models based on transformer architectures [1] often exhibit limited support or insufficient quality for the Ukrainian language. This is due to the restricted availability of high-quality Ukrainian data for training and/or the insufficient coverage of Ukrainian in current benchmarks for evaluating the embedding models. These obstacles limit the applicability of contemporary NLP solutions for Ukrainian, thereby underscoring the relevancy of researching, developing and implementing advanced, high-quality embedding models specifically adapted for the Ukrainian language. Related works. Current trends in embedding model development include the adoption of architectures supporting asymmetric vectorization with respect to the text type and the task for which the embedding vector will be used. Another important innovation is training with MRL [2], which allows training a single model to generate embeddings of varying dimensionality, enhancing its flexibility and efficiency. Given the scarcity of high-quality real-world data for Ukrainian, an important research direction includes the AI-generation of synthetic data using LLMs, which extends the collection of potential corpora for training embedding models. The object of research is the process of creating and applying vector representation models for Ukrainian text. The subject of this research encompasses methods for generating synthetic data to train embedding models, the architecture of an asymmetric transformer model based on UTF character binarization and sliding window attention mechanisms, training and evaluation methodologies for such models, as well as the development and implementation of an intelligent information system for their utilization in Ukrainian text processing. The goal and task of the research is to design and implement an intelligent information system for asymmetric embedding of Ukrainian texts based on an encoder-only transformer model. In order to achieve the stated aim, the following objectives must be addressed: • Conduct an analytical review of existing approaches to constructing and training text embedding models, methods for generating synthetic datasets, and the application of these ideas to the Ukrainian language. • Perform a system analysis of the subject domain and develop a conceptual model of an intelligent system for asymmetric embedding of Ukrainian text. • Develop and substantiate methods for generating synthetic Ukrainian data for model training and fine-tuning. • Propose and justify the architecture of a transformer model for asymmetric embedding of Ukrainian text. • Select and justify the software tools for implementing the model and the intelligent system and carry out the practical implementation of the intelligent system, including model training, database development, and user interaction interfaces (UI and API). The scientific novelty of the results lies in several aspects, including the proposed transformer model architecture for asymmetric embedding of Ukrainian text, which combines binarization of Unicode character codes as a tokenization-free embedding method, a sliding window attention mechanism for initial character contextualization, standard transformer blocks for further processing, and MRL support for generating vectors of varying dimensionality. The work also introduces an enhanced approach to generating synthetic data for training Ukrainian language embedding models by combining fully synthetic generation with few-shot generation. The practical significance of the results is as follows: • A novel transformer model architecture for asymmetric embedding, adapted for the Ukrainian language, is proposed. • Software for the system with two user interaction interfaces is implemented, enabling the embedding of Ukrainian text and the evaluation of semantic similarity between texts. Implementation Description. The system implementation involved the creation and training of the model, utilizing Keras as the primary framework for developing the language embedding model. Model development included the creation and combination of the described layers and architectural elements, as well as hyperparameter tuning. For user access to the model, two types of interaction interfaces were created: a graphical interface, which includes registration and login logic, API key generation, text embedding, and semantic similarity assessment of multiple text snippets against a single query text; and a public API, developed according to the JSON RPC 2.0 architecture, through which users with keys can apply the model for embedding multiple texts simultaneously.
dc.format.pages102
dc.identifier.citationМедяков О. О. Інтелектуальна інформаційна система асиметричного ембедингу україномовного тексту : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.124.00.00 — Системний аналіз (освітньо-наукова програма)“ / Олександр Олександрович Медяков. — Львів, 2024. — 102 с.
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/65213
dc.language.isouk
dc.publisherНаціональний університет "Львівська політехніка"
dc.relation.referencesVaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2023). Attention Is All You Need. https://doi.org/10.48550/arXiv.1706.03762
dc.relation.referencesKusupati, A., Bhatt, G., Rege, A., Wallingford, M., Sinha, A., Ramanujan, V., Howard-Snyder, W., Chen, K., Kakade, S., Jain, P., & Farhadi, A. (2024). Matryoshka Representation Learning. https://doi.org/10.48550/arXiv.2205.13147
dc.relation.referencesenVaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2023). Attention Is All You Need. https://doi.org/10.48550/arXiv.1706.03762
dc.relation.referencesenKusupati, A., Bhatt, G., Rege, A., Wallingford, M., Sinha, A., Ramanujan, V., Howard-Snyder, W., Chen, K., Kakade, S., Jain, P., & Farhadi, A. (2024). Matryoshka Representation Learning. https://doi.org/10.48550/arXiv.2205.13147
dc.rights.holder© Національний університет "Львівська політехніка", 2024
dc.rights.holder© Медяков, Олександр Олександрович, 2024
dc.subject3.124.00.00
dc.subject– асиметричний ембединг тексту
dc.subjectобробка природньої мови
dc.subjectтрансформери
dc.subjectсинтетичні набори даних
dc.subjectмовні моделі
dc.subjectasymmetric text embedding
dc.subjectnatural language processing
dc.subjecttransformers
dc.subjectsynthetic datasets
dc.subjectlanguage models
dc.titleІнтелектуальна інформаційна система асиметричного ембедингу україномовного тексту
dc.title.alternativeIntelligent Information System for Asymmetric Embedding of Ukrainian Text
dc.typeStudents_diploma

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2024_31240000_Mediakov_Oleksandr_Oleksandrovych_262027.pdf
Size:
7.57 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
2.91 KB
Format:
Plain Text
Description: