Інформаційні технології корекції помилок в україномовних текстах з використанням методів машинного навчання

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет “Львівська політехніка”

Abstract

Актуальність дослідження зумовлена зростаючою потребою в автоматизації процесів аналізу та корекції текстів, зокрема для україномовного контенту, який відзначається багатством морфологічної і синтаксичної структури. Через широкий спектр помилок, що можуть виникати у текстах, від орфографічних до контекстуальних, існує нагальна потреба у створенні систем, здатних точно ідентифікувати помилки та пропонувати їх коректні виправлення. Специфіка української мови, включаючи складність її граматики та багатогранність, потребує адаптації моделей машинного навчання до локальних особливостей. Метою дослідження є розроблення математичної моделі системи підтримки прийняття рішень для ідентифікації та корекції помилок в україномовних текстах. Завдання включає як формалізацію та математичне описання процесу опрацювання текстів, так і побудову моделі з орієнтацією на задачі класифікації та генерації тексту. Особлива увага приділена ефективному врахуванню специфічних для української мови структурних особливостей із метою підвищення точності та продуктивності системи. Метод дослідження базуються на побудові математичної моделі корекції помилок, яка представлена як задача генерації тексту із врахуванням контексту. У дослідженні було використано статистичні методи та підходи машинного навчання. Особливу увагу присвячено формуванню навчальної вибірки, в якій поєднано тексти з реальними та штучними помилками для забезпечення збалансованого навчального процесу. У модулі корекції включено механізми генерації, що базуються на контекстуальних моделях, здатних передбачати правильне виправлення для помилкових токенів. Математично обґрунтовано підходи до векторизації текстів, враховуючи особливості морфології та синтаксису української мови. Побудована модель є універсальною основою для створення інтелектуальних систем автоматичного редагування україномовного тексту. У результаті проведеного дослідження сформульовано й математично обґрунтовано підходи до побудови моделі корекції помилок в україномовних текстах. Основним результатом стало створення інтегрованої системи, яка використовує контекстуальну інформацію для забезпечення високої точності розпізнавання помилок і їх виправлення. Застосовані математичні методи охоплюють ймовірнісні підходи та векторне представлення токенів, що дозволяє адаптувати систему до особливостей української мови з її високою морфологічною та синтаксичною складністю. Сформована основа моделі створює можливості для масштабування та подальшого використання у практичних завданнях, таких як автоматичне редагування текстів або підвищення якості контенту в україномовному середовищі. The relevance of the research is due to the growing need to automate the processes of text analysis and correction, in particular for Ukrainian-language content, which is characterized by a wealth of morphological and syntactic structure. Due to the wide range of errors that can occur in texts, from spelling to contextual, there is an urgent need to create systems that can accurately identify errors and offer their correct corrections. The specificity of the Ukrainian language, including its grammatical complexity and multifacetedness, requires the adaptation of machine learning models to local features. The purpose of the research is to develop a mathematical model of a decision support system for identifying and correcting errors in Ukrainian-language texts. The task includes both the formalization and mathematical description of the text processing process, and the construction of a model with an orientation to the tasks of classification and text generation. Special attention is paid to the effective consideration of structural features specific to the Ukrainian language in order to increase the accuracy and productivity of the system. The research method is based on the construction of a mathematical model of error correction, which is presented as a context-aware text generation problem. The study used statistical methods and machine learning approaches. Special attention is paid to the formation of a training sample, which combines texts with real and artificial errors to ensure a balanced learning process. The correction module includes generation mechanisms based on contextual models capable of predicting the correct correction for erroneous tokens. Approaches to text vectorization are mathematically substantiated, taking into account the peculiarities of the morphology and syntax of the Ukrainian language. The constructed model is a universal basis for creating intelligent systems for automatic editing of Ukrainian-language text. As a result of the research, approaches to building an error correction model in Ukrainian-language texts are formulated and mathematically substantiated. The main result was the creation of an integrated system that uses contextual information to ensure high accuracy of error recognition and correction. The applied mathematical methods include probabilistic approaches and vector representation of tokens, which allows adapting the system to the peculiarities of the Ukrainian language with its high morphological and syntactic complexity. The formed basis of the model creates opportunities for scaling and further use in practical tasks, such as automatic text editing or improving the quality of content in the Ukrainian-speaking environment.

Description

Citation

Федчук Р. Інформаційні технології корекції помилок в україномовних текстах з використанням методів машинного навчання / Ростислав Федчук, Вікторія Висоцька // Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. – 2025. – Випуск 18 (частина 1). – С. 43–57.

Endorsement

Review

Supplemented By

Referenced By