Інформаційні технології вирішення задачі виправлення помилок в україномовних текстах

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Видавництво Львівської політехніки

Abstract

Ця стаття присвячена дослідженню та аналізу задач виправлення граматичних помилок у текстах українською мовою, що є важливою проблемою у сфері опрацювання природної мови. У статті розглянуто специфічні виклики, які постають перед системами автоматичного виправлення помилок, зумовлені особливостями української мови, як-от морфологічна складність. Наведено приклади типових помилок та проаналізовано, чому наявні методи виправлення граматичних помилок часто виявляються недостатніми для української мови. Огляд літератури охоплює останні дослідження та публікації у сфері виправлення граматичних помилок, зокрема ті, що стосуються інших мов, та висвітлює підходи, які можуть бути адаптовані для української мови. Особливу увагу приділено аналізу наявних корпусів текстів українською мовою, як-от UA_GEC та інші, що використовуються для тренування моделей машинного навчання. Описано їхній обсяг, типи текстів та специфікації, а також їхні переваги та недоліки. Розглянуто інструменти для опрацювання природної мови, що підтримують українську мову, як-от: LanguageTool, NLP-uk, Stanza, NLP-Cube, pymorphy2, Tree_stam. Проаналізовано їхні функціональні можливості, продуктивність та описано перенавчені моделі машинного навчання, зокрема mBART50, mT5, що були адаптовані для української мови, та їхню ефективність у задачах виправлення граматичних помилок. У статті представлено практичні аспекти застосування цих моделей та корпусів для автоматичного виправлення граматичних помилок в текстах українською мовою. Детально описано процес адаптації моделей до специфіки української мови, наведено приклади практичних кейсів та проведено аналіз результатів. Значну частину статті присвячено опису одного з варіантів розроблення системи підтримки прийняття рішень для виправлення помилок у текстах українською мовою. Наведено архітектуру системи, її основні компоненти та процеси, що реалізовані за допомогою UML діаграм. Описано вхідні та вихідні дані, а також надано аналіз отриманих результатів, що демонструють ефективність запропонованих рішень. Результати цього дослідження можуть бути корисними для розробників NLP-систем, дослідників у сфері опрацювання текстів та освітніх установ, які займаються вдосконаленням якості письмових текстів українською мовою. This article is dedicated to the study and analysis of grammatical error correction (GEC) tasks in Ukrainian language texts, which is a significant issue in the field of natural language processing (NLP). The paper addresses the specific challenges faced by automatic error correction systems due to the peculiarities of the Ukrainian language, such as its morphological complexity and contextuality. Examples of typical errors are provided, and the reasons why existing GEC methods often prove insufficient for Ukrainian are analysed. The literature review covers recent research and publications in the GEC field, particularly those related to other languages, and highlights approaches that can be adapted for Ukrainian. Special attention is given to the analysis of existing Ukrainian text corpora, such as the UA_GEC and others used for training machine learning models. Their volume, text types, specifications, advantages, and disadvantages are described. Tools for natural language processing that support Ukrainian, such as LanguageTool, NLP-uk, Stanza, NLP-Cube, pymorphy2, Tree_stam, are examined. Their functionalities, performance, and accuracy are analysed. Pre-trained machine learning models, including mBART50 and mT5 were adapted for Ukrainian with description of their effectiveness in GEC tasks. The article presents practical aspects of applying these models and corpora for automatic grammatical error correction in Ukrainian texts. The process of adapting models to the specifics of the Ukrainian language is detailed, practical case examples are provided, and results are analysed. A significant part of the paper is devoted to the description of the developed decision support system for correcting errors in Ukrainian language texts. The system’s architecture, its main components, and processes are presented through UML diagrams. The input and output data are described, along with an analysis of the obtained results, demonstrating the effectiveness of the proposed solutions. The results of this study can be useful for NLP system developers, researchers in text processing, and educational institutions focused on improving the quality of written texts in Ukrainian.

Description

Citation

Федчук Р. Інформаційні технології вирішення задачі виправлення помилок в україномовних текстах / Ростислав Федчук, Вікторія Висоцька // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024 — № 16. — С. 11–34.

Endorsement

Review

Supplemented By

Referenced By