Моделі та засоби автоматизованого визначення статистичного профілю україномовних текстів

Abstract

У роботі вирішується актуальне завдання із вдосконалення професійного програмного забезпечення для статистичного аналізу тексту відповідно до потреб фахівців. Проаналізовано особливості і перспективи статистичних досліджень у мовознавстві та розроблено інформаційну технологію (ІТ) визначення статистичного профілю україномовних текстів. Проведено комплексну роботу над моделюванням програмної системи, яку представлено у відповідних схемах і діаграмах, що цілісно відображають функціонування та призначення розробленого продукту. Розглядаються математичні та системні основи статистичного аналізу для автоматизації професійного опрацювання текстів українською мовою, в контексті впровадження пропонованої інформаційної технології. Побудовано структурну схему проектного рішення та визначено головні вимоги до апаратного забезпечення. Розроблено компоненти інформаційної технології та запропоновано структуру програмної системи, які ґрунтуються на модульному принципі. Розроблено математичне забезпечення ІТ, яке базується на методах прикладної статистики та дає змогу визначити основні характеристики (статистичний профіль) досліджуваних україномовних текстів. Окрім цього, розроблено алгоритмічне та програмне забезпечення ІТ, для реалізації якого використано Python. Наведено результати дослідження україномовних текстів та їх статистичні профілі, продемонстровано, що розроблена інформаційна технологія забезпечує опрацювання україномовних текстів з високим рівнем автоматизації. Отримані результати можна розглядати як внесок у розвиток наукових досліджень у лінгвістиці, завдяки якому створюються умови для вивчення авторських текстів різного стилю та ефективного використання професійних навичок та знань широким колом користувачів.
The paper deals with the urgent issue of improving the professional software for text statistical analysis in accordance with the needs of specialists. Peculiarities and prospects of statistical research in linguistics are analyzed and information technology (IT) for determining the statistical profile of Ukrainian-language texts is developed. Complex work on modelling the software system was carried out, it was presented in the corresponding schemes and diagrams, which integrally reflect the functioning and purpose of the developed product. Mathematical and system bases of statistical analysis aimed at automation of professional processing of Ukrainian-language texts, in the context of introducing the offered information technology are considered. The structural scheme of the project decision is constructed and the main requirements for hardware are defined. The components of information technology are developed, and the software system structure is proposed, which is based on the modular principle. Mathematical support for IT has been developed, it is based on the methods of applied statistics and allows determining the main characteristics (statistical profile) of the studied Ukrainian-language texts. In addition, the algorithms and software for IT have been developed using Python. The results of research on Ukrainian-language texts and their statistical profiles are given, it is shown that the developed information technology provides processing of Ukrainian-language texts with a high level of automation. The obtained results can be considered as a contribution to the development of scientific research in linguistics, which creates conditions for the study of authors texts of different styles and the effective use of professional skills and knowledge by a wide range of users. The scientific novelty of the work is that a model of automated determination of the statistical profile of Ukrainian language texts has been developed, which provides an opportunity for a comprehensive study of the corpus of Ukrainian-language texts. The obtained results are also of practical significance, as the structural scheme of IT has been developed, software tools of information technology for automation of the determining the statistical profile of Ukrainian-language texts have been implemented, and the results of text investigation have been analyzed.

Description

Keywords

опрацювання даних, статистичний аналіз, лінгвістика тексту, інформаційна система, автоматизація, data processing, statistical analysis, linguistics of the text, information system, automation

Citation

Моделі та засоби автоматизованого визначення статистичного профілю україномовних текстів / В. М. Теслюк, І. Я. Казимира, Ю. М. Кордіяка, І. Р. Рибак // Український журнал інформаційних технологій. — Львів : Видавництво Львівської політехніки, 2022. — Том 4. — № 1. — С. 37–43.