Особливості бази знань системи автоматизованої побудови логіко-лінгвістичних моделей текстових документів
Date
2021-03-01
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
Окреслено проблему пошуку змістовних одиниць у електронних текстових документах та
проаналізовано основні недоліки відомих підходів до видобування знань із текстової інформації.
Досліджено особливості побудови логіко-лінгвістичних моделей електронних текстових документів,
зокрема описано та досліджено особливості баз знань системи автоматизованої побудови
логіко-лінгвістичних моделей україномовних текстових документів. Запропоновано схему
формалізації текстової інформації на основі побудови логіко-лінгвістичної моделі електронного
текстового документа. У ній першим етапом є формування логіко-лінгвістичних моделей речень
природної мови. Для цього використано спеціально розроблений метод автоматизованого формування
логіко-лінгвістичних моделей, що ґрунтується на здійсненні синтаксичного аналізу
речень природної мови, використанні бази даних у вигляді тезаурусу слів природної мови та бази
правил для виявлення логічних зв’язків. Це уможливилось завдяки базі знань 1, яку розробила
автор. Ця база використовується для визначення ролі кожного зі слів електронного текстового
документа та є продукційною моделлю із формалізованими правилами української мови для
формування словосполучень, які можуть утворювати між собою члени речення природної мови.
Базу знань 2 створено для пошуку зв’язків між реченнями, що входять до складу електронного
текстового документа, вона є сукупністю продукцій, які відображають принципи синтезу логіко-лінгвістичних
моделей речень природної мови, тобто правила об’єднання та заміни структурних
компонентів логіко-лінгвістичних моделей – речень природної мови. База знань 3, використана
для побудови лінгвістичної складової логіко-лінгвістичної моделі текстового документа, є
множиною продукцій, що містить правила формування мереж переходів для інтерпретації тематичної прогресії
тексту. На конкретних текстових фрагментах продемонстровано застосування
розроблених формалізованих правил. Механізм використання запропонованих баз знань дає змогу
простежити процес формування логіко-лінгвістичних моделей електронних текстових документів
The article outlines the problem of finding meaningful units in electronic text documents and analyzes the main shortcomings of existing approaches of extracting knowledge from textual information. The article is devoted to the study of the peculiarities of the process of construction of logic and linguistic models of electronic text documents, in particular the description and research of the peculiarities of knowledge bases of the system of automated construction of logic and linguistic models of Ukrainian-language text documents. The author proposes a scheme of formalization of textual information based on the construction of a logic and linguistic model of an electronic text document. The first stage of construction is the formation of logical and linguistic models of natural language sentences, which uses a specially developed method of automated formation of logical and linguistic models. This method is based on parsing sentences of natural language, using words of natural language as a thesaurus database and using a database of rules to identify logical connections. This in turn is made possible by the author's developed knowledge base 1, which is used to determine the role of each word in an electronic text document and serves as a production model with formalized rules of the Ukrainian language for forming phrases that can form members of sentence of natural language. The knowledge base 2 was created by the author to find connections between sentences that are part of an electronic text document and is a set of productions that reflect the principles of synthesis of logic and linguistic models of sentences of natural language, ie the rules of combining and replacing structural components of logic and linguistic models of sentences of natural language. The knowledge base 3, used to build the linguistic component of the logic and linguistic model of a text document, is a set of productions that contains the rules of forming of transition networks to interpret the thematic progression of the text. The application of the developed formalized rules was demonstrated on specific text fragments. Applying the developed knowledge bases allows to trace the process of formation of logic and linguistic models of electronic text documents.
The article outlines the problem of finding meaningful units in electronic text documents and analyzes the main shortcomings of existing approaches of extracting knowledge from textual information. The article is devoted to the study of the peculiarities of the process of construction of logic and linguistic models of electronic text documents, in particular the description and research of the peculiarities of knowledge bases of the system of automated construction of logic and linguistic models of Ukrainian-language text documents. The author proposes a scheme of formalization of textual information based on the construction of a logic and linguistic model of an electronic text document. The first stage of construction is the formation of logical and linguistic models of natural language sentences, which uses a specially developed method of automated formation of logical and linguistic models. This method is based on parsing sentences of natural language, using words of natural language as a thesaurus database and using a database of rules to identify logical connections. This in turn is made possible by the author's developed knowledge base 1, which is used to determine the role of each word in an electronic text document and serves as a production model with formalized rules of the Ukrainian language for forming phrases that can form members of sentence of natural language. The knowledge base 2 was created by the author to find connections between sentences that are part of an electronic text document and is a set of productions that reflect the principles of synthesis of logic and linguistic models of sentences of natural language, ie the rules of combining and replacing structural components of logic and linguistic models of sentences of natural language. The knowledge base 3, used to build the linguistic component of the logic and linguistic model of a text document, is a set of productions that contains the rules of forming of transition networks to interpret the thematic progression of the text. The application of the developed formalized rules was demonstrated on specific text fragments. Applying the developed knowledge bases allows to trace the process of formation of logic and linguistic models of electronic text documents.
Description
Keywords
змістовні одиниці, природна мова, електронний текстовий документ, логіколінгвістична модель, база знань, продукційна модель, meaningful units, natural language, electronic text document, logic and linguistic model, knowledge base, production model
Citation
Вавіленкова А. Особливості бази знань системи автоматизованої побудови логіко-лінгвістичних моделей текстових документів / Анастасія Вавіленкова // Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2021. — № 9. — С. 75–83.