Browsing by Author "Шаховська, Наталія Богданівна"
Now showing 1 - 3 of 3
- Results Per Page
- Sort Options
Item Методи та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графа(Національний університет "Львівська політехніка", 2018) Швороб, Ірина Богданівна; Шаховська, Наталія Богданівна; Національний університет «Львівська політехніка»; Лупенко, Сергій Анатолійович; Надутенко, Максим ВікторовичУ дисертаційній роботі розв’язано актуальне наукове завдання розроблення технологій для екстракції, збереження, опрацювання та аналізу слабоструктурованих даних. Здійснено аналіз моделей слабоструктурованих даних, способів опрацювання природномовних текстів, їх отримання, що дало змогу здійснити постановку завдання дослідження. Введено поняття документ-орієнтованого графа для представлення слабоструктурованих природно-мовних текстів, що дало змогу використати теорію графів для встановлення зв’язків між елементами документа та визначення типу відношення між документом та шаблоном. Вперше розроблено метод первинного аналізу даних, який дає змогу частково структурувати природномовний текст для його подальшого опрацювання. Удосконалено метод екстракції даних з текстових блоків шляхом формування документ-орієнтованого графа, який на відміну від методу на основі використання міри TF-IDF дає змогу врахувати семантику речень та на 8 % збільшити кількість збережених структурних одиниць. Розроблено систему розуміння природномовних текстів для опрацювання та аналізу даних. В диссертационной работе решена актуальная научная задача разработки технологий для экстракции, хранения, обработки и анализа слабоструктурированных данных. Осуществлен анализ моделей слабоструктурированных данных, способов обработки естественно-языковых текстов, их получения, что позволило осуществить постановку задачи исследования. Введено понятие документ-ориентированного графа для представления слабоструктуриро-ванных естественно-языковых текстов, что позволило использовать теорию графов для установления связей между элементами документа и определения типа отношения между документом и шаблоном. Впервые разработан метод первичного анализа данных, который позволяет частично структурировать естественно-языковые тексты для его дальнейшей обработки. Усовершенствован метод экстракции данных из текстовых блоков путем формирования документ-ориентированного графа, который в отличие от метода на основе использования меры TF-IDF позволяет учесть семантику предложений и на 8% увеличить количество сохранившихся структурных единиц. Разработана система понимания естественно-языковых текстов для обработки и анализа данных. The dissertation solved the problem of developing technologies for extraction, storage, processing and analysis of semistructured data. The analysis of models of semistructured data, methods of processing natural language texts for their obtaining were carried through, which made it possible to set the task of research. The notion of a document-oriented graph for the presentation of semistructured text-to-speech texts was introduced, which enabled the use of graph theory to establish links between elements of the document and determine the relationship between the document and the template. For the first time, a method of initial analysis of data has been developed, which allows to partially structure the natural language text for its further elaboration. The elements of graph theory are used when working with weakly structured graphs. The method of converting the weights of the edges of a document-oriented graph is developed. The method of extraction of data from text blocks has been improved by creating a document-oriented graph, which, unlike the TF-IDF method, makes it possible to take into account the semantics of sentences and increase the number of stored structural units by 8%. The system of understanding natural language texts for working out and analysis of data is developed. The method of clustering of texts based on templates is developed. The algorithm of fuzzy duplicate searches in natural texts is constructed. Methods of primary analysis of text and analysis of text blocks are developed. An information and linguistic system for analysis of weakly structured texts in various subject areas were introduced as evidenced by the acts of implementation of the results of the dissertation work. The developed methods for working with semistructured medical data have been tested. Also, the developed methods are used to create a system of work on the summary of hiring workers. The architecture of the system provides two databases: a document-oriented graph database, which stores data from poorly structured texts, and a database containing general information such as MD5-sums of uploaded files, dictionaries of stop words, keywords, frequency dictionaries, dictionaries for language cliche, metadata, ready-made text templates and sets of pragmatic features (markers). Both databases are used by other modules of the developed system.Item Організація просторів даних у складних інформаційних системах(Національний університет "Львівська політехніка", 2012) Шаховська, Наталія БогданівнаУ дисертаційній роботі вирішено важливу наукову проблему організації різнотипних джерел даних у простір даних з метою підвищення якості інтегрованих даних за допомогою використання розроблених теоретичних засад, системної методології та програмних засобів опрацювання множини інформаційних продуктів. Здійснено аналіз проблеми подання та опрацювання різнотипних джерел даних. Обґрунтовано актуальність розв’язання цієї проблеми на основі введення нової абстракції керування даними – простору даних, що дозволило виділити невирішені раніше проблеми з опрацювання та консолідації даних з наперед невідомих джерел. Розроблено алгебричну систему сигнатури простір даних, яка складається з множини інформаційних продуктів, предикатів та операцій на них. Це дозволило розробити операції консолідації та пошуку даних з різнотипних джерел, структура даних яких наперед невідома. Розроблені методи та алгоритми використані для створення ряду інформаційно-аналітичних систем. This thesis solved a major scientific problem of diverse data sources in dataspace to improve the quality of integrated data by using the developed theoretical principles, systematic methodology and software tools for processing a set of information products. The analysis of the problem of diverse data sources representation and processing is given. In first chapter there is actuality solve this problem by introducing a new abstraction data management – dataspace, which allowed to select unsolved problems with processing and consolidation of data from unknown sources in advance. In the chapter two an algebraic dataspace system is described. It consists of a set of information products, predicates and operations on them. It is possible to develop consolidation operation, operation of search data from diverse sources, denote of data structure which one is unknown. Firstly intelligent agent determining the structure of the data source is developed. It works by comparing the structures of data sources available in the dataspace with data sources that will include in the dataspace. This agent allowed forming a single type of queries to data sources, taking into account the degree of confidence in the source and getting the correct answers to formed queries. The substantiated data structures and data directory synonymous dictionary is given. The solve methods the trust of user data sources are given, which increased the relevance of responses and develop a method of determining the quality of consolidated data. The third chapter there is introduced consolidated datawarehouse model as an improved model of the uncertainty relation. It is simulated the physical object – a datawarehouse, which one indicating it attributes with clear and undefined values – to reduce uncertainty and taking into account the existence of public confidence in the data source to increase the effectiveness of management decisions. There is analyzed the causes of uncertainties in storage and data spaces. Among them are highlighted: the uncertainty in the scheme of the mediator; uncertain schema mapping, data uncertainty consolidated data repository. In the next chapter the algorithms integrate data from disparate sources on the basis of the modified operator consolidation are described. That algorithm is enabling not only increase the quality of information in the data space, but also to interpret the simulation results. The methods and algorithms used to create a number of information-analytical systems. Next, there is build the method of transformation commands to dataspace in commands to data sources. The method of optimizing a query is build. In the sixth chapter the dataspace architecture is given. The modules schema is built. There are described metadata schema, main classes and functions. There is defined the principles of functional making of dataspace. The query language of dataspace is described. In the seventh chapter there are implemented application systems in which is used the data integration built on the dataspaces. There are tested the results of methods, that are built in dissertation. В иссертационной работе решена важная научно-прикладная проблема организации разнотипных источников данных в пространство данных с целью повышения качества интегрированных данных путем использования разработанных теоретических основ, системной методологии и программных средств обработки множества информационных продуктов. Осуществлен анализ проблемы представления и обработки разнотипных источников данных. Обоснована актуальность решения этой проблемы на основе введения новой абстракции управления данными – пространства данных, что позволило выделить нерешенные ранее проблемы по обработке и консолидации данных из заранее неизвестных источников. Разработана алгебраическая система пространства данных, которая состоит из множества информационных продуктов, предикатов и операций на них. Это позволило разработать операции консолидации и поиска данных из разнотипных источников, структура данных которых заранее неизвестна. Разработанные методы и алгоритмы использованы при создании ряда информационно-аналитических систем.Item Організація професійно-кар'єрної орієнтації у Львівській політехніці: методологічні аспекти(Видавництво Львівської політехніки, 2011) Захар'яш, Олександр Сергійович; Шаховська, Наталія Богданівна; Швед, Ольга ПетрівнаДоведено, що інноваційні підходи та заохочення молоді до власних досліджень сприяє бажанню здобути вищу освіту з політехнічних спеціальностей.