Методи та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графа

Швороб, Ірина Богданівна

Методи та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графа

dc.contributor.advisor	Шаховська, Наталія Богданівна
dc.contributor.affiliation	Національний університет «Львівська політехніка»	uk_UA
dc.contributor.author	Швороб, Ірина Богданівна
dc.contributor.committeeMember	Лупенко, Сергій Анатолійович
dc.contributor.committeeMember	Надутенко, Максим Вікторович
dc.coverage.country	UA	uk_UA
dc.coverage.placename	Львів	uk_UA
dc.date.accessioned	2018-03-05T14:52:30Z
dc.date.available	2018-03-05T14:52:30Z
dc.date.issued	2018
dc.description.abstract	У дисертаційній роботі розв’язано актуальне наукове завдання розроблення технологій для екстракції, збереження, опрацювання та аналізу слабоструктурованих даних. Здійснено аналіз моделей слабоструктурованих даних, способів опрацювання природномовних текстів, їх отримання, що дало змогу здійснити постановку завдання дослідження. Введено поняття документ-орієнтованого графа для представлення слабоструктурованих природно-мовних текстів, що дало змогу використати теорію графів для встановлення зв’язків між елементами документа та визначення типу відношення між документом та шаблоном. Вперше розроблено метод первинного аналізу даних, який дає змогу частково структурувати природномовний текст для його подальшого опрацювання. Удосконалено метод екстракції даних з текстових блоків шляхом формування документ-орієнтованого графа, який на відміну від методу на основі використання міри TF-IDF дає змогу врахувати семантику речень та на 8 % збільшити кількість збережених структурних одиниць. Розроблено систему розуміння природномовних текстів для опрацювання та аналізу даних. В диссертационной работе решена актуальная научная задача разработки технологий для экстракции, хранения, обработки и анализа слабоструктурированных данных. Осуществлен анализ моделей слабоструктурированных данных, способов обработки естественно-языковых текстов, их получения, что позволило осуществить постановку задачи исследования. Введено понятие документ-ориентированного графа для представления слабоструктуриро-ванных естественно-языковых текстов, что позволило использовать теорию графов для установления связей между элементами документа и определения типа отношения между документом и шаблоном. Впервые разработан метод первичного анализа данных, который позволяет частично структурировать естественно-языковые тексты для его дальнейшей обработки. Усовершенствован метод экстракции данных из текстовых блоков путем формирования документ-ориентированного графа, который в отличие от метода на основе использования меры TF-IDF позволяет учесть семантику предложений и на 8% увеличить количество сохранившихся структурных единиц. Разработана система понимания естественно-языковых текстов для обработки и анализа данных. The dissertation solved the problem of developing technologies for extraction, storage, processing and analysis of semistructured data. The analysis of models of semistructured data, methods of processing natural language texts for their obtaining were carried through, which made it possible to set the task of research. The notion of a document-oriented graph for the presentation of semistructured text-to-speech texts was introduced, which enabled the use of graph theory to establish links between elements of the document and determine the relationship between the document and the template. For the first time, a method of initial analysis of data has been developed, which allows to partially structure the natural language text for its further elaboration. The elements of graph theory are used when working with weakly structured graphs. The method of converting the weights of the edges of a document-oriented graph is developed. The method of extraction of data from text blocks has been improved by creating a document-oriented graph, which, unlike the TF-IDF method, makes it possible to take into account the semantics of sentences and increase the number of stored structural units by 8%. The system of understanding natural language texts for working out and analysis of data is developed. The method of clustering of texts based on templates is developed. The algorithm of fuzzy duplicate searches in natural texts is constructed. Methods of primary analysis of text and analysis of text blocks are developed. An information and linguistic system for analysis of weakly structured texts in various subject areas were introduced as evidenced by the acts of implementation of the results of the dissertation work. The developed methods for working with semistructured medical data have been tested. Also, the developed methods are used to create a system of work on the summary of hiring workers. The architecture of the system provides two databases: a document-oriented graph database, which stores data from poorly structured texts, and a database containing general information such as MD5-sums of uploaded files, dictionaries of stop words, keywords, frequency dictionaries, dictionaries for language cliche, metadata, ready-made text templates and sets of pragmatic features (markers). Both databases are used by other modules of the developed system.	uk_UA
dc.format.pages	23
dc.identifier.citation	Швороб І. Б. Методи та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графа : дисертація на здобуття наукового ступеня кандидата технічних наук : 10.02.21 – структурна, прикладна і математична лінгвістика / Ірина Богданівна Швороб ; Міністерство освіти і науки України, Національний університет «Львівська політехніка». – Львів, 2018. – 176 с. – Бібліографія: с. 137–147 (111 назв).	uk_UA
dc.identifier.uri	https://ena.lpnu.ua/handle/ntb/39517
dc.language.iso	uk	uk_UA
dc.publisher	Національний університет "Львівська політехніка"	uk_UA
dc.rights.uri	http://www.lp.edu.ua/research/disscoun/d-3505205/shvorob-iryna-bogdanivna
dc.subject	прагматична ознака	uk_UA
dc.subject	слабоструктуровані дані	uk_UA
dc.subject	документо-орієнтований граф	uk_UA
dc.subject	NoSQL база даних	uk_UA
dc.subject	екстракція даних	uk_UA
dc.subject	прагматический признак	uk_UA
dc.subject	слабоструктурированные данные	uk_UA
dc.subject	документо-ориентированный граф	uk_UA
dc.subject	NoSQL база данных	uk_UA
dc.subject	экстракция данных	uk_UA
dc.subject	pragmatic sign	uk_UA
dc.subject	semistructured data	uk_UA
dc.subject	document-oriented graph	uk_UA
dc.subject	NoSQL database	uk_UA
dc.subject	data extraction	uk_UA
dc.subject.udc	004.652.4+004.827	uk_UA
dc.title	Методи та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графа	uk_UA
dc.title.alternative	Методы и средства экстракции и анализа слабоструктурированных текстовых данных на основе документо-ориентированного графа	uk_UA
dc.title.alternative	Methods and means of extraction and analysis of poorly structured text data based on a document-oriented graph	uk_UA
dc.type	Dissertation Abstract	uk_UA
thesis.degree.department	Д 35.052.05
thesis.degree.name	кандидат технічних наук