Методи та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графа

dc.contributor.advisorШаховська, Наталія Богданівна
dc.contributor.affiliationНаціональний університет «Львівська політехніка»uk_UA
dc.contributor.authorШвороб, Ірина Богданівна
dc.contributor.committeeMemberЛупенко, Сергій Анатолійович
dc.contributor.committeeMemberНадутенко, Максим Вікторович
dc.coverage.countryUAuk_UA
dc.coverage.placenameЛьвівuk_UA
dc.date.accessioned2018-03-05T14:52:30Z
dc.date.available2018-03-05T14:52:30Z
dc.date.issued2018
dc.description.abstractУ дисертаційній роботі розв’язано актуальне наукове завдання розроблення технологій для екстракції, збереження, опрацювання та аналізу слабоструктурованих даних. Здійснено аналіз моделей слабоструктурованих даних, способів опрацювання природномовних текстів, їх отримання, що дало змогу здійснити постановку завдання дослідження. Введено поняття документ-орієнтованого графа для представлення слабоструктурованих природно-мовних текстів, що дало змогу використати теорію графів для встановлення зв’язків між елементами документа та визначення типу відношення між документом та шаблоном. Вперше розроблено метод первинного аналізу даних, який дає змогу частково структурувати природномовний текст для його подальшого опрацювання. Удосконалено метод екстракції даних з текстових блоків шляхом формування документ-орієнтованого графа, який на відміну від методу на основі використання міри TF-IDF дає змогу врахувати семантику речень та на 8 % збільшити кількість збережених структурних одиниць. Розроблено систему розуміння природномовних текстів для опрацювання та аналізу даних. В диссертационной работе решена актуальная научная задача разработки технологий для экстракции, хранения, обработки и анализа слабоструктурированных данных. Осуществлен анализ моделей слабоструктурированных данных, способов обработки естественно-языковых текстов, их получения, что позволило осуществить постановку задачи исследования. Введено понятие документ-ориентированного графа для представления слабоструктуриро-ванных естественно-языковых текстов, что позволило использовать теорию графов для установления связей между элементами документа и определения типа отношения между документом и шаблоном. Впервые разработан метод первичного анализа данных, который позволяет частично структурировать естественно-языковые тексты для его дальнейшей обработки. Усовершенствован метод экстракции данных из текстовых блоков путем формирования документ-ориентированного графа, который в отличие от метода на основе использования меры TF-IDF позволяет учесть семантику предложений и на 8% увеличить количество сохранившихся структурных единиц. Разработана система понимания естественно-языковых текстов для обработки и анализа данных. The dissertation solved the problem of developing technologies for extraction, storage, processing and analysis of semistructured data. The analysis of models of semistructured data, methods of processing natural language texts for their obtaining were carried through, which made it possible to set the task of research. The notion of a document-oriented graph for the presentation of semistructured text-to-speech texts was introduced, which enabled the use of graph theory to establish links between elements of the document and determine the relationship between the document and the template. For the first time, a method of initial analysis of data has been developed, which allows to partially structure the natural language text for its further elaboration. The elements of graph theory are used when working with weakly structured graphs. The method of converting the weights of the edges of a document-oriented graph is developed. The method of extraction of data from text blocks has been improved by creating a document-oriented graph, which, unlike the TF-IDF method, makes it possible to take into account the semantics of sentences and increase the number of stored structural units by 8%. The system of understanding natural language texts for working out and analysis of data is developed. The method of clustering of texts based on templates is developed. The algorithm of fuzzy duplicate searches in natural texts is constructed. Methods of primary analysis of text and analysis of text blocks are developed. An information and linguistic system for analysis of weakly structured texts in various subject areas were introduced as evidenced by the acts of implementation of the results of the dissertation work. The developed methods for working with semistructured medical data have been tested. Also, the developed methods are used to create a system of work on the summary of hiring workers. The architecture of the system provides two databases: a document-oriented graph database, which stores data from poorly structured texts, and a database containing general information such as MD5-sums of uploaded files, dictionaries of stop words, keywords, frequency dictionaries, dictionaries for language cliche, metadata, ready-made text templates and sets of pragmatic features (markers). Both databases are used by other modules of the developed system.uk_UA
dc.format.pages23
dc.identifier.citationШвороб І. Б. Методи та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графа : дисертація на здобуття наукового ступеня кандидата технічних наук : 10.02.21 – структурна, прикладна і математична лінгвістика / Ірина Богданівна Швороб ; Міністерство освіти і науки України, Національний університет «Львівська політехніка». – Львів, 2018. – 176 с. – Бібліографія: с. 137–147 (111 назв).uk_UA
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/39517
dc.language.isoukuk_UA
dc.publisherНаціональний університет "Львівська політехніка"uk_UA
dc.rights.urihttp://www.lp.edu.ua/research/disscoun/d-3505205/shvorob-iryna-bogdanivna
dc.subjectпрагматична ознакаuk_UA
dc.subjectслабоструктуровані даніuk_UA
dc.subjectдокументо-орієнтований графuk_UA
dc.subjectNoSQL база данихuk_UA
dc.subjectекстракція данихuk_UA
dc.subjectпрагматический признакuk_UA
dc.subjectслабоструктурированные данныеuk_UA
dc.subjectдокументо-ориентированный графuk_UA
dc.subjectNoSQL база данныхuk_UA
dc.subjectэкстракция данныхuk_UA
dc.subjectpragmatic signuk_UA
dc.subjectsemistructured datauk_UA
dc.subjectdocument-oriented graphuk_UA
dc.subjectNoSQL databaseuk_UA
dc.subjectdata extractionuk_UA
dc.subject.udc004.652.4+004.827uk_UA
dc.titleМетоди та засоби екстракції та аналізу слабоструктурованих текстових даних на основі документо-орієнтованого графаuk_UA
dc.title.alternativeМетоды и средства экстракции и анализа слабоструктурированных текстовых данных на основе документо-ориентированного графаuk_UA
dc.title.alternativeMethods and means of extraction and analysis of poorly structured text data based on a document-oriented graphuk_UA
dc.typeDissertation Abstractuk_UA
thesis.degree.departmentД 35.052.05
thesis.degree.nameкандидат технічних наук

Files

Original bundle

Now showing 1 - 4 of 4
Thumbnail Image
Name:
avt_Shvorob.pdf
Size:
853.08 KB
Format:
Adobe Portable Document Format
Description:
Автореферат дисертації
Thumbnail Image
Name:
dys_shvorob.i.b.pdf
Size:
4.71 MB
Format:
Adobe Portable Document Format
Description:
Дисертаційна робота
Thumbnail Image
Name:
vidguk1_shvorob_i.b.pdf
Size:
4.49 MB
Format:
Adobe Portable Document Format
Description:
Відгук офіційного опонента
Thumbnail Image
Name:
vidguk2_shvorob_i.b.pdf
Size:
2.56 MB
Format:
Adobe Portable Document Format
Description:
Відгук офіційного опонента

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.99 KB
Format:
Item-specific license agreed upon to submission
Description: