Development of a unified output format for text parsers in the ontology construction system from text documents
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет «Львівська політехніка»
Abstract
The challenge of effectively constructing ontologies from text documents remains unresolved, posing a critical gap in modern knowledge extraction methodologies. One of the primary obstacles is the lack of a standardized output format across different NLP tools, particularly text parsers, which serve as the foundational step in multi-stage knowledge extraction processes. While several widely used text parsers exist, each excels in specific functions, making it beneficial to leverage multiple parsers for more comprehensive ontology construction. However, this approach introduces the issue of reconciling their disparate output formats. To address this challenge, we propose using a graph database to store parser outputs in a subject predicate-object triple format, enabling seamless integration and further processing through rule-based transformations using SPARQL queries. A key advantage of this approach is the ability to execute new transformation rules dynamically, allowing for greater flexibility and efficiency in ontology generation. As part of our research, we developed an intelligent agent in Java capable of constructing semantic graphs from natural language text using a rule-based approach. The agent was employed to evaluate the relationship between the execution time of syntax-semantic transformation rules and variables such as text corpus size and dataset sample dimensions. This evaluation was made possible through the implementation of first-level reflection for the studied transformation rule. The results demonstrate that our approach – standardizing parser outputs via a graph database – roves effective in terms of both computational complexity and processing speed. By streamlining the ontology construction process, our method paves the way for advanced automated learning of intelligent agents based on textual information, unlocking new possibilities for modern science in the realm of knowledge extraction and representation. Проблема відсутності ефективних засобів побудови онтологій з текстових документів все ще залишається невирішеною. Її розв'язання стикається з низкою викликів, зокрема, відсутністю єдиного формату вихідних даних різних NLP інструментів, зокрема текстових парсерів, які є першою ланкою в багатоетапному процесі видобування знань. На сьогоднішній день існує декілька популярних текстових парсерів, кожен з яких має свої особливості та переваги у реалізації окремих функцій. З метою ефективнішого вирішення проблеми побудови онтології з тексту доцільним є використання декількох текстових парсерів, що породжує проблему узгодження форматів вихідних даних цих NLP інструментів. Для вирішення задачі уніфікації формату вихідних даних текстових парсерів, запропоновано використання графової бази даних для їх збереження у форматі триплета суб’єкт предикат-об’єкт з метою подальшого опрацювання з використанням правило-орієнтованих трансформацій на основі SPARQL запитів. Суттєвою перевагою такого підходу є можливість виконання кожного нового правила "на льоту". В рамках дослідження розроблено інтелектуального агента на мові Java, здатного будувати семантичні графи з природомовного тексту на основі правило-орієнтованого підходу. За допомогою розробленого інтелектуального агента проведено оцінку залежності часу виконання правила синтаксично-семантичної трансформації від об’єму текстового корпусу та розмірів вибірок даних. Дане оцінювання стало можливим за рахунок імплементованої рефлексії першого рівня для досліджуваного правила трансформації. За результатами дослідження, запропонований підхід уніфікації вихідних даних текстових парсерів з використанням графової бази даних показав свою ефективність з точки зору складності операції та швидкодії. Розроблений підхід побудови онтології з тексту відкриває перед сучасною наукою нові горизонти для автоматизованого навчання інтелектуального агента на основі текстової інформації.
Description
Citation
Chornyi A. Development of a unified output format for text parsers in the ontology construction system from text documents / Andrii Chornyi, Dmytro Dosyn // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2025. — № 17. — С. 170–188.