Парсинг тексту термінологічних словників

Date

2019-02-26

Journal Title

Journal ISSN

Volume Title

Publisher

Видавництво Львівської політехніки

Abstract

Окреслено коло завдань, підходів і етапів розроблення технології парсинга тексту багатомовного тлумачного термінологічного словника. Дослідження проведено для “Словника української біологічної термінології”. Серед усього словникового розмаїття цей словник обрано тому, що термінологічні словники надають лексико-семантичну базу для подальшого створення систем інтелектуального опрацювання фахових текстів, у яких подається інформація з тих чи інших предметних галузей. Ця термінографічна праця обіймає нормативну загальнонаукову та широковживану термінологію біологічних наук, зафіксовану в сучасних енциклопедичних, загальномовних та спеціальних словниках, у науковій, науково-популярній, навчальній та інформативно-реферативній літературі. Дослідивши обраний словник, ми зможемо узагальнити модель його лексикографічної системи на інші предметні галузі, що створить передумови для формування цілісного багатогалузевого цифрового лексикографічного простору. Робота зі словниками, переведеними у комп’ютерні текстові формати, є дуже неефективною і потребує конвертування їх у формати лексикографічних баз даних, що є спеціальним завданням, не відомим класичній лексикографії. Це і складає зміст терміна “парсинг словників”. У процесі роботи побудовано модель лексикографічної системи, яку покладено в основу XML. Подальша робота із перетворення паперової версії словника на онлайн-систему будується на XML-файлі. Проаналізовано поліграфічне оформлення, організацію і структуру друкованого тексту словника з метою ідентифікації елементів концептуальної моделі Л-системи СУБТ. На основі концептуальної моделі побудовано структуру XML-документа, який пропонується використовувати як посередника між паперовою версією словника та його реалізацією як онлайнової лексикографічної системи. Надалі планується побудова універсальної процедури парсингу з удосконаленням структури XML-документа.
The article outlines a range of tasks, approaches and stages of developing parsing technology for text of a multilingual explanatory terminology dictionary. Research was conducted for the “Dictionary of Ukrainian Biological Terminology”. Among all the vocabulary diversity, this dictionary was chosen because terminology dictionaries provide a lexical-semantic basis for further creation of systems for the intelligent processing of professional texts, which provide information on specific subject areas. This terminographical work encompasses the normative general scientific and widely used terminology of biological sciences, recorded in modern encyclopedic, general and special dictionaries, in scientific, popular science, educational and informative literature. After studying the chosen dictionary, the model of its lexicographic system into other subject areas, which will create the preconditions for the formation of an integral multidisciplinary digital lexicographic space will be generalized. Working with dictionaries converted into computer text formats is very inefficient and needs to be converted into lexicographic database formats, which is a special task not known in classical lexicography. This is the meaning of the term “parsing dictionaries”. During investigation, a model of the lexicographic system, which is the basis of XML, was constructed. Further work on converting a printed version of the dictionary into an online system is based on an XML file. The polygraphic design, organization and structure of the printed text of the dictionary are analyzed in order to identify the elements of the conceptual model of the L-system of the SUBT. Based on the conceptual model, the structure of an XML document is proposed, which is to be used as an intermediary between the printed version of the dictionary and its implementation as an online lexicographic system. In the future, it is planned to build a universal parsing procedure, by improving the structure of the XML document.

Description

Keywords

комп’ютерна лексикографія, лексикографічна система, парсинг, синтаксичне дерево, XML, база даних, цифровий простір, computer lexicography, lexicographic system, parsing, XML, database, digital space

Citation

Дорожинська А. В. Парсинг тексту термінологічних словників / А. В. Дорожинська // Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2019. — № 5. — С. 90–100.