Інформаційні системи та мережі
Permanent URI for this communityhttps://ena.lpnu.ua/handle/ntb/2105
Browse
Search Results
Item Парсинг тексту термінологічних словників(Видавництво Львівської політехніки, 2019-02-26) Дорожинська, А. В.; Dorozhynska, Olena; Український мовно-інформаційний фонд НАНУ; Ukrainian Lingua-Information Fund of NAS of UkraineОкреслено коло завдань, підходів і етапів розроблення технології парсинга тексту багатомовного тлумачного термінологічного словника. Дослідження проведено для “Словника української біологічної термінології”. Серед усього словникового розмаїття цей словник обрано тому, що термінологічні словники надають лексико-семантичну базу для подальшого створення систем інтелектуального опрацювання фахових текстів, у яких подається інформація з тих чи інших предметних галузей. Ця термінографічна праця обіймає нормативну загальнонаукову та широковживану термінологію біологічних наук, зафіксовану в сучасних енциклопедичних, загальномовних та спеціальних словниках, у науковій, науково-популярній, навчальній та інформативно-реферативній літературі. Дослідивши обраний словник, ми зможемо узагальнити модель його лексикографічної системи на інші предметні галузі, що створить передумови для формування цілісного багатогалузевого цифрового лексикографічного простору. Робота зі словниками, переведеними у комп’ютерні текстові формати, є дуже неефективною і потребує конвертування їх у формати лексикографічних баз даних, що є спеціальним завданням, не відомим класичній лексикографії. Це і складає зміст терміна “парсинг словників”. У процесі роботи побудовано модель лексикографічної системи, яку покладено в основу XML. Подальша робота із перетворення паперової версії словника на онлайн-систему будується на XML-файлі. Проаналізовано поліграфічне оформлення, організацію і структуру друкованого тексту словника з метою ідентифікації елементів концептуальної моделі Л-системи СУБТ. На основі концептуальної моделі побудовано структуру XML-документа, який пропонується використовувати як посередника між паперовою версією словника та його реалізацією як онлайнової лексикографічної системи. Надалі планується побудова універсальної процедури парсингу з удосконаленням структури XML-документа.