Інформаційні системи та мережі
Permanent URI for this communityhttps://ena.lpnu.ua/handle/ntb/2105
Browse
4 results
Search Results
Item Парсинг тексту термінологічних словників(Видавництво Львівської політехніки, 2019-02-26) Дорожинська, А. В.; Dorozhynska, Olena; Український мовно-інформаційний фонд НАНУ; Ukrainian Lingua-Information Fund of NAS of UkraineОкреслено коло завдань, підходів і етапів розроблення технології парсинга тексту багатомовного тлумачного термінологічного словника. Дослідження проведено для “Словника української біологічної термінології”. Серед усього словникового розмаїття цей словник обрано тому, що термінологічні словники надають лексико-семантичну базу для подальшого створення систем інтелектуального опрацювання фахових текстів, у яких подається інформація з тих чи інших предметних галузей. Ця термінографічна праця обіймає нормативну загальнонаукову та широковживану термінологію біологічних наук, зафіксовану в сучасних енциклопедичних, загальномовних та спеціальних словниках, у науковій, науково-популярній, навчальній та інформативно-реферативній літературі. Дослідивши обраний словник, ми зможемо узагальнити модель його лексикографічної системи на інші предметні галузі, що створить передумови для формування цілісного багатогалузевого цифрового лексикографічного простору. Робота зі словниками, переведеними у комп’ютерні текстові формати, є дуже неефективною і потребує конвертування їх у формати лексикографічних баз даних, що є спеціальним завданням, не відомим класичній лексикографії. Це і складає зміст терміна “парсинг словників”. У процесі роботи побудовано модель лексикографічної системи, яку покладено в основу XML. Подальша робота із перетворення паперової версії словника на онлайн-систему будується на XML-файлі. Проаналізовано поліграфічне оформлення, організацію і структуру друкованого тексту словника з метою ідентифікації елементів концептуальної моделі Л-системи СУБТ. На основі концептуальної моделі побудовано структуру XML-документа, який пропонується використовувати як посередника між паперовою версією словника та його реалізацією як онлайнової лексикографічної системи. Надалі планується побудова універсальної процедури парсингу з удосконаленням структури XML-документа.Item Метод лінгвістичного аналізу україномовного комерційного контенту(Видавництво Львівської політехніки, 2016) Бісікало, О. В.; Висоцька, В. А.Розв’язано науково-практичну задачу автоматичного виявлення значущих ключових слів та рубрикації україномовного контенту в інтернет-системах на основі методу лінгвістичного аналізу текстової інформації. Наведено теоретичне та експериментальне обґрунтування методу лінгвістичного аналізу україномовного кон- тенту з використанням стемінгу Портера. Метод спрямовано на автоматичне виявлення значущих ключових слів україномовного контенту на основі запропонованої фор- малізації складових аналізу – граматичного (графемного), морфологічного, синтак- сичного, семантичного, референційного та структурного. The scientific and practical problem of automatic detection of meaningful keywords and Ukrainian content categorization in Internet systems on the basis of linguistic analysis of text information is unleashed. The article presents a theoretical and experimental substantiation of linguistic analysis methods for Ukrainian content using Porter stemming. The method is directed at the automatic identification of meaningful keywords in the Ukrainian content, based on the proposed analysis components formalization – the grammatical (grapheme), morphological, syntactic, semantic, structural and referential.Item Порівняльний аналіз методів синтаксичного розбору текстів(Видавництво Львівської політехніки, 2015) Швороб, І. Б.Описано деякі алгоритми синтаксичного аналізу. Також порівняно продуктивність роботи обраних алгоритмів. Some parsing algorithms have been shown and described in the article. The performance comparison of the selected algorithms is made.Item Метод формального визначення якості допису на спеціалізованих сайтах(Видавництво Львівської політехніки, 2014) Бісікало, О. В.; Кириленко, Г. О.Розглянуто метод формального визначення якості посту на основі множини вибраних параметрів. Для вирішення цієї проблеми пропонується застосувати Java-бібліотеку Jsoup для парсингу HTML-коду, а також засоби Matlab для побудови дерева рішень, що використовується для визначення показника якості посту. Post quality assessing algorithm based on the set of chosen parameters is considered in the article. To solve the problem the following next instruments will be used: Java library called Jsoup for HTML-code parsing, and Matlab tools for building the decision tree for post quality assessing.