Browsing by Author "Берко, Андрій Юліанович"
Now showing 1 - 2 of 2
- Results Per Page
- Sort Options
Item Методи та засоби інтеграції даних у відкритих інформаційних системах(Національний університет "Львівська політехніка", 2011) Берко, Андрій ЮліановичУ дисертації вирішено науково-технічну проблему розроблення уніфікованих методів та стандартизованих засобів інтеграції даних у відкритих інформаційних системах. Розроблено класифікацію інформаційних ресурсів відкритих систем шляхом аналізу особливостей і закономірностей їх побудови. Отримала подальший розвиток теоретична концепція інтеграції даних шляхом розроблення узагальненої моделі процесу інтеграції даних. Розроблено метод багаторівневої інтеграції даних шляхом розподілу процесів інтеграції їх синтаксису, структури та семантики. Розроблено метод опрацювання неповних і неточних даних на основі онтологій, що дало змогу зменшити рівень невизначеності у процесах інтеграції та структурно-семантичний метод подання інтегрованих даних на рівні користувача. Вдосконалено метод комплексного оцінювання якості даних на основі логіки антонімів. Отримала подальший розвиток концепція інтеграції даних на основі сервісно-орієнтованої архітектури, що дозволяє реалізувати засоби інтеграції як інтероперабельний сервіс відкритої інформаційної системи. Розроблено комплекс нормативно-технічних документів для виконання процедури верифікації і валідації результатів інтеграції даних у відкритих системах. Визначено загальну архітектуру та порядок функціонування сервісу інтеграції даних на основі сервісно-орієнтованого підходу. Розроблено специфікацію протоколу інтеграції даних прикладного рівня на основі сервісно-орієнтованого підходу, мовні засоби опису даних у процесах інтеграції на основі формату XML. В диссертации решена научно-техническая проблема разработки унифицированных методов и стандартизированных методов интеграции данных в открытых информационных системах. В первом разделе представлено подробное обозрение проблематики создания и использования открытых информационных систем, в частности, вопросы формирования их информационного ресурса. Определены основные закономерности и специфика процессов построения информационных ресурсов открытых систем, сформулированы основные принципы и пути решения задач, возникающих при этом. Это создало возможность сформулировать проблему исследований, состоящую в противоречии между современными методами интеграции данных, основывающимися на использовании специализированных инструментальных средств, и принципами построения, функционирования и применения открытых информационных систем. Во втором разделе построена расширенная формальная модель интеграции данных, выполнена апробация модели, путем моделирования с её помощью различных методов интеграции, и обобщение этой модели для построения унифицированного метода интеграции данных в открытых информационных системах. В качестве средства моделирования данных в процессах интеграции применена теория формальных систем. Применение модели, построенной в работе, позволило построить формальное описание основных методов интеграции данных. Модель создает возможности для разработки универсального метода интеграции данных, обобщающего достижения известных ныне методов, а также, позволяет перейти в процессах интеграции от непосредственного манипулирования, данными и их схемами к операциям над метаданными, описывающими свойства и специфику объектов интеграции. В третьем разделе разработан метод многоуровневой интеграции данных, базирующийся на расширенной формальной модели интеграции данных. Метод предполагает декомпозицию общего процесса на подпроцессы интеграции значений, синтаксиса, семантики и структуры данных. Ключевым моментом такого подхода является возможность выполнения процедур интеграции на уровне метаданных, что позволяет сократить количество обращений к самим данным, объёмы которых, в общем случае, могут быть значительными. В четвертом разделе разработан структурно-семантический метод внешнего представления интегрированных данных, базирующийся на смысловом преобразовании неопределенностей и фактологической реляционной модели. Смысловое преобразование неопределенностей предусматривает снижение уровня неполноты и неточности данных за счет спецификации, классификации и детализации природы и сути неопределенностей. Основным объектом фактологической реляционной модели является фактологическое отношение, представляющее собой множество фактов, изображаемых в виде кортежей. Сочетание способов уменьшения уровня неопределенности данных за счет использования онтологий с изображением данных в виде фактов и фактологических отношений создают основу структурно-семантического метода представления результатов интеграции данных. Особенностью метода является возможность однотипного представления как структурированных данных, так и данных, относящихся к категории слабоструктурированных либо данных без предварительно определенной структуры, а также возможность корректного изображения данных с неопределенностями, неполных и неточных данных. В пятом разделе разработан метод управления качеством данных, полученных в результате интеграции. Разработана общая схема и порядок выполнения верификации и валидации данных, базирующийся на экспертных оценках. В основу метода положена модель качества данных стандарта ISO 9126, адаптированная для оценивания качества данных, и система качественных измерений сервисного уровня, разработанная корпорацией DataFlux – Data Quality Service Level Agreement. Для формирования лингвистических качественных оценок экспертов использована логика антонимов, а для построения количественной метрики оценок качества – метод оппозиционных шкал Д. Поспелова. Сформулированы принципы качества, согласно которым результаты верификации и валидации данных считаются положительными, если каждая из итоговых экспертных оценок находится в диапазоне допустимых значений, определенном для конкретного проекта. В шестом разделе представлены средства интеграции данных в среде открытых информационных систем. Разработан проект спецификации открытого протокола сервиса интеграции данных в открытых информационных системах – Data Integration Service Protocol (DISP) являющийся протоколом прикладного уровня. Протокол определяет способы, порядок и процедуры интеграции данных в виде сервиса, предоставляемого открытой информационной системой по запросу пользователя. Разработан комплекс языковых средств описания свойств данных в процессах интеграции – Integrated Data Framework (IDF), при помощи которого строится описание базовых свойств набора данных и порядок его обработки в интеграционных процессах с использованием формата XML. Протокол сервиса интеграции данных является основанием для построения стандартизированных интероперабельных средств, реализующих метод многоуровневой интеграции данных, полностью согласующийся с концепциями и принципами открытых информационных систем. Problem of development of unified methods and standardized tools for data integration in open information systems has been solved in the presented work. Classification of open systems information resources has been developed by analysis of it's construction specifics and regularity. Further evolution of theoretical data integration conception has been obtained by means of extended model of data integration processes. Multilevel data integration method based on distribution of data syntax, structure and semantics integration has been developed. Ontology based method of incomplete and incorrect data processing has been developed for uncertainty level reduction in data integration processes. Structure-semantics method has been proposed for user-level integrated data presentation. Integrated data quality evaluation method has been perfected by means of antonyms logic. Service-oriented based data integration conception has obtained new development; this allows realizing of integration tools as interoperable service of open information system. Normative-technical document set for integrated data verifying and validation in open information systems environment has been developed. General architecture and principles of data integration service operation has been defined. Specification of application level data integration protocol based on service-oriented approach has been designed as well as XML-format linguistic tools for description of data in integration processes.Item Інтелектуальна інформаційна система виявлення плагіату в текстах з інформаційних технологій(Національний університет "Львівська політехніка", 2022) Геряк, Юрій Миколайович; Heriak, Yurii Mykolaiovych; Берко, Андрій Юліанович; Національний університет "Львівська політехніка"В сучасному інформаційному світі, де зростає кількість текстів, що публікуються в мережі Інтернет, зростає і ймовірність того, що деякі з цих текстів можуть містити плагіат. Поняття «плагіат» описується у науковій літературі наступними визначеннями: - «оприлюднення (опублікування) повністю або частково чужого твору під іменем особи, яка не є автором цього твору» [1]; - «привласнення авторства на чужий твір науки, літератури, мистецтва або на чуже відкриття, винахід чи раціоналізаторську пропозицію, а також використання у своїх працях чужого твору без посилання на автора»[2, 365-372]; - «вид порушення прав автора або винахідника, що полягає у незаконному використанні під своїм ім’ям чужого твору (наукового, літературного, музичного) або винаходу, раціоналізаторської пропозиції (повністю або частково) без вказівки джерела запозичення...» [3, 601]; До поняття плагіат також можна віднести неправомірні дії з примусом до співавторства[4]. Основна проблема полягає в тому, що плагіат стає все більш поширеним явищем, і він може мати негативний вплив на різні аспекти життя, включаючи науку, бізнес і освіту. При цьому виявлення плагіату залишається складною задачею, особливо якщо він маскується під авторський текст або відбувається в багатоавторних текстах. Розвиток інформаційних технологій надає можливості для розробки інтелектуальних інформаційних систем, які здатні виявляти плагіат у текстах шляхом порівняння їх з базою даних із відомими текстами. Такі системи можуть допомогти уникнути плагіату та зберегти авторські права на інтелектуальну власність. Однак, розробка такої системи є складною задачею, і потребує використання різноманітних методів машинного навчання, обробки природньої мови та інших сучасних інформаційних технологій. Об’єкт дослідження. Об’єктом дослідження можна виділити процес виявлення плагіату в текстах з інформаційних технологій та самі інформаційні тексти, які можуть містити елементи плагіату. Предмет дослідження. В свою чергу, предметом дослідження є інтелектуальна інформаційна система виявлення плагіату в текстах з інформаційних технологій, використовуючи засоби та методи машинного навчання. Мета дослідження. Метою дослідження є розробка та реалізація інтелектуальної інформаційної системи для виявлення плагіату в текстах з інформаційних технологій. Для досягнення мети необхідно вирішити наступні завдання: 1. Аналіз існуючих методів та підходів до виявлення плагіату в текстах з використанням інформаційних технологій. 2. Розробка алгоритмів та моделей машинного навчання для виявлення плагіату в текстах з інформаційних технологій. 3. Розробка та імплементація програмного забезпечення для побудови інтелектуальної інформаційної системи. 4. Експериментальне дослідження розробленої системи та порівняння її ефективності з існуючими методами виявлення плагіату. 5. Аналіз результатів дослідження та формулювання висновків щодо можливості використання розробленої системи в практичній діяльності для контролю за оригінальністю текстів у сфері інформаційних технологій. Аналіз певної кількості наукових статей та досліджень показав, що проблема виявлення плагіату є важливою в сучасному світі і вимагає постійної уваги та розробки нових методів та алгоритмів для її вирішення, а застосування машинного навчання для виявлення плагіату є актуальною та перспективною темою досліджень. У роботі розглянуто різні методи виявлення плагіату, включаючи метод векторного порівняння, який ґрунтується на використанні векторних представлень слів. Було проведено аналіз переваг та недоліків програмних та системних засобів вирішення проблеми та обрано мови програмування реалізації системи, набір допоміжних інструментів, інструмент автоматизованої збірки проектів, сервер розгортання. Для реалізації інтелектуальної складової системи використовується мова програмування Python, а також бібліотеки машинного навчання, зокрема Pandas, Flask та scikit-learn. Розроблена система здатна працювати з текстами різної довжини та форматування, що дозволяє застосовувати її у багатьох галузях, де важлива автентичність текстів. Результати дослідження свідчать про можливість використання даної системи для підвищення репутації авторів та видавництв, які дотримуються правил інтелектуальної власності. Основні завдання роботи полягали у вивченні теорії плагіату та методів його виявлення, виборі оптимального методу виявлення плагіату для застосування у розробленій системі, розробці імплементації алгоритму методу векторного порівняння та створенні інтерфейсу взаємодії з користувачем. Розроблена система може забезпечити ефективний та точний пошук плагіату в текстах з інформаційних технологій, що дозволить забезпечити більш високу якість контролю за оригінальністю текстів.