Browsing by Subject "data mining"

Now showing 1 - 20 of 21

Fuzzy model for recommender systems
(Видавництво Львівської політехніки, 2014) Stekh, Y.; Lobur, M.; Artsibasov, V.; Chystjak, V.
The paper analyzes the current state of development and application of recommendation systems, models and methods of construction of recommendation systems. It is shown that the most widely used method came into collaborative filtering. The method of fuzzy clustering is developed, which improves the accuracy of predicting ratings of products. Проаналізовано поточний стан розробки та застосування рекомендаційних систем, моделей і методів побудови рекомендаційних систем. Показано, що найбільш широко використовується метод колаборативної фільтрації фільтрації. Розроблено метод нечіткої кластеризації, який підвищує точність прогнозування рейтингів продуктів.
Fuzzy models presentation and realization by means of relational systems
(Видавництво Львівської політехніки, 2011) Filatov, Valentin; Kasatkina, Natalia
The feature of tfie research is the proposed fuzzy models representation method by means of relational systems, which unlike the known approaches, can solve integrated data mining problems in databases and fuzzy systems.
Inducing and Evaluating Rule-Based Classification Models from Data
(Видавництво Національного університету «Львівська політехніка», 2009) Zavaliy, Taras
The psychological testing results, which were analyzed by the author, are used for decision-making about admitting the power engineering specialists to work. The author describes the rough sets approach and its application for mining rules from data tables. These rules form a classification models that are used to classify new examples. The role of hitting fraction in model induction is considered Success rate and ROC curves are used for model evaluation. All of the analysis mis done with free Rosetta software.
Information technology of evaluation and improvement the quality of cluster analysis
(Видавництво Львівської політехніки, 2012) Sidorova, Marina
In this paper the information technology of evaluation and improvement the quality of cluster analysis has been proposed. It allows to support the decision making in choosing the best partition in the face of uncertainty of the cluster analysis.
Iндуктивнi методи та алгоритми самоорганiзацiї моделей даних на основi карт Кохонена
(Національний університет "Львівська політехніка", 2010) Годич, Олесь Васильович
The goal of this thesis is to advance the state of inductive data modeling methods and algorithms based on Kohonen’s self-organising maps (SOM) with an emphasis on exploratory data analysis, descriptive data models and data visualisation. All developed improvements and new methods have been eva-luated on a number of datasets from UCI Machine Learning Repository. At the same time an important part of the research is related to the practical applications of the developed methods and algorithms, which cover cases of modeling both structured (medical applications) and unstructured (image seg- mentation) data, including visualisation. In light of the recent trends in the CPU industry moving towards multi-core architectures, the developed during the research software incorporates modifications of SOM training algorithms optimised for symmetric multiprocessing. The first chapter of the thesis introduces all important definitions and provides an interpretation of SOM as an algebraic system provided with a self-organising learning process. It also contains a detailed overview of recent theoretical and practical advancements in SOM. The second chapter provides an in-depth review of the main SOM features and the results of the developed methodology for selecting optimal parameter values for a number of training algorithms in application to analysis of the real-life medical data. As the result the classification success has been increased from 81.92% to 91.43%. The details of a new training method “Neural Migration” and a new dynamic interval self-organising map are provided in chapter three. Their application to the test datasets yields significant improvements over alternatives. The improved algorithm for data visualisation based on SOM and a derived from it image segmentation method is discussed in the fourth chapter. The obtained results correlate with the results of U-Matrix, but in addition it determines groups of map elements responsible for modeling of individual data clusters. The last chapter provides a detailed overview of the developed data mining software and the proposed multi-threaded training algorithm, which yields on average up to 2.8 times performance improvement over the sequential version when executing on Intel Xeon E5504 CPU. An important aspect of the developed software is the use of strictly free and open source libraries, programming languages (Java 1.6 and Scala 2.7) and an environment (Eclipse IDE under Ubuntu OS). The Scala programming language was used for its functional features providing a flexible way for implementing actor-based parallel computations while remaining fully compatible with the Java code-base of the developed software.Диссертация посвящена процессам моделирования данных с использованием карт Кохонена. На основании разработанной методики определения оптимальных значений параметров обучающих методов получен прирост качества классификации с 81.92% до 91.43%. Разработан метод “нейронной миграции” обучения, который основан на идее повышения топологического упорядочения карт, а также динамично-интервальная самоорганизуемая карта, которые обеспечили существенный прирост качества классификации. Усовершенствован метод визуализации кластерной структуры данных, результаты работы которого согласуются с методом U-Matrix. На его основании разработан алгоритм сегментации изображений, который был использован при построении тренажера украинского жестового языка. Разработано математическое и программное обеспечение интеллектуального анализа данных, которое включает многопотоковый алгоритм обучения, который на системе с 4-х ядерным процессором обеспечивает увеличение производительности в 2.8 раза, по сравнению с последовательным алгоритмом. Дисертацiю присвячено процесам моделювання даних на основi карт Кохонена. На основi розробленої методики визначення оптимальних значень параметрiв навчальних методiв досягнуто прирiст успiшностi класифiкацiї з 81.92% до 91.43%. Розроблено метод “нейронної мiґрацiї” навчання, що ґрунтується на iдеї пiдвищення топологiчного впорядкування карт, та розроблено динамiчно-iнтервальну самоорганiзовну карту, якi забезпечили iстотний прирiст успiшностi класифiкацiї. Удосконалено метод вiзуалiзацiї кластерної структури даних, результати роботи якого узгоджуються з методом U-Matrix. На його основi розроблено алгоритм сеґментацiї зображень, який використано при побудовi тренажера української жестової мови. Розроблено математичне та програмне забезпечення для iнтелектуального аналiзу даних, яке iнкорпорує багатопотоковий алгоритм навчання карт, що на системi з чотириядерним процесором забезпечує збiльшення швидкодiї у 2.8 раза, порiвняно з послiдовним алгоритмом.
Ontology-based information system for collecting electronic medical records data
(Видавництво Львівської політехніки, 2010) Zavaliy, Taras; Nikolski, Iouri
In this paper questions of data acquisition for intelligent data analysis are considered. The authors describe ontology-based approach for data modeling and management. The ontology sets the domain data structure which can be used in the analysis process. "Imunoskryn" information system for centralized collecting and storing medical data in immunology is briefly described.
Properties of probability productive dependencies in the data analysis of large data volumes
(Publishing House of Lviv Polytechnic National University, 2012) Pshenychnyi, Oleksandr
This paper describes findings in the area of aggregated associative dependencies detection. The work gives a method of building aggregated associative dependencies in large data volumes. This research can be applied to the wide range of data types and optimize data mining processes. У статті наведено результати дослідження властивостей асоціативних залежностей та можливостей їх ефективного агрегування. Розрозблено метод виявлення асоціативних залежностей широкого класу у великих наборах даних.
Some methods in software development recommendation systems
(Видавництво Львівської політехніки, 2013) Stekh, Y.; Artsibasov, V.
This article analyzes the current state of the models and methods of building recommendation systems. The basic classes of problems that solve the recommendation system are highlighted. The features of the method collaborative filtering are shown. Developed a method for calculating the similarity coefficients, taking into account the sparseness of ratings vectors of goods and people. Проаналізовано сучасний стан моделей і методів побудови рекомендаційних систем. Виділено основні класи задач, які розв’язують рекомендаційні системи. Показано особливості застосування методу спільної фільтрації. Розроблено метод розрахунку коефіцієнтів подібності, який враховує розрідженість векторів рейтингів товарів і користувачів.
Wavelets as a Tool for Data Mining Technology
(Видавництво Львівської політехніки, 2019-05-16) Chetverykov, Grygoriy; Kobylin, Oleg; Lyashenko, Vyacheslav; Deineko, Zhanna; Kharkiv National University of Radioelectronics
Extraction of additional information from primary data is an important task for many areas of research. Additional information allows you to more accurately assess the situation and make more effective decisions. For more information, we have selected wavelets and corresponding wavelet analysis methods. We looked at the various applications of wavelets as a tool for data mining technology.
Групування тегів користувачів мікроблогів на основі решітки семантичних концептів
(Видавництво Львівської політехніки, 2011) Павлишенко, Б. М.
Запропоновано модель решітки семантичних концептів для аналізу тегів у повідомленнях, згрупованих за користувачами мікроблогів. Показано, що використання цієї моделі є ефективним під час аналізу груп ключових слів та виявлення асоціативних правил в повідомленнях мікроблогів.The Grouping of Tags of Microblogs Users On The Basis of Semantic Concepts Lattice. The model of the semantic concept lattice for the analysis of tags in the messages grouped by microblogs users has been proposed in this work. It is shown that the use of this model is effective for the analysis of key words groups and for the detection of associative rules in the microblogs messages.
Застосування засобів інтелектуального аналізу даних для прогнозування використання земельних ресурсів
(Видавництво Львівської політехніки, 2013) Глаголева, І. І.; Берко, А. Ю.
Описано процедури інтелектуального аналізу даних на основі прогнозування часових рядів для даних земельного кадастру. Розглянуто положення, необхідні длярозроблення методу прогнозування з використанням часових рядів. Розроблено математичну модель для прогнозування рядів, а також технічно реалізовано задачу прогнозування використання земельних ресурсів у Стрийському районі Львівської області. This article describes the procedures of data mining based on prediction of time series for land cadastre data. Principles, required for the development of the method of forecasting using time series are examined. Mathematical model for serious prediction is developed. The task of prediction of land resources used in Striy District Lviv Region is technically realized.
Застосування кластерного аналізу для опрацювання даних земельного кадастру
(Видавництво Львівської політехніки, 2014) Глаголєва, І. І.; Берко, А. Ю.
Описано процедури інтелектуального аналізу даних на основі кластерного аналізу для даних земельного кадастру. Розглянуто положення, необхідні для кластерного аналізу з використанням методу k-середніх. Розроблено математичну модель, а також технічно реалізовано задачу кластеризації земельних ділянок у Стрийському районі Львівської області. Procedures of data mining based on prediction of time series for land cadastre data are described in this article. Principles required for the development of the method of forecasting using time serious are examined. Mathematical model is developed. The task of predicting land resources use in Striyskyi Park in Lviv is technically realized.
Класифікація повідомлень груп новин у векторному просторі семантичних полів
(Видавництво Львівської політехніки, 2012) Павлишенко, Б.
Розглянуто класифікацію повідомлень груп новин у просторі семантичних полів. Проаналізовано ефективність баєсівського класифікатора та класифікатора за найближчими сусідами для різних навчальних та тестових вибірок повідомлень. Показано існування підмножини груп новин, для яких використання аналізованих класифікаторів є ефективним. The classification of newsgroup messages in the space of semantic fields has been considered in this work. The effectiveness of Bayesian and nearest neighbors classifier for different training and test samples of messages has been analysed. The existence of a subset of newsgroups for which the use of analyzed classifiers is effective has been shown.
Кластерний аналіз в задачах управління харчовим підприємством
(Видавництво Львівської політехніки, 2014) Грибков, Сергій; Харкянен, Олена
Discusses the use of one of data mining methods to support decision making in the management of pasta factory.
Компоненти інформаційної системи підтримки рішень для наукових періодичних видань
(Національний університет "Львівська політехніка", 2009) Мриглод, Олеся Ігорівна
Дисертація присвячена удосконаленню та розробленню методів і компонент інтелектуального опрацювання даних для синтезу ефективних інформаційних систем моніторингу та підтримки прийняття рішень у роботі з конкрентними науковими періодичними виданнями. У роботі розроблено метод інтелектуального аналізу даних про публікації у науковому виданні, що базується на теорії складних мереж та дає можливість об’єктивно судити про його основну тематичну наукову спрямованість і рівень інтегрованості у міжнародну наукову спільноту. Розроблено метод розширеного інформаційного пошуку близьких за тематикою авторів або публікацій у рамках наукового періодичного видання. Побудовано імітаційну модель опрацювання надісланих матеріалів у редакції наукового періодичного видання, яка дає можливість виявити характерні особливості у формі розподілу часів очікування статей до друку. Розроблено метод аналізу роботи редакційної колегії наукового видання, що базується на теорії систем масового обслуговування і використовує дані, доступні безпосередньо з публікацій видання, який дає можливість оцінити ефективність і режим роботи редколегії та виявити наявність етапу незалежного рецензування. Доповнено технологію аналізу та порівняльного оцінювання наукових періодичних видань методами інтелектуального аналізу даних, доступних безпосередньо з публікацій видання. Диссертация посвящена усовершенствованию и разработке методов и компонент интеллектуальной обработки данных для синтеза эффективных информационных систем мониторинга и поддержки принятия решений при работе с избранными научными периодическими изданиями. Существующие источники данных о научных изданиях позволяют оценить, в основном, их «видимость» для научного мира, узнать их рейтинг и значения главных количественных показателей, таких, как импакт-фактор или индекс цитирования. Но этих данных недостаточно для проведения комплексной оценки отдельного научного издания и информационной поддержки управленческих решений, связанных с ним. Все данные о избранном научном издании можна условно разделить на внешние и внутренние, где под внешними данными подразумеваються те, которые полученны из внешних источников, в то время как внутренние данные могут быть извлечены непосредственно из публикаций издания. Дисертационное исследование посвящено разработке методов для использования и анализа внутренних данных, потенциал которых на сегодняшний день фактически не используеться. Важным преимуществом использования именно внутренних данных есть их доступность. В работе разработан метод интеллектуального анализа данных о публикациях в научном издании, что базируется на теории сложных систем и позволяет обьективно оценивать его основное тематическое направление и уровень интегрированности в международное научное сообщество. Представление данных о публикациях в научном издании в виде сложной сети позволяет акцентировать внимание на их внутренние связи, а также обеспечивает удобный способ визуализации данных для их интерпретации экспертом. Также, используя методы работи со сложными сетями и алгоритмом нахождения их природной структуры, разработано метод расширенного информационного поиска близких за тематикой авторов или публикаций внутри научного периодического издания. Построена имитационную модель обработки присланных материалов в редакции научного периодического издания, которая дает возможность изучить характерные особенности формы распределений времени ожидания статей на публикацию. Разработан метод анализа работы редакционной колегии научного издания, который базируется на теории систем массового обслуживания и позволяет использовать данные, доступные непосредственно из публикаций в издании, и дает возможность оценить эффективность и режим работы редколлегии, при этом выявив этап независимого рецензирования. Дополнена технология анализа и сравнительного оценивания научных периодических изданий методами интеллектуального анализа данных, доступных непосредственно из публикаций издания.The methods and components for intellectual data processing are developed and improved in the dissertation. These methods and components form the base for decision support systems of scientific periodicals. The method for intelligent analysis of data about publications in the journal is developed. The method is based on the complex networks theory and it allows to evaluate the main scientific directions in selected journal and its integration into the world scientific community. The advanced information retrieval method for scientific journal is also developed in the work. The imitation model of editorial board work in scientific journal is built. This model allows to study the specific features of waiting time distributions, where the waiting time is the time interval which particular paper is waiting for publication. The method for analysis of editorial board work is developed. This method gives a possibility to use the publicly available data for the evaluation of editorial board effectiveness based on the mass service system theory. It is important to note that developed method allows to detect a presence of the stage of independent review process in the work of scientific edition. Finally, the technology of analysis and comparative evaluation of scientific editions is improved by intellligent methods of data processing using the publicly avalilable data about publications.
Методи та засоби дистанційної освіти для заохочення і залучення сучасної молоді до самостійних наукових досліджень
(Видавництво Львівської політехніки, 2015) Шаховська, Н. Б.; Висоцька, В. А.; Чирун, Л. В.
Нові інформаційні телекомунікаційні технології сприяють оптимізації управління навчальним процесом. Запропоновано інноваційні підходи до поліпшення навчальної програми вищої освіти у сфері ІТ. Розглянуто методи пошуку і залучення студентів до наукової та практичної роботи завдяки їх участі в командних змаганнях і спільних міжвузівських науково-практичних проектах. Узагальнено і подано методологічні наукові результати з проблематики впровадження технологій та методів дистанційного навчання. Запропоновано метод покращення наукової грамотності студентів, знаходячи інноваційні рішення для вирішення проблем проектів, що сприятиме науковій кар’єрі для учасників міжвузівських проектів. Розглянуто питання побудови комплексу математичних моделей процесів дистанційного навчання, на яких ґрунтується створення інтегрованого інформаційно-навчального середовища. Зазначені питання є актуальними у зв’язку з упровадженням технологій дистанційного навчання і нерозривно пов’язано з дидактичними та методологічними аспектами навчального процесу. New information, telecommunication technologies contribute to the optimization in the management of studies. This paper is devoted to the implementation of innovative approaches to improving the curriculum of higher education. The method of finding and attracting students including girls for scientific and practical work through and their participation at team competitions and joint Interuniversity scientific-practical projects are proposed. This work has considered a problem of distance education and involvement in her adaptive learning system. Improving scientific literacy of students by finding innovative solutions to address the problems of projects are proposed. Simplify the process of obtaining a scientific career for interuniversity projects participants. The questions of mathematical models of processes of distance education (remote training) are highlighted in this article. Creation of the integrated net oriented informational-educational environment is based on them. The indicated questions are actual in connection with implantation of technologies of distance learning and inextricably related with didactic and methodological aspects of the educational process.
Методи та інформаційні технології класифікації для завдань видобування даних
(Національний університет "Львівська політехніка", 2008) Дорошенко, Анастасія Володимирівна
Dissertation is dedicated to the decision of actual scientific and technical task – creation of new methods and information technologies for solution of classification tasks of data mining by geometrical data modeling. The method of penalty and encouragement is developed in dissertation based on geometrical data modeling and on the rule "winner takes all". This method permits to assure higher accuracy of classification by considering the different weight of classification errors. The method of building separating surface is developed. This method lets increase the dimension and measure of training and testing data due to division data on clusters. The method of sequential smoothing of training data by clusters based on class division tree is developed. This method lets increase the accuracy of classification for data irregularly presented in space of realization. The method of training of geometrical data model is modernized due to usage of optimization by simulating annealing algorithm. The information technologies based on described method for solution tasks of e-commerce are developed. Диссертация посвящена решению актуальной научно-прикладной задачи – разработке методов и информационных технологий классификации для задач интеллектуального анализа данных на основе модели геометрических преобразований. В диссертационной работе для того, чтобы учесть такую особенность интеллектуального анализа данных, как разная значимость ошибок во время классификации, созданы новый метод и информационная технология классификации на основе правила „победитель забирает всё” (WTA) с использованием матрицы штрафов и поощрений, которая даёт возможность учитывать неодинаковую значимость ошибок при распознавании объектов разных классов. Разработан метод кусочного построения разделяющих поверхностей на основе дерева деления на классы, который обеспечивает повышение точности распознавания объектов, для которых в заданном пространстве реализаций не выполняется гипотеза компактности. Предложен, исследован и реализован метод последовательного выравнивания тренировочной выборки по кластерам, формирующимся в узлах дерева, который обеспечивает улучшение точности решения задачи классификации для выборок, представленных неравномерно в пространстве реализаций. Метод обучения нейроподобных структур модели геометрических преобразований усовершенствован за счёт дополнения его процедурой оптимизации методом имитации отжига металла по параметрам главных компонент, что дало возможность улучшить качество классификации благодаря использованию других, кроме среднеквадратичного, критериев качества. Разработаны и применены программные скрипты, написанные на языке Python, которые осуществляют предобработку данных и реализуют разработанные метод выравнивания выборки, метод матрицы штрафов и поощрений и кусочный метод построения разделяющих поверхностей. Созданы и применены для решения задач электронной коммерции информационные технологии на основе разработанных методов. Приведены результаты проведенных экспериментов, которые свидетельствуют об эффективности применения разработанных методов.В дисертації вирішується актуальна науково-прикладна задача – розроблення методів та інформаційних технологій класифікації для завдань видобування даних на основі моделі геометричних перетворень. В дисертаційній роботі з метою врахування такої особливості задач видобування даних, як різна вага помилок під час класифікації, розроблено метод та інформаційну технологію класифікації на основі правила „переможець забирає все” (WTA) з використанням матриці штрафів та заохочень, що надає можливість враховувати неоднакову вагу помилок при розпізнаванні об’єктів різних класів. Розроблено метод кускової побудови розділяючих поверхонь на основі дерева поділу на класи, що забезпечує підвищення точності розпізнавання об’єктів, для яких в заданому просторі реалізацій не виконується гіпотеза компактності. Запропоновано, досліджено і реалізовано метод послідовного вирівнювання тренувальної вибірки по кластерах, що формуються у вузлах дерева, який забезпечує покращання точності розв’язання задач класифікації для вибірок, представлених в просторі реалізацій нерівномірно. Вдосконалено метод навчання нейроподібних структур моделі геометричних перетворень доповненням його процедурою оптимізації методом імітації відпалу металу за параметрами головних компонентів, що дало змогу покращити якість класифікації завдяки використанню інших, окрім середньоквадратичного, критеріїв якості. Розроблено та застосовано програмні скрипти мовою Python, які виконують передобробку даних та реалізують розроблені метод вирівнювання вибірки, метод штрафів і заохочень та кусковий метод побудови розділяючих поверхонь. Створено інформаційні технології на основі розроблених методів, які застосовано для задач електронної комерції. Наведено результати проведених експериментів, які свідчать про ефективність застосованих методів.
Підвищення точності нейроподібних структур геометричних перетворень
(Видавництво Львівської політехніки, 2011) Ткаченко, Р.; Андрієцький, Б.
Проаналізовано проблеми підвищення точності нейроподібних структур машини геометричних перетворень (МГП) під час розв’язання завдань передбачення в галузі інтелектуального аналізу даних (ІАД). Розроблений в статті метод передбачення на основі виділення головних компонент шляхом об’єднання вхідних тренувальних та тестових даних ілюструється прикладом. The article analyzed the problem of improving the accuracy of neural-like geometrical transformation machine and the approach to solving a problem of prediction for Data Mining tasks where data are high-dimensional. Developed method of prediction is improved by independent reproduction of principal components.
Розроблення інформаційної системи для управління ресторанним бізнесом
(Видавництво Львівської політехніки, 2015) Вінтоняк, С. М.; Кісь, Я. П.; Чирун, Л. Б.
Нові інформаційні технології сприяють оптимізації прийняття рішень у бізнесі. Запропоновано структуру побудови та спосіб практичної реалізації ІС надання послуг у ресторанному бізнесі. New information technologies contribute to optimizing decision-making in business. In the article the structure and the practical implementation of information systems for providing services in the restaurant business are presented.
Інтелектуальний аналіз матеріально-технічного забезпечення структурної одиниці навчального закладу
(Видавництво Львівської політехніки, 2015) Андруник, В. А.; Чирун, Л. Б.; Чирун, Л. Б.
Нові інформаційні, телекомунікаційні технології сприяють оптимізації управління навчальним процесом. Запропоновано структуру побудови ІС-аналізу матеріально-технічного забезпечення структурної одиниці навчального закладу. New information, telecommunication technologies contribute to the optimization in the management of studies. In the article the author suggests the structure of IS analysis of support's guide.