Методи та інформаційні технології класифікації для завдань видобування даних

No Thumbnail Available

Date

2008

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет "Львівська політехніка"

Abstract

Dissertation is dedicated to the decision of actual scientific and technical task – creation of new methods and information technologies for solution of classification tasks of data mining by geometrical data modeling. The method of penalty and encouragement is developed in dissertation based on geometrical data modeling and on the rule "winner takes all". This method permits to assure higher accuracy of classification by considering the different weight of classification errors. The method of building separating surface is developed. This method lets increase the dimension and measure of training and testing data due to division data on clusters. The method of sequential smoothing of training data by clusters based on class division tree is developed. This method lets increase the accuracy of classification for data irregularly presented in space of realization. The method of training of geometrical data model is modernized due to usage of optimization by simulating annealing algorithm. The information technologies based on described method for solution tasks of e-commerce are developed. Диссертация посвящена решению актуальной научно-прикладной задачи – разработке методов и информационных технологий классификации для задач интеллектуального анализа данных на основе модели геометрических преобразований. В диссертационной работе для того, чтобы учесть такую особенность интеллектуального анализа данных, как разная значимость ошибок во время классификации, созданы новый метод и информационная технология классификации на основе правила „победитель забирает всё” (WTA) с использованием матрицы штрафов и поощрений, которая даёт возможность учитывать неодинаковую значимость ошибок при распознавании объектов разных классов. Разработан метод кусочного построения разделяющих поверхностей на основе дерева деления на классы, который обеспечивает повышение точности распознавания объектов, для которых в заданном пространстве реализаций не выполняется гипотеза компактности. Предложен, исследован и реализован метод последовательного выравнивания тренировочной выборки по кластерам, формирующимся в узлах дерева, который обеспечивает улучшение точности решения задачи классификации для выборок, представленных неравномерно в пространстве реализаций. Метод обучения нейроподобных структур модели геометрических преобразований усовершенствован за счёт дополнения его процедурой оптимизации методом имитации отжига металла по параметрам главных компонент, что дало возможность улучшить качество классификации благодаря использованию других, кроме среднеквадратичного, критериев качества. Разработаны и применены программные скрипты, написанные на языке Python, которые осуществляют предобработку данных и реализуют разработанные метод выравнивания выборки, метод матрицы штрафов и поощрений и кусочный метод построения разделяющих поверхностей. Созданы и применены для решения задач электронной коммерции информационные технологии на основе разработанных методов. Приведены результаты проведенных экспериментов, которые свидетельствуют об эффективности применения разработанных методов.В дисертації вирішується актуальна науково-прикладна задача – розроблення методів та інформаційних технологій класифікації для завдань видобування даних на основі моделі геометричних перетворень. В дисертаційній роботі з метою врахування такої особливості задач видобування даних, як різна вага помилок під час класифікації, розроблено метод та інформаційну технологію класифікації на основі правила „переможець забирає все” (WTA) з використанням матриці штрафів та заохочень, що надає можливість враховувати неоднакову вагу помилок при розпізнаванні об’єктів різних класів. Розроблено метод кускової побудови розділяючих поверхонь на основі дерева поділу на класи, що забезпечує підвищення точності розпізнавання об’єктів, для яких в заданому просторі реалізацій не виконується гіпотеза компактності. Запропоновано, досліджено і реалізовано метод послідовного вирівнювання тренувальної вибірки по кластерах, що формуються у вузлах дерева, який забезпечує покращання точності розв’язання задач класифікації для вибірок, представлених в просторі реалізацій нерівномірно. Вдосконалено метод навчання нейроподібних структур моделі геометричних перетворень доповненням його процедурою оптимізації методом імітації відпалу металу за параметрами головних компонентів, що дало змогу покращити якість класифікації завдяки використанню інших, окрім середньоквадратичного, критеріїв якості. Розроблено та застосовано програмні скрипти мовою Python, які виконують передобробку даних та реалізують розроблені метод вирівнювання вибірки, метод штрафів і заохочень та кусковий метод побудови розділяючих поверхонь. Створено інформаційні технології на основі розроблених методів, які застосовано для задач електронної комерції. Наведено результати проведених експериментів, які свідчать про ефективність застосованих методів.

Description

Keywords

інформаційні технології, класифікація, видобування даних, інтелектуальний аналіз даних, модель геометричних перетворень, информационные технологии, классификация, добыча данных, интеллектуальные анализ данных, модель геометрических преобразований, information technologies, classification, data mining, geometrical data modeling

Citation

Дорошенко А. В. Методи та інформаційні технології класифікації для завдань видобування даних : автореферат дисертації на здобуття наукового ступеня кандидата технічних наук : 05.13.06 – інформаційні технології / Анастасія Володимирівна Дорошенко ; Національний університет "Львівська політехніка". – Львів, 2008. – 19 с. – Бібліографія: с. 16–17 (12 назв).

Endorsement

Review

Supplemented By

Referenced By