Iндуктивнi методи та алгоритми самоорганiзацiї моделей даних на основi карт Кохонена

No Thumbnail Available

Date

2010

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет "Львівська політехніка"

Abstract

The goal of this thesis is to advance the state of inductive data modeling methods and algorithms based on Kohonen’s self-organising maps (SOM) with an emphasis on exploratory data analysis, descriptive data models and data visualisation. All developed improvements and new methods have been eva-luated on a number of datasets from UCI Machine Learning Repository. At the same time an important part of the research is related to the practical applications of the developed methods and algorithms, which cover cases of modeling both structured (medical applications) and unstructured (image seg- mentation) data, including visualisation. In light of the recent trends in the CPU industry moving towards multi-core architectures, the developed during the research software incorporates modifications of SOM training algorithms optimised for symmetric multiprocessing. The first chapter of the thesis introduces all important definitions and provides an interpretation of SOM as an algebraic system provided with a self-organising learning process. It also contains a detailed overview of recent theoretical and practical advancements in SOM. The second chapter provides an in-depth review of the main SOM features and the results of the developed methodology for selecting optimal parameter values for a number of training algorithms in application to analysis of the real-life medical data. As the result the classification success has been increased from 81.92% to 91.43%. The details of a new training method “Neural Migration” and a new dynamic interval self-organising map are provided in chapter three. Their application to the test datasets yields significant improvements over alternatives. The improved algorithm for data visualisation based on SOM and a derived from it image segmentation method is discussed in the fourth chapter. The obtained results correlate with the results of U-Matrix, but in addition it determines groups of map elements responsible for modeling of individual data clusters. The last chapter provides a detailed overview of the developed data mining software and the proposed multi-threaded training algorithm, which yields on average up to 2.8 times performance improvement over the sequential version when executing on Intel Xeon E5504 CPU. An important aspect of the developed software is the use of strictly free and open source libraries, programming languages (Java 1.6 and Scala 2.7) and an environment (Eclipse IDE under Ubuntu OS). The Scala programming language was used for its functional features providing a flexible way for implementing actor-based parallel computations while remaining fully compatible with the Java code-base of the developed software.Диссертация посвящена процессам моделирования данных с использованием карт Кохонена. На основании разработанной методики определения оптимальных значений параметров обучающих методов получен прирост качества классификации с 81.92% до 91.43%. Разработан метод “нейронной миграции” обучения, который основан на идее повышения топологического упорядочения карт, а также динамично-интервальная самоорганизуемая карта, которые обеспечили существенный прирост качества классификации. Усовершенствован метод визуализации кластерной структуры данных, результаты работы которого согласуются с методом U-Matrix. На его основании разработан алгоритм сегментации изображений, который был использован при построении тренажера украинского жестового языка. Разработано математическое и программное обеспечение интеллектуального анализа данных, которое включает многопотоковый алгоритм обучения, который на системе с 4-х ядерным процессором обеспечивает увеличение производительности в 2.8 раза, по сравнению с последовательным алгоритмом. Дисертацiю присвячено процесам моделювання даних на основi карт Кохонена. На основi розробленої методики визначення оптимальних значень параметрiв навчальних методiв досягнуто прирiст успiшностi класифiкацiї з 81.92% до 91.43%. Розроблено метод “нейронної мiґрацiї” навчання, що ґрунтується на iдеї пiдвищення топологiчного впорядкування карт, та розроблено динамiчно-iнтервальну самоорганiзовну карту, якi забезпечили iстотний прирiст успiшностi класифiкацiї. Удосконалено метод вiзуалiзацiї кластерної структури даних, результати роботи якого узгоджуються з методом U-Matrix. На його основi розроблено алгоритм сеґментацiї зображень, який використано при побудовi тренажера української жестової мови. Розроблено математичне та програмне забезпечення для iнтелектуального аналiзу даних, яке iнкорпорує багатопотоковий алгоритм навчання карт, що на системi з чотириядерним процесором забезпечує збiльшення швидкодiї у 2.8 раза, порiвняно з послiдовним алгоритмом.

Description

Keywords

карти Кохонена, iнтелектуальний аналiз даних, вiзуа лiзацiя даних, iндуктивне моделювання, паралельнi обчислення, карты Кохонена, интеллектуальный анализ данных, визуализация данных, индуктивное моделирование, параллельные вычисления, Self-Organising Maps, data mining, data visualisation, induc tive modelling, parallel computing

Citation

Годич О. В. Індуктивні методи та алгоритми самоорганізації моделей даних на основі карт Кохонена : автореферат дисертації на здобуття наукового ступеня кандидата технічних наук : 01.05.03 – математичне та програмне забезпечення обчислювальних машин i систем / Олесь Васильович Годич ; Національний університет "Львівська політехніка". – Львів, 2010. – 20 с. – Бібліографія: с. 16–18 (27 назв).