Моделі процесів аналізу даних із невизначеністю та надлишковістю

Date
2010
Authors
Нікольський, Юрій Володимирович
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
У дисертації вирішено важливу науково-прикладну проблему побудови і дослідження процесів аналізу даних з невизначеністю й надлишковістю. Для вирішення цієї проблеми побудовано її математичну модель, яка забезпечує можливість її адаптації у змістовно різних предметних областях, дозволяє з однакових міркувань оцінювати ефективність розв’язування задач у складі таких моделей, обирати метод формування залежностей в даних, застосовувати розроблені моделі для нових задач та предметних областей. Обґрунтовано необхідність формулювання загальної моделі процесу аналізу даних як основи для побудови нових процесів у різних предметних областях. Математичну модель процесу аналізу даних подано композицією функцій з перетворення опису станів предметної області як певної системи у формі таблиці прийняття рішень. Виконано формалізацію поняття процесу у термінах функцій, для обчислення яких використано широкий спектр обчислювальних методів. Сформульовано поняття невизначеності й надлишковості для процесу аналізу і виконано їх типізацію. Досліджено обчислювальні процедури у складі процесів аналізу даних з метою оцінювання параметрів, що впливають на ефективність виявлених залежностей у даних, використаних для розв’язування задачі класифікації. Загальну модель процесу адаптовано для побудови моделей процесів аналізу для різних предметних областей та проявів невизначеності й надлишковості.В диссертации решена важная научно-прикладная проблема построения и исследования модели процесса анализа данных как целостной вычислительной процедуры в условиях неопределенности и избыточности. Построенная математическая модель процесса позволяет адаптировать ее для широкого спектра предметных областей, оценивать с одинаковых позиций их эффективность решения задач в ее составе, выбирать адекватный метод формирования зависимостей в данных, применять уже разработанные процессы для постановки и решения новых задач. В первом разделе представлен общий обзор проблематики моделирования процессов анализа данных, перспектив развития и существующих проблем. Сформулирована основная проблема, в основе которой лежит противоречие между применением процесса анализа данных как многошаговой численной процедуры и отсутствием формулировки его как целостной математической задачи, что ограничивает возможности ее обобщения и развития. Постановка проблемы исследования процессов анализа данных с неопределенностью и избыточностью в форме математической модели показала, что такой подход является актуальным для многих сфер практической деятельности и требует ее исследования с целью построения эффективных математических описаний. Во втором разделе работы построена обобщенная модель процесса анализа данных с избыточностью и неопределенностью. Процесс задан множеством функций для преобразования таблиц принятия решений. Эти функции определяют отношение на множествах дискретных объектов и определены алгоритмически. Формально введены понятия скрытых и явных неопределенности и избыточности, построены их числовые оценки. Выявление зависимостей в данных выполняется методами машинного обучения, часть из которых решают оптимизационную задачу. В связи с эти построены и исследованы численные методы минимизации функций многих переменных, которые позволяют обеспечить выполнение локальных условий сходимости за счет выбора параметров методов. В третьем разделе построена и исследована модель процесса анализа для поиска закономерностей установления диагноза определенного кардиозаболевания. Построенная модель, для решения задач которой использованы методы кластерного анализа, деревьев решений и приближенных множеств, позволила выявить скрытую неопределенность и построить зависимость в виде логических правил. Исследуемые данные также использованы для сравнения алгоритмов обучения самоорганизующихся карт. Получены оценки значений параметров, которые позволили построить на основе обученных карт классификаторы и получить высокие значения оценок качества классификации данных. Применение методов приближенных множеств позволило устранить избыточные атрибуты, которые не оказывали значительного влияния на результаты классификации. В четвертом разделе построена модель процесса анализа данных, которая использована для поиска зависимости в данных, полученных в результате проведения тестирования персонала на предмет допуска к работе операторами энергетических сетей. Появление имеющейся в данных неопределенности связано с наличием неизвестных значений свойств объектов и субъективными особенностями формирования их множества. Построенные зависимости в виде множества правил позволили устранить значительную часть атрибутов и построить правила на основе редуктов. Полученные результаты применения таких правил незначительно отличаются по эффективности от правил, построенных с полным множеством атрибутов. В пятом разделе исследованы данные, полученные при регистрации аварийных ситуаций на энергоблоках, для построения модели процесса анализа данных, с помощью которого решена задача нахождения общих закономерностей возникновения таких ситуаций. В подпроцессе формирования описания предметной области построена таблица принятия решений с данными о скорости изменения плотности потока сигналов, что позволило устранить значительную избыточность и неопределенность описаний ситуаций и применить для построения зависимостей методы ближайших соседей и нейросеть прямого распространения сигналов. В шестом разделе работы модель процесса анализа данных адаптирована для решения задачи обработки изображений и идентификации на них элементов украинского жестового языка. Таблица принятия решений сформирована на основе кадров с изображением элементов дактиля и использована для классификации многослойным персептроном. Для определения формы кисти руки на изображении построена модификация метода эталона с использованием метода обучения с подкреплением. В седьмом разделе исследованы вопросы уменьшения размерности данных в моделях процессов анализа на основе модели онтологии предметной области. Введение специальных функций позволило трансформировать структуру данных в случаях возникновения неопределенности. Предложенный способ моделирования структур данных реализован на примерах построения системы учета пациентов с иммунологическими заболеваниями, а также положен в основу создания программного обеспечения для интегрирования данных, используемых при описании экспонатов музея. Разработан метод уменьшения избыточности текста на флективном языке на основе понятия дистрибуции слова.The thesis resolved the important scientific and applied research for the problem of constructing of models in data analysis process as an integrated computational procedure under uncertainty and redundancy. Such model will provide the opportunity to build processes for a wide range of domains. It gives the possibility to evaluate the effectiveness of the similar models from the same position, to choose an adequate method to forming dependencies in the data, to apply the processes that were already developed, for new tasks and domains. The necessity of formulating the general process model as a basis for formulation of such processes for a wide range of domains is grounded. The model process is presented as a system in the form of decision tables which states determine the process of analysis. Done formalization of the concept of process in terms of functions which are used to calculate a wide range of computational methods. The notion of uncertainty and redundancy for the analysis are introduced and were made their typification. Were studied the computational procedures of the models of analysis to parameters estimation that affect performance computing procedure that is determined as the classification problem. A process model was adapted for the analysis processes in various domains and for different manifestations of uncertainty and redundancy.
Description
Keywords
data analysis process , subprocess , mathematical model of the process , uncertainty , redundancy , quality of process , the parameters of method , процесс анализа данных , подпроцесс , математическая модель процесса , неопределенность , избыточность , качество процесса , параметры методов , процес аналізу даних , підпроцес , математична модель процесу , невизначеність , надлишковість , якість процесу , параметри методів
Citation
Нікольський Ю. В. Моделі процесів аналізу даних із невизначеністю та надлишковістю : автореферат дисертації здобуття наукового ступеня доктора технічних наук : 01.05.02 – математичне моделювання та обчислювальні методи / Юрій Володимирович Нікольський ; Національний університет "Львівська політехніка". – Львів, 2010. – 36 с. – Бібліографія: с. 26–34 (88 назв).