Дослідження методів інтелектуального аналізу даних для класифікації незбалансованих наборів даних
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
Завдяки стрімкому розвитку інформаційних технологій, які широко використовуються у всіх сферах людського життя та діяльності, сьогодні накопичено надзвичайно великі обсяги даних. Відповідно застосування методів машинного навчання до цих даних дає змогу отримати нові практично корисні знання, які можуть бути використані для маркетингових, управлінських та дослідницьких цілей. Серед завдань інтелектуального аналізу даних – задачі регресії, прогнозування, кластеризації, класифікації та асоціативних правил. У цьому дослідженні розв’язано задачу бінарної класифікації. Основна мета роботи – дослідження різних методів машинного навчання для вирішення завдання класифікації та порівняння їхньої ефективності та точності. Окремим завданням є попереднє оброблення даних, спрямоване на вирішення проблеми незбалансованості вибірки, а також виявлення головних компонент, що використовуватимуться для вирішення завдання класифікації. Для цього досліджено та розроблено інформаційну систему класифікації банкрутства компанії із заданими економічними та фінансовими характеристиками. В дослідженні використано набір даних, на основі якого оцінено ефективність та якість застосування декількох відомих алгоритмів класифікації. Такими класифікаторами є: звичайний та лінійний Support Vector Machine, Extra Trees, Random Forest, Decision Tree, Logistic Regression, Multilayer perceptron Classifier, Gradient Boosting, Naive Bayes Classifier. Для передобробки даних здійснено масштабування, використано SMOTE-метод, щоб позбавитись незбалансованості навчальної вибірки, виконано виділення та аналіз головних компонент і L1 регуляризацію. Аналізування головних компонент дало змогу виявити 15 головних компонент, які найбільше впливають на точність класифікації і, відповідно, використовувати їх для класифікації. Аналізуючи отримані результати, ми встановили, що найкращим класифікатором був Random Forest з 95,9 %, а найгіршим Naive Bayes – 85,1 %. Для оцінювання якості класифікації та вибору найкращого класифікатора використано матрицю помилок (Confusion matrix), в якій враховується кількість істинно позитивних (TP) та істинно негативних значень (TN), а також розраховано кількість хибно негативних (FN) та хибно позитивних (FP) результатів класифікації. Наведено значення таких метрик, як точність, precision, чутливість, F1 та ROC. Точність – відсоток правильних відповідей алгоритму, чутливість (Recall) – це кількість TP, поділена на кількість TP плюс кількість FN. Показник F1 вказує на баланс між точністю та чутливістю. Precision – це кількість істинно позитивних прогнозів, поділена на кількість хибно позитивних та істинно негативних прогнозів. Оцінка ROC AUC – це інструмент вимірювання ефективності для задач класифікації за різних порогових значень, що показує, як модель може розрізняти класи. У висновках наведено найважливіші результати дослідження та вказано основний перспективний напрям розвитку роботи, а саме дослідження результатів класифікації для інших наборів даних та здійснення ефективніших оброблення та аналізу.
With the rapid development of information technology, which is widely used in all spheres of human life and activity, extremely large amounts of data have been accumulated today. By applying machine learning methods to this data, new practically useful knowledge can be obtained. The main goal of this paper is to study different machine learning methods for solving the classification problem and compare their efficiency and accuracy. A separate task is data pre-processing aimed at solving the problem of sample imbalance, as well as identifying the principal components that will be used to solve the classification problem. For this purpose, an information system for classifying the bankruptcy of a company with specified economic and financial characteristics was researched and developed. The study uses a dataset on the basis of which the efficiency and quality of application of several existing classification algorithms are evaluated. These classifiers are: conventional and linear Support Vector Machine, Extra Trees, Random Forest, Decision Tree, Logistic Regression, Multilayer perceptron Classifier, Gradient Boosting, Naive Bayes Classifier. For data pre-processing, we scaled the data, used the SMOTE method to get rid of the imbalance of the training sample, and performed principal component analysis and L1 regularisation. Principal component analysis allowed us to identify 15 principal components that have the greatest impact on classification accuracy and, accordingly, use them in the classification process. Analysing the results, we found that the best classifier was Random Forest with 95.9 % accuracy, and the worst was Naive Bayes with 85.1 %. To evaluate the quality of classification and select the best classifier, the Confusion matrix is used, which takes into account the number of true positive (TP) and true negative (TN) values, as well as the number of false negative (FN) and false positive (FP) classification results, and the values of such metrics as accuracy, precision, sensitivity, F1, and ROC. Accuracy is the percentage of correct answers given by the algorithm, while Recall is the number of TPs divided by the number of TPs plus the number of FNs. F1 indicates the balance between accuracy and sensitivity. Precision is the number of true positive predictions divided by the number of false positive and true negative predictions. ROC AUC is a tool for measuring performance for classification tasks at different thresholds. It shows how well a model can distinguish between classes. The conclusions present the main results of the study and indicate the main future direction of the work, namely, the study of classification results for other datasets and more efficient processing and analysis.
With the rapid development of information technology, which is widely used in all spheres of human life and activity, extremely large amounts of data have been accumulated today. By applying machine learning methods to this data, new practically useful knowledge can be obtained. The main goal of this paper is to study different machine learning methods for solving the classification problem and compare their efficiency and accuracy. A separate task is data pre-processing aimed at solving the problem of sample imbalance, as well as identifying the principal components that will be used to solve the classification problem. For this purpose, an information system for classifying the bankruptcy of a company with specified economic and financial characteristics was researched and developed. The study uses a dataset on the basis of which the efficiency and quality of application of several existing classification algorithms are evaluated. These classifiers are: conventional and linear Support Vector Machine, Extra Trees, Random Forest, Decision Tree, Logistic Regression, Multilayer perceptron Classifier, Gradient Boosting, Naive Bayes Classifier. For data pre-processing, we scaled the data, used the SMOTE method to get rid of the imbalance of the training sample, and performed principal component analysis and L1 regularisation. Principal component analysis allowed us to identify 15 principal components that have the greatest impact on classification accuracy and, accordingly, use them in the classification process. Analysing the results, we found that the best classifier was Random Forest with 95.9 % accuracy, and the worst was Naive Bayes with 85.1 %. To evaluate the quality of classification and select the best classifier, the Confusion matrix is used, which takes into account the number of true positive (TP) and true negative (TN) values, as well as the number of false negative (FN) and false positive (FP) classification results, and the values of such metrics as accuracy, precision, sensitivity, F1, and ROC. Accuracy is the percentage of correct answers given by the algorithm, while Recall is the number of TPs divided by the number of TPs plus the number of FNs. F1 indicates the balance between accuracy and sensitivity. Precision is the number of true positive predictions divided by the number of false positive and true negative predictions. ROC AUC is a tool for measuring performance for classification tasks at different thresholds. It shows how well a model can distinguish between classes. The conclusions present the main results of the study and indicate the main future direction of the work, namely, the study of classification results for other datasets and more efficient processing and analysis.
Description
Citation
Дорошенко А. В. Дослідження методів інтелектуального аналізу даних для класифікації незбалансованих наборів даних / А. В. Дорошенко, Д. Ю. Савчук // Український журнал інформаційних технологій. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 1. — С. 48–57.