Комп’ютерне моделювання логістичної регресії для бінарної класифікації
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Abstract
У статті розглянуто практичні аспекти застосування логістичної регресії для бінарної класифікації даних. Логістична регресія визначає ймовірність належності об’єкта до одного із двох класів. Ця ймовірність обчислюється за допомогою сигмоїдної функції, аргументом якої є лінійна згортка вектора ознак об’єкта з ваговими коефіцієнтами, отриманими в процесі мінімізації логарифмічної функції втрат. Прогнозовані мітки класу визначаються порівнянням обчисленої ймовірності із заданим пороговим значенням. Дослідження логістичної регресії виконано методом комп’ютерного моделювання. Для цього розроблено програмний комплекс, робота якого відтворює основні етапи логістичної регресії: підготовка вхідних даних, навчання, тестування з визначенням метрик якості бінарної класифікації, застосування методу логістичної регресії для класифікації даних на практиці. У роботі вивчено вплив перекриття та дизбалансу класів у вхідному наборі даних на ефективність бінарної класифікації. Перекриття класів змодельовано формуванням вхідних даних на основі двох зміщених одна відносно одної функцій густини нормального розподілу випадкових величин. Дизбаланс класів імітується ймовірністю перемикання між цими функціями. Показано, що в разі зменшення відстані між математичними сподіваннями функцій густини нормального розподілу або зростання дисперсії випадкових величин перекриття актуальних
класів зростає, що призводить до збільшення кількості об’єктів, які класифікатор може віднести як до одного, так і до іншого класу. Наближення ймовірності перемикання між функціями розподілу випадкових величин до крайніх значень одиничного інтервалу призводить до зростання дизбалансу класів, що проявляється у збільшенні кількості елементів вхідного набору даних, маркованих міткою того самого класу. Експериментально підтверджено, що популярна у задачах бінарної класифікації метрика AUC ROC є залежною від ступеня перекриття класів і відносно стійкою до дизбалансу класів. This article discusses the practical aspects of applying logistic regression for binary data classification. Logistic regression determines the probability of an object belonging to one of two classes. This probability is calculated with the help of a sigmoid function, the argument of which is a linear convolution of the feature vector of the object with the weighting coefficients obtained during the minimization of the logarithmic loss function. Predicted class labels are determined by comparing the calculated probability with a given threshold value. The logistic regression study was performed using the computer simulation method. For this, a software complex was developed, the work of which reproduces the main stages of logistic regression: preparation of input data, training, testing with determination of quality metrics of binary classification, application of the logistic regression method for data classification in practice. The paper examines the effect of overlapping and imbalance of classes in the input data set on the efficiency of binary classification. The overlapping of classes is modeled by the formation of input data based on two shifted relative to each other density functions of the normal distribution of random variables. Class imbalance is simulated by the probability of switching between these features. It is shown that when the distance between the mathematical expectations of the density functions of the normal distribution decreases or when the dispersion of random variables increases, the overlapping of relevant classes increases, which leads to an increase in the number of objects that the classifier can assign to one or another class. Approaching the probability of switching between the distribution functions of random variables to the extreme values of the unit interval leads to an increase in class imbalance, which is manifested in an increase in the number of elements of the input data set labeled with the label of the same class. It has been experimentally confirmed that the AUC ROC metric, popular in binary classification problems, is dependent on the degree of class overlap and relatively resistant to class imbalance.
Description
Keywords
комп’ютерне моделювання, логістична регресія, бінарна класифікація, аналіз даних, машинне навчання, перекриття класів, дизбаланс класів, градієнтний спуск, метрики якості класифікації, computer modeling, logistic regression, binary classification, data analysis, machine learning, class overlap, class imbalance, gradient descent, classification quality metrics
Citation
Комп’ютерне моделювання логістичної регресії для бінарної класифікації / Петро Кравець, Володимир Пасічник, Микола Проданюк, Ярослав Кісь // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — № 16. — С. 167–190.