Математична модель логістичної регресії для бінарної класифікації. Ч. 1. Регресійні моделі узагальнення даних

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет «Львівська політехніка»

Abstract

У цій статті виконано математичне обґрунтування логістичної регресії як ефективного і простого для реалізації методу машинного навчання. Проведено огляд літературних джерел за напрямком статистичного опрацювання, аналізу та класифікації даних методом логістичної регресії, що підтвердило популярність застосування цього методу у різних предметних областях. Виконано порівняння методу логістичної регресії з методами лінійної та пробіт-регресії щодо можливості прогнозування імовірностей подій. У цьому контексті відмічено недоліки лінійної регресії та переваги і спорідненість методів лоґіт та пробіт-регресії. Вказано, що можливість прогнозування імовірностей та бінарної класифікації методом логістичної регресії забезпечується використанням сигмоїдної функції з властивістю стискаючого перетворення аргумента з необмеженим числовим значенням в обмежене діапазоном від 0 до 1 дійсне значення функції. Описано виведення сигмоїдної функції двома різними способами: на основі моделі логарифма шансів подій та моделі логістичного зростання популяції. На основі методу максимальної правдоподібності продемонстровано побудову логарифмічної функції втрат, використання якої дозволило перейти від багатоекстремальної задачі нелінійної регресії до задачі унімодальної оптимізації. Наведено методи регуляризації функції втрат для контролю складності та запобігання перенавчанню моделі логістичної регресії. In this article, the mathematical justification of logistic regression as an effective and simple to implement method of machine learning is performed. A review of literary sources was conducted in the direction of statistical processing, analysis and classification of data using the logistic regression method, which confirmed the popularity of this method in various subject areas. The logistic regression method was compared with the linear and probit regression methods regarding the possibility of predicting the probabilities of events. In this context, the disadvantages of linear regression and the advantages and affinity of logit and probit regression methods are noted. It is indicated that the possibility of forecasting probabilities and binary classification by the method of logistic regression is provided by the use of a sigmoid function with the property of compressive transformation of an argument with an unlimited numerical value into a limited range from 0 to 1 real value of the function. The derivation of the sigmoid function in two different ways is described: based on the model of the logarithm of the odds of events and the model of logistic population growth. Based on the method of maximum likelihood, the construction of a logarithmic loss function was demonstrated, the use of which made it possible to move from a multi-extremal nonlinear regression problem to a unimodal optimization problem. Methods of regularization of the loss function are presented to control the complexity and prevent retraining of the logistic regression model.

Description

Citation

Кравець П. Математична модель логістичної регресії для бінарної класифікації. Ч. 1. Регресійні моделі узагальнення даних / Петро Кравець, Володимир Пасічник, Микола Проданюк // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — № 15. — С. 290–321.

Endorsement

Review

Supplemented By

Referenced By