Математична модель логістичної регресії для бінарної класифікації. Ч. 2. Процеси підготовки, навчання і тестування даних
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет «Львівська політехніка»
Abstract
У цій статті розглянуто теоретичні аспекти логістичної регресії для бінарної класифікації даних, включаючи процеси підготовки даних, навчання, тестування та показники оцінювання моделей. Сформульовано вимоги до вхідних наборів даних, описано способи кодування категоріальних даних, визначено та обґрунтовано способи масштабування вхідних ознак. Розроблено схему навчання логістичної регресії методом градієнтного спуску для мінімізації функції втрат відповідним налаштуванням ваг ознак призначеної для класифікації вибірки об’єктів. Визначено особливості побудови рекурентних методів класичного та стохастичного градієнтного спуску. Описано вимоги до організації вибірки даних для моделі багатоетапного навчання з метою уникнення перенавчання або недонавчання логістичної регресії. Наведено схему тестування навченої логістичної регресії та описано основні метрики якості бінарної класифікації. Відмічено вплив висоти порогу класифікації на ефективність логістичної регресії. За результатами роботи намічено напрями перспективних досліджень логістичної регресії.This article reviews the theoretical aspects of logistic regression for binary data classification, including data preparation processes, training, testing, and model evaluation metrics. Requirements for input data sets are formulated, methods of coding categorical data are described, methods of scaling input features are defined and substantiated. A scheme for learning logistic regression using the gradient descent method has been developed to minimize the loss function by the appropriate adjustment of the weights of the features of the sample of objects intended for classification. Features of the construction of recurrent methods of classical and stochastic gradient descent are determined. The requirements for the organization of the data sample for the multi-stage learning model in order to avoid overtraining or undertraining of logistic regression are described. The scheme of testing the trained logistic regression is given and the main quality metrics of binary classification are described. The influence of the height of the classification threshold on the efficiency of logistic regression was noted. According to the results of the work, the directions of perspective research of logistic regression are outlined.
Description
Citation
Кравець П. Математична модель логістичної регресії для бінарної класифікації. Ч. 2. Процеси підготовки, навчання і тестування даних / Петро Кравець, Володимир Пасічник, Микола Проданюк // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — № 15. — С. 322–340.