Machine learning models selection under uncertainty: application in cancer prediction
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
Рак є основною причиною смертності у світі, щороку діагностуються мільйони нових випадків. У багатьох дослідницьких роботах обговорюються потенційні переваги машинного навчання (МН) у прогнозуванні раку, включаючи покращене раннє виявлення та персоналізовані варіанти лікування. У літературі також висвітлюються проблеми, з якими стикається ця галузь, такі як потреба у великих та різноманітних наборах даних, а також у інтерпретованих моделях з високою продуктивністю. Метою цієї статті є пропонування нового підходу до вибору та оцінки ефективності узагальнення моделей МН у прогнозуванні раку, особливо для наборів даних обмеженого розміру. На оцінки ефективності узагальнення, як правило, впливають численні фактори протягом усього процесу навчання та тестування. Ці фактори включають вплив співвідношення навчання та тестування, а також випадковий вибір наборів даних для цілей навчання та тестування.
Cancer stands as the foremost global cause of mortality, with millions of new cases diagnosed each year. Many research papers have discussed the potential benefits of Machine Learning (ML) in cancer prediction, including improved early detection and personalized treatment options. The literature also highlights the challenges facing the field, such as the need for large and diverse datasets as well as interpretable models with high performance. The aim of this paper is to suggest a new approach in order to select and assess the generalization performance of ML models in cancer prediction, particularly for datasets with limited size. The estimates of the generalization performance are generally influenced by numerous factors throughout the process of training and testing. These factors include the impact of the training–testing ratio as well as the random selection of datasets for training and testing purposes.
Cancer stands as the foremost global cause of mortality, with millions of new cases diagnosed each year. Many research papers have discussed the potential benefits of Machine Learning (ML) in cancer prediction, including improved early detection and personalized treatment options. The literature also highlights the challenges facing the field, such as the need for large and diverse datasets as well as interpretable models with high performance. The aim of this paper is to suggest a new approach in order to select and assess the generalization performance of ML models in cancer prediction, particularly for datasets with limited size. The estimates of the generalization performance are generally influenced by numerous factors throughout the process of training and testing. These factors include the impact of the training–testing ratio as well as the random selection of datasets for training and testing purposes.
Description
Citation
Lamrani Alaoui Y. Machine learning models selection under uncertainty: application in cancer prediction / Y. Lamrani Alaoui, M. Benmir, R. Aboulaich // Mathematical Modeling and Computing. — Lviv : Lviv Politechnic Publishing House, 2024. — Vol 1. — No 11. — P. 230–238.