Покращення якості зображень засобами нейронних мереж при різних типах спотворень

Abstract

У статті розглянуто завдання покращення якості зображень засобами нейронних мереж за різних типів спотворень кількох рівнів – погіршення контрасту, додавання різних шумів, компресія зображень тощо. Як базу зображень для навчання нейронних мереж використано поширену базу TID2013, що містить як оригінальні зображення, так і змінені за допомогою різних типів спотворень (25 базових зображень, 24 типи спотворень та 5 їх рівнів). Цю базу розділено на навчальні (480 зображень), перевірні (валідаційні, 360) та тестові (120) зображення. Для покращення вибрано зображення із найвищим рівнем спотворень 5. Для дослідження завдання покращення якості зображень використано модифікацію нейронної мережі MIRNet та нейронну мережу на основі лише згорткових шарів. Наведено особливості побудови та пара- метри нейронних мереж, структуру згорткової нейронної мережі, графіки втрат та точності під час навчання, часові параметри навчання. Модифікація мережіMIRNet полягала у налаштуванні процедури формування навчальних та валідаційних зображень на основі бази TID2013, зміні деяких параметрів нейронної мережі. Кількість шарів модифікованої нейронної мережі до- рівнює 1339 (ураховуючи вхідний шар, шари Concatenate, Pooling2D, Reshape тощо). Основними є згорткові шари Conv2D. Як міру втрат під час навчання нейронної мережі використано середньоквадратичну похибку, а як міру точності пікове співвідношення сигнал / шум, а також середню абсолютну похибку. В нейронній мережі на основі згорткових шарів використано сім згорткових шарів з кількістю каналів 128 та 256 (крім останнього згорткового шару із трьома каналами для отримання результуючого покращеного зображення). Середня абсолютна похибка для навчальної вибірки становила 0,0491, а для валідаційної 0,0527. Використано згорткові шари з однаковою кількістю каналів у кожному. Не спостерігався ефект перенавчання, у разі вико- ристання нерегулярної структури згорткових шарів (наприклад, з 32 та 128 каналами) відзначалося явище перенавчання. Для комп’ютерних експериментів із навчання нейронних мереж використано графічний відеоадаптер NVIDIA GeForce RTX 4080.
The paper considers the problem of enhancing image quality using neural networks with different types of multi-level distortions – contrast degradation, adding noise of various natures, image compression, etc. The widespread TID2013 database, which contains both original images and images modified using various types of distortions (25 basic images, 24 types of distortions, and 5 of their levels), was used as the image database for training neural networks. This database was divided into training (480 images), validation (360), and test (120) images. The images with the highest level of distortion, 5, were selected for enhancement. To study the problem of image quality enhancement, a modification of the MIRNet neural network and a neural network based only on convolutional layers were used. The features of the construction and parameters of neural networks, the structure of the convolutional neural network, loss and accuracy graphs in the learning process, and time parameters of learning are presented. The modification of the MIRNet network consisted of adjusting the procedure for forming training and validation images based on the TID2013 database, and changing some parameters of the neural network. The number of layers of the modified neural network was 1339 (including the input layer, Concatenate, Pooling2D, Reshape layers, etc.). The main layers were Conv2D convolutional layers. The mean square error was used as a measure of loss when training the neural network, and the peak signal-to-noise ratio and the mean absolute error were used as measures of accuracy. In the neural network based on convolutional layers, 7 convolutional layers with the number of channels of 128 and 256 were used (except for the last convolutional layer with 3 channels to obtain the resulting enhanced image). The mean absolute error for the training images was 0.0491, and for the validation, 0.0527. Convolutional layers with the same number of channels in each layer were used. In this case, no overfitting effect was observed. When using an irregular structure of convolutional layers (for example, with 32 and 128 channels), the phenomenon of overfitting was observed. When conducting computer experiments on training of neural networks, an NVIDIA GeForce RTX 4080 graphics adapter was used.

Description

Citation

Покращення якості зображень засобами нейронних мереж при різних типах спотворень / Ю. Романишин, С. Єлманов, М. Дуркот, О. Теглівець, В. Мельник, А. Юреня // Інфокомунікаційні технології та електронна інженерія. — Львів : Видавництво Львівської політехніки, 2025. — Том 5. — № 2. — С. 152–161.

Endorsement

Review

Supplemented By

Referenced By