Тренування нейромережі для стилізації зображень
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
У роботі запропоновано покращити візуалізацію робіт дизайнерів та архітекторів завдяки підвищенню ілюстративності та стилізованості зображень за допомогою програм на основі штучного інтелекту. Використання нейронних мереж для генерації контенту значно прискорює роботу дизайнерів. Серед усіх нейронних мереж для генерації зображень найкращі результати показує MidJourney. На підставі аналізу вартості ліцензій і підписки на послуги, а також моделей, які вони використовують, була обрана нейронна мережа глибокого навчання Stable Diffusion. Нейронна мережа Stable Diffusion має відкритий вихідний код, на відміну від DALL-E та Midjourney, що дозволяє генерувати необмежений вміст. Стилізовані зображення були створені в Stable Diffusion за допомогою Dreambooth на основі платформи Google Collab. Створення індивідуальної моделі проходило в два етапи. Перший етап включав підготовку зображень для навчання нейронної мережі Stable Diffusion. Другим етапом було безпосереднє навчання нейронної мережі на базі платформи Google Collab. Навчальним матеріалом слугували графічні малюнки Кобзаря. Спочатку для навчання моделі було відібрано 77 малюнків на одну тему, 30 з них були використані для навчання моделі після виправлення в Adobe Photoshop і Topaz Photo AI. Налаштування включали кадрування, видалення фону, друк растру, зменшення шуму, різкість і масштабування зображень. Оригінальність роботи полягає в тому, що на тренованій моделі створено стилізовані творчі образи, використовуючи уривки з віршів поета, які дуже реалістично описують природу та події. Згенеровані зображення успішно пройшли тест Тюрінга, що свідчить про реалістичне відтворення стилю малюнків Тараса Шевченка та використання авторського поетичного тексту як підказки. Використання нейронних мереж для генерації та стилізації зображень як віртуальних помічників для дизайнерів та архітекторів прискорює творчий процес і дозволяє створювати роботи будь-якої складності.
Improving the visualization of projects and portfolios of designers and architects can be achieved by enhancing the illustrativeness and stylization of images using artificial intelligence. The use of neural networks for content generation significantly speeds up the work of designers. Among all the neural networks for image generation, MidJourney shows the best results. After analyzing the licenses and subscription costs of services as well as the models they employ, the Stable Diffusion deep learning neural network was chosen. The Stable Diffusion neural network is open-source, unlike DALL-E and Midjourney, allowing for unlimited content generation. The stylized images were generated in Stable Diffusion using Dreambooth based on the Google Collab platform. The creation of a custom model was conducted in two stages. The first stage involved preparing images for training the Stable Diffusion neural network. The second stage was the direct training of the neural network based on the Google Collab platform. Kobzar’s graphic drawings served as the training dataset. Initially, 77 drawings with the same theme were selected for model training. 30 of these were used to train the model after corrections in Adobe Photoshop and Topaz Photo AI. Adjustments included cropping, background removal, printing raster, noise reduction, sharpening, and scaling images. The originality of the work lies in the fact that the trained model was used to create stylized creative images, utilizing excerpts from the poet’s poems describing nature and events in a very realistic way. The generated images have successfully passed the Turing test, indicating a realistic reproduction of the style of Taras Shevchenko’s drawings and the utilization of the author’s poetic text as a prompt. The use of neural networks for generating and styling images as virtual assistants for designers and architects speeds up the creative process and enables the creation of works of any complexity.
Improving the visualization of projects and portfolios of designers and architects can be achieved by enhancing the illustrativeness and stylization of images using artificial intelligence. The use of neural networks for content generation significantly speeds up the work of designers. Among all the neural networks for image generation, MidJourney shows the best results. After analyzing the licenses and subscription costs of services as well as the models they employ, the Stable Diffusion deep learning neural network was chosen. The Stable Diffusion neural network is open-source, unlike DALL-E and Midjourney, allowing for unlimited content generation. The stylized images were generated in Stable Diffusion using Dreambooth based on the Google Collab platform. The creation of a custom model was conducted in two stages. The first stage involved preparing images for training the Stable Diffusion neural network. The second stage was the direct training of the neural network based on the Google Collab platform. Kobzar’s graphic drawings served as the training dataset. Initially, 77 drawings with the same theme were selected for model training. 30 of these were used to train the model after corrections in Adobe Photoshop and Topaz Photo AI. Adjustments included cropping, background removal, printing raster, noise reduction, sharpening, and scaling images. The originality of the work lies in the fact that the trained model was used to create stylized creative images, utilizing excerpts from the poet’s poems describing nature and events in a very realistic way. The generated images have successfully passed the Turing test, indicating a realistic reproduction of the style of Taras Shevchenko’s drawings and the utilization of the author’s poetic text as a prompt. The use of neural networks for generating and styling images as virtual assistants for designers and architects speeds up the creative process and enables the creation of works of any complexity.
Description
Citation
Білінська О. Тренування нейромережі для стилізації зображень / Оксана Білінська, Христина Кульчицька, Юрій Суровий // Вісник Національного університету "Львівська політехніка". Серія: Архітектура. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 1. — С. 16–23.