Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності

Житніков , Максим Володимирович

Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності

dc.contributor.affiliation	Національний університет «Львівська політехніка»
dc.contributor.author	Житніков , Максим Володимирович
dc.coverage.placename	Львів
dc.date.accessioned	2025-02-28T09:50:18Z
dc.date.issued	2024
dc.date.submitted	2025
dc.description.abstract	Магістерська кваліфікаційна робота виконана студентом групи КНСШ-12 Житніковим Максимом Володимировичем. Тема “Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності”. Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Об’єктом дослідження є сучасні моделі трансформерів у комбінації із генеративними мережами, які використовуються для генерації зображень. Предметом досліджень є методики та алгоритми удосконалення архітектур трансформерів для генерації зображень на основі заданого тексту. Досягнення мети відбувається за рахунок модифікації архітектури transformer-VQ-GAN (трансформер у поєднанні із векторно-квантованою генеративною змагальною мережею) шляхом впровадження наступних кроків: 1. Впровадження механізму кодування тексту у формат представлення, який є співставним із векторним простором, який створений VQ-VAE (Векторно-квантований варіаційний автоенкодер). 2. Додання механізму конкатенації, який буде комбінувати текстові вектори із латентними кодами VQ-VAE перед тим як подати їх на вхід у авторегресивний трансформер. 3. Модифікація вхідного шару трансформера для обробки додаткових текстових векторів та налаштування механізму attention (уваги) для врахування впливу текстових даних на генерацію зображень. 4. Тренування моделі на датасеті який містить пари зображень та їх відповідного текстового опису. У результаті виконання дипломної роботи створено модифікацію архітектури transformer-VQ-GAN задля підтримки генерації зображень на основі заданого тексту, та розроблено її програмну реалізацію, яка дозволяє генерувати зображення на основі заданого тексту. Загальний обсяг роботи: 85 сторінок, 61 рисунки, 29 посилання. The master's thesis was written by Maksym Zhytnikov, a student of the КНСШ-12 group. The topic is “Improving taming transformers for high-resolution image synthesis”. The work is aimed at obtaining a master's degree in the specialty 122 “Computer Science”. The object of research is modern models of transformers in combination with generative networks used for image generation. The subject of research is methods and algorithms for improving transformer architectures for text-to-image generation. The goal is achieved by modifying the transformer-VQ-GAN architecture (transformer combined with Vector-Quantized Generative Adversarial Network) through the implementation of the following steps: 1. Implementation of a text encoding mechanism into a representation format that is compatible with the vector space created by VQ-VAE (Vector-Quantized Variational Autoencoder). 2. Addition of a concatenation mechanism that will combine text vectors with VQ-VAE latent codes before feeding them into the autoregressive transformer. 3. Modification of the transformer's input layer to process additional text vectors and adjustment of the attention mechanism to account for the influence of textual data on image generation. 4. Training the model on a dataset containing pairs of images and their corresponding textual descriptions. As a result of the thesis work, a modification of the transformer-VQ-GAN architecture was created to support text-based image generation, and its software implementation was developed, which allows generating images based on given text.
dc.format.pages	86
dc.identifier.citation	Житніков М. В. Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Максим Володимирович Житніков ; Національний університет «Львівська політехніка». – Львів, 2024. – 86 с.
dc.identifier.uri	https://ena.lpnu.ua/handle/ntb/63360
dc.language.iso	uk
dc.publisher	Національний університет «Львівська політехніка»
dc.subject	transformers (трансформери), VQ-GAN (векторноквантовані генеративні змагальні мережі), text-to-image, VQ-VAE transformers, VQ-GAN (Vector-Quantized Generative Adversarial Networks), text-to-image, VQ-VAE (Vector-Quantized Variational Autoencoder)
dc.title	Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності
dc.title.alternative	Improving taming transformers for high-resolution image synthesis
dc.type	Students_diploma

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Zhytnikov_M_V_KNSSh_22.pdf
Size:: 41.1 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Магістерські роботи