Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності

dc.contributor.affiliationНаціональний університет «Львівська політехніка»
dc.contributor.authorЖитніков , Максим Володимирович
dc.coverage.placenameЛьвів
dc.date.accessioned2025-02-28T09:50:18Z
dc.date.issued2024
dc.date.submitted2025
dc.description.abstractМагістерська кваліфікаційна робота виконана студентом групи КНСШ-12 Житніковим Максимом Володимировичем. Тема “Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності”. Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Об’єктом дослідження є сучасні моделі трансформерів у комбінації із генеративними мережами, які використовуються для генерації зображень. Предметом досліджень є методики та алгоритми удосконалення архітектур трансформерів для генерації зображень на основі заданого тексту. Досягнення мети відбувається за рахунок модифікації архітектури transformer-VQ-GAN (трансформер у поєднанні із векторно-квантованою генеративною змагальною мережею) шляхом впровадження наступних кроків: 1. Впровадження механізму кодування тексту у формат представлення, який є співставним із векторним простором, який створений VQ-VAE (Векторно-квантований варіаційний автоенкодер). 2. Додання механізму конкатенації, який буде комбінувати текстові вектори із латентними кодами VQ-VAE перед тим як подати їх на вхід у авторегресивний трансформер. 3. Модифікація вхідного шару трансформера для обробки додаткових текстових векторів та налаштування механізму attention (уваги) для врахування впливу текстових даних на генерацію зображень. 4. Тренування моделі на датасеті який містить пари зображень та їх відповідного текстового опису. У результаті виконання дипломної роботи створено модифікацію архітектури transformer-VQ-GAN задля підтримки генерації зображень на основі заданого тексту, та розроблено її програмну реалізацію, яка дозволяє генерувати зображення на основі заданого тексту. Загальний обсяг роботи: 85 сторінок, 61 рисунки, 29 посилання. The master's thesis was written by Maksym Zhytnikov, a student of the КНСШ-12 group. The topic is “Improving taming transformers for high-resolution image synthesis”. The work is aimed at obtaining a master's degree in the specialty 122 “Computer Science”. The object of research is modern models of transformers in combination with generative networks used for image generation. The subject of research is methods and algorithms for improving transformer architectures for text-to-image generation. The goal is achieved by modifying the transformer-VQ-GAN architecture (transformer combined with Vector-Quantized Generative Adversarial Network) through the implementation of the following steps: 1. Implementation of a text encoding mechanism into a representation format that is compatible with the vector space created by VQ-VAE (Vector-Quantized Variational Autoencoder). 2. Addition of a concatenation mechanism that will combine text vectors with VQ-VAE latent codes before feeding them into the autoregressive transformer. 3. Modification of the transformer's input layer to process additional text vectors and adjustment of the attention mechanism to account for the influence of textual data on image generation. 4. Training the model on a dataset containing pairs of images and their corresponding textual descriptions. As a result of the thesis work, a modification of the transformer-VQ-GAN architecture was created to support text-based image generation, and its software implementation was developed, which allows generating images based on given text.
dc.format.pages86
dc.identifier.citationЖитніков М. В. Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Максим Володимирович Житніков ; Національний університет «Львівська політехніка». – Львів, 2024. – 86 с.
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/63360
dc.language.isouk
dc.publisherНаціональний університет «Львівська політехніка»
dc.subjecttransformers (трансформери), VQ-GAN (векторноквантовані генеративні змагальні мережі), text-to-image, VQ-VAE transformers, VQ-GAN (Vector-Quantized Generative Adversarial Networks), text-to-image, VQ-VAE (Vector-Quantized Variational Autoencoder)
dc.titleПокращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності
dc.title.alternativeImproving taming transformers for high-resolution image synthesis
dc.typeStudents_diploma

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Zhytnikov_M_V_KNSSh_22.pdf
Size:
41.1 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: