Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет «Львівська політехніка»

Abstract

Магістерська кваліфікаційна робота виконана студентом групи КНСШ-12 Житніковим Максимом Володимировичем. Тема “Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності”. Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Об’єктом дослідження є сучасні моделі трансформерів у комбінації із генеративними мережами, які використовуються для генерації зображень. Предметом досліджень є методики та алгоритми удосконалення архітектур трансформерів для генерації зображень на основі заданого тексту. Досягнення мети відбувається за рахунок модифікації архітектури transformer-VQ-GAN (трансформер у поєднанні із векторно-квантованою генеративною змагальною мережею) шляхом впровадження наступних кроків: 1. Впровадження механізму кодування тексту у формат представлення, який є співставним із векторним простором, який створений VQ-VAE (Векторно-квантований варіаційний автоенкодер). 2. Додання механізму конкатенації, який буде комбінувати текстові вектори із латентними кодами VQ-VAE перед тим як подати їх на вхід у авторегресивний трансформер. 3. Модифікація вхідного шару трансформера для обробки додаткових текстових векторів та налаштування механізму attention (уваги) для врахування впливу текстових даних на генерацію зображень. 4. Тренування моделі на датасеті який містить пари зображень та їх відповідного текстового опису. У результаті виконання дипломної роботи створено модифікацію архітектури transformer-VQ-GAN задля підтримки генерації зображень на основі заданого тексту, та розроблено її програмну реалізацію, яка дозволяє генерувати зображення на основі заданого тексту. Загальний обсяг роботи: 85 сторінок, 61 рисунки, 29 посилання. The master's thesis was written by Maksym Zhytnikov, a student of the КНСШ-12 group. The topic is “Improving taming transformers for high-resolution image synthesis”. The work is aimed at obtaining a master's degree in the specialty 122 “Computer Science”. The object of research is modern models of transformers in combination with generative networks used for image generation. The subject of research is methods and algorithms for improving transformer architectures for text-to-image generation. The goal is achieved by modifying the transformer-VQ-GAN architecture (transformer combined with Vector-Quantized Generative Adversarial Network) through the implementation of the following steps: 1. Implementation of a text encoding mechanism into a representation format that is compatible with the vector space created by VQ-VAE (Vector-Quantized Variational Autoencoder). 2. Addition of a concatenation mechanism that will combine text vectors with VQ-VAE latent codes before feeding them into the autoregressive transformer. 3. Modification of the transformer's input layer to process additional text vectors and adjustment of the attention mechanism to account for the influence of textual data on image generation. 4. Training the model on a dataset containing pairs of images and their corresponding textual descriptions. As a result of the thesis work, a modification of the transformer-VQ-GAN architecture was created to support text-based image generation, and its software implementation was developed, which allows generating images based on given text.

Description

Citation

Житніков М. В. Покращення методу "Приручення трансформерів" для синтезу зображень високої роздільної здатності : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Максим Володимирович Житніков ; Національний університет «Львівська політехніка». – Львів, 2024. – 86 с.

Endorsement

Review

Supplemented By

Referenced By