Задача генерації тексту в зображення за допомогою нейронних мереж
Вантажиться...
Дата
ORCID
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Харків : Харківський національний університет імені В. Н. Каразіна
Анотація
У кваліфікаційній роботі досліджено задачу генерації зображень на основі текстового опису з використанням сучасних глибинних нейронних мереж. Розглянуто основні підходи до генерації, зокрема моделі типу GAN, VAE та дифузійні моделі, з акцентом на архітектурі Stable Diffusion – латентній дифузійній моделі, яка поєднує компоненти CLIP, U-Net та VAE декодувальник. Особливу увагу приділено методам fine-tuning, таким як Textual Inversion і DreamBooth, що дозволяють адаптувати попередньо натреновані моделі до генерації нових об’єктів за обмеженої кількості навчальних прикладів. У рамках практичної частини реалізовано донавчання моделі Stable Diffusion v1.5 на основі власного датасету, який складається з 15 зображень цільового об’єкта – м’якої іграшки – із відповідними текстовими описами. Експериментальні результати підтвердили ефективність персоналізованої генерації: модель здатна відтворювати цільовий об’єкт у різних стилях, сценах та умовах, зберігаючи його характерні візуальні риси, що засвідчує перспективність такого підходу для подальшого застосування в креативних і прикладних задачах комп’ютерного зору.
This bachelor's thesis examines the task of text-to-image generation using modern deep neural networks. The work provides an overview of key generative approaches, including GANs, VAEs, and diffusion models, with particular emphasis on the architecture of Stable Diffusion – a latent diffusion model that combines components such as CLIP, U-Net, and a VAE-based decoder. Special attention is given to fine-tuning methods, such as Textual Inversion and DreamBooth, which allow for adapting pretrained models to generate new objects based on a small number of training examples. In the practical part of the thesis, the Stable Diffusion v1.5 model was fine-tuned on a custom dataset containing 15 images of a target object – a plush toy – along with corresponding textual descriptions. The experimental results demonstrate the effectiveness of personalized generation: the model was able to reproduce the target object in various styles, scenes, and contexts while maintaining its characteristic visual features, highlighting the potential of this approach for further use in creative and applied computer vision tasks.
This bachelor's thesis examines the task of text-to-image generation using modern deep neural networks. The work provides an overview of key generative approaches, including GANs, VAEs, and diffusion models, with particular emphasis on the architecture of Stable Diffusion – a latent diffusion model that combines components such as CLIP, U-Net, and a VAE-based decoder. Special attention is given to fine-tuning methods, such as Textual Inversion and DreamBooth, which allow for adapting pretrained models to generate new objects based on a small number of training examples. In the practical part of the thesis, the Stable Diffusion v1.5 model was fine-tuned on a custom dataset containing 15 images of a target object – a plush toy – along with corresponding textual descriptions. The experimental results demonstrate the effectiveness of personalized generation: the model was able to reproduce the target object in various styles, scenes, and contexts while maintaining its characteristic visual features, highlighting the potential of this approach for further use in creative and applied computer vision tasks.
Опис
Науковий керівник: Карєва Валерія Віталіївна, доктор філософії за спеціальністю «Прикладна математика», викладач кафедри прикладної математики
Бібліографічний опис
Петров, М. Ю. Задача генерації тексту в зображення за допомогою нейронних мереж : кваліфікаційна робота бакалавра : спеціальність 113 «Прикладна математика» : освітньо-професійна програма «Прикладна математика» / М. Ю. Петров ; наук. кер. В. В. Карєва. – Харків : Харківський національний університет імені В. Н. Каразіна, 2025. – 29 с.
