Задача генерації тексту в зображення за допомогою нейронних мереж

dc.contributor.authorПетров, Микола Юрійович
dc.contributor.authorPetrov, Mykola
dc.date.accessioned2025-07-10T11:16:02Z
dc.date.issued2025-06
dc.descriptionНауковий керівник: Карєва Валерія Віталіївна, доктор філософії за спеціальністю «Прикладна математика», викладач кафедри прикладної математики
dc.description.abstractУ кваліфікаційній роботі досліджено задачу генерації зображень на основі текстового опису з використанням сучасних глибинних нейронних мереж. Розглянуто основні підходи до генерації, зокрема моделі типу GAN, VAE та дифузійні моделі, з акцентом на архітектурі Stable Diffusion – латентній дифузійній моделі, яка поєднує компоненти CLIP, U-Net та VAE декодувальник. Особливу увагу приділено методам fine-tuning, таким як Textual Inversion і DreamBooth, що дозволяють адаптувати попередньо натреновані моделі до генерації нових об’єктів за обмеженої кількості навчальних прикладів. У рамках практичної частини реалізовано донавчання моделі Stable Diffusion v1.5 на основі власного датасету, який складається з 15 зображень цільового об’єкта – м’якої іграшки – із відповідними текстовими описами. Експериментальні результати підтвердили ефективність персоналізованої генерації: модель здатна відтворювати цільовий об’єкт у різних стилях, сценах та умовах, зберігаючи його характерні візуальні риси, що засвідчує перспективність такого підходу для подальшого застосування в креативних і прикладних задачах комп’ютерного зору.
dc.description.abstractThis bachelor's thesis examines the task of text-to-image generation using modern deep neural networks. The work provides an overview of key generative approaches, including GANs, VAEs, and diffusion models, with particular emphasis on the architecture of Stable Diffusion – a latent diffusion model that combines components such as CLIP, U-Net, and a VAE-based decoder. Special attention is given to fine-tuning methods, such as Textual Inversion and DreamBooth, which allow for adapting pretrained models to generate new objects based on a small number of training examples. In the practical part of the thesis, the Stable Diffusion v1.5 model was fine-tuned on a custom dataset containing 15 images of a target object – a plush toy – along with corresponding textual descriptions. The experimental results demonstrate the effectiveness of personalized generation: the model was able to reproduce the target object in various styles, scenes, and contexts while maintaining its characteristic visual features, highlighting the potential of this approach for further use in creative and applied computer vision tasks.
dc.identifier.citationПетров, М. Ю. Задача генерації тексту в зображення за допомогою нейронних мереж : кваліфікаційна робота бакалавра : спеціальність 113 «Прикладна математика» : освітньо-професійна програма «Прикладна математика» / М. Ю. Петров ; наук. кер. В. В. Карєва. – Харків : Харківський національний університет імені В. Н. Каразіна, 2025. – 29 с.
dc.identifier.urihttps://ekhnuir.karazin.ua/handle/123456789/22356
dc.language.isouk
dc.publisherХарків : Харківський національний університет імені В. Н. Каразіна
dc.subjectMATHEMATICS::Applied mathematics
dc.subjectгенерація тексту в зображення
dc.subjectглибинні нейронні мережі
dc.subjectдифузійні моделі
dc.subjectдонавчання
dc.subjecttext-to-image generation
dc.subjectdeep neural networks
dc.subjectdiffusion models
dc.subjectfine-tuning
dc.titleЗадача генерації тексту в зображення за допомогою нейронних мереж
dc.title.alternativeThe task of text-to-image generation using neural networks
dc.typeOther

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Квалiфiкацiйна робота бакалавра Петров М.Ю..pdf
Розмір:
610.95 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
3.42 KB
Формат:
Item-specific license agreed upon to submission
Опис: