Задача генерації тексту в зображення за допомогою нейронних мереж
| dc.contributor.author | Петров, Микола Юрійович | |
| dc.contributor.author | Petrov, Mykola | |
| dc.date.accessioned | 2025-07-10T11:16:02Z | |
| dc.date.issued | 2025-06 | |
| dc.description | Науковий керівник: Карєва Валерія Віталіївна, доктор філософії за спеціальністю «Прикладна математика», викладач кафедри прикладної математики | |
| dc.description.abstract | У кваліфікаційній роботі досліджено задачу генерації зображень на основі текстового опису з використанням сучасних глибинних нейронних мереж. Розглянуто основні підходи до генерації, зокрема моделі типу GAN, VAE та дифузійні моделі, з акцентом на архітектурі Stable Diffusion – латентній дифузійній моделі, яка поєднує компоненти CLIP, U-Net та VAE декодувальник. Особливу увагу приділено методам fine-tuning, таким як Textual Inversion і DreamBooth, що дозволяють адаптувати попередньо натреновані моделі до генерації нових об’єктів за обмеженої кількості навчальних прикладів. У рамках практичної частини реалізовано донавчання моделі Stable Diffusion v1.5 на основі власного датасету, який складається з 15 зображень цільового об’єкта – м’якої іграшки – із відповідними текстовими описами. Експериментальні результати підтвердили ефективність персоналізованої генерації: модель здатна відтворювати цільовий об’єкт у різних стилях, сценах та умовах, зберігаючи його характерні візуальні риси, що засвідчує перспективність такого підходу для подальшого застосування в креативних і прикладних задачах комп’ютерного зору. | |
| dc.description.abstract | This bachelor's thesis examines the task of text-to-image generation using modern deep neural networks. The work provides an overview of key generative approaches, including GANs, VAEs, and diffusion models, with particular emphasis on the architecture of Stable Diffusion – a latent diffusion model that combines components such as CLIP, U-Net, and a VAE-based decoder. Special attention is given to fine-tuning methods, such as Textual Inversion and DreamBooth, which allow for adapting pretrained models to generate new objects based on a small number of training examples. In the practical part of the thesis, the Stable Diffusion v1.5 model was fine-tuned on a custom dataset containing 15 images of a target object – a plush toy – along with corresponding textual descriptions. The experimental results demonstrate the effectiveness of personalized generation: the model was able to reproduce the target object in various styles, scenes, and contexts while maintaining its characteristic visual features, highlighting the potential of this approach for further use in creative and applied computer vision tasks. | |
| dc.identifier.citation | Петров, М. Ю. Задача генерації тексту в зображення за допомогою нейронних мереж : кваліфікаційна робота бакалавра : спеціальність 113 «Прикладна математика» : освітньо-професійна програма «Прикладна математика» / М. Ю. Петров ; наук. кер. В. В. Карєва. – Харків : Харківський національний університет імені В. Н. Каразіна, 2025. – 29 с. | |
| dc.identifier.uri | https://ekhnuir.karazin.ua/handle/123456789/22356 | |
| dc.language.iso | uk | |
| dc.publisher | Харків : Харківський національний університет імені В. Н. Каразіна | |
| dc.subject | MATHEMATICS::Applied mathematics | |
| dc.subject | генерація тексту в зображення | |
| dc.subject | глибинні нейронні мережі | |
| dc.subject | дифузійні моделі | |
| dc.subject | донавчання | |
| dc.subject | text-to-image generation | |
| dc.subject | deep neural networks | |
| dc.subject | diffusion models | |
| dc.subject | fine-tuning | |
| dc.title | Задача генерації тексту в зображення за допомогою нейронних мереж | |
| dc.title.alternative | The task of text-to-image generation using neural networks | |
| dc.type | Other |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Квалiфiкацiйна робота бакалавра Петров М.Ю..pdf
- Розмір:
- 610.95 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 3.42 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис:
