Original size 2480x3500

Обучение генеративной нейросети Stable Diffusion под депрессивный стиль

35

Идея проекта

Цель проекта — исследовать, как нейросети могут изучать, интерпретировать и создавать произведения искусства в депрессивном стиле, отражая тем самым настроения и внутренние переживания современного общества. Проект подчеркнет синергию технологий и искусства, способствуя лучшему пониманию эмоционального аспекта данной культуры.

Я постарался создать серию уникальных работ, созданных ИИ, которые отражают ключевые черты депрессивного искусства. Постараюсь исследовать, как взаимодействие с этим искусством влияет на настроение и эмоциональное состояние зрителей.

big
Original size 1150x590

Исходные изображения № 1

Этот проект не только расширит границы понимания депрессивного искусства и его роли в современном обществе, но и предложит новые способы взаимодействия с искусственным интеллектом в творческой сфере.

Список использованных в проекте инструментов:

— Stable Diffusion — обучение генеративной нейросети под свой стиль; — Kaggle — выполнение кода и генераций; — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт; — Adobe Photoshop — для коллажирования готовых работ.

Исходные изображения

big
Original size 1150x590

Исходные изображения № 2

Я решил использовать изображения, подчеркивающие депрессивность повседневной реальности и данного искусства: доминирующие тёмные и серые оттенки, преимущественно чёрный стиль одежды у персонажей, ночная атмосфера, тёмный лес, городская обстановка и многое другое.

Также стоит упомянуть использование вымышленных персонажей из мультфильмов, аниме, манги, и сериалов. Они не только отражают стиль, но и служат вдохновением для создания изображений, характерных для этой культуры.

Original size 1150x590

Исходные изображения № 3

Original size 1150x590

Исходные изображения № 4

Описание процесса обучения

Original size 1387x488

Подготовка кода к работе

Перед началом работы мне требовалось установить всё необходимое: Diffusers, DreamBooth, пройти регистрацию в Hugging Face и Kaggle, а также почистить готовый код.

Следующим шагом стала загрузка основной структуры кода в Kaggle, откуда уже и производилась дальнейшая работа.

Подготовка кода к работе

Следующим шагом стала загрузка исходных изображений и определение репозитория, к которому будет обращаться нейросеть для генерации изображений.

После этого с помощью системы BLIP я убедился, что нейросеть действительно понимает, что изображено на картинках, и следует написанному предложению, на которое она будет опираться.

Original size 1405x693

Загрузка изображений в код

Далее я связал нейросеть с системой Hugging Face и ввёл в неё токен, чтобы сохранить всю информацию.

Original size 1333x599

Ввод токена Hugging Face

Завершение работы над кодом

Наконец, я приступил к тренировке. Чтобы сократить время, я выбрал разрешение 512 и установил максимальное количество шагов тренировки на 500, а контрольную точку — на 250. Эти действия позволили уменьшить время тренировки до 30-40 минут, вместо ожидания нескольких часов.

Когда нейросеть завершила работу, можно было загрузить результат на Hugging Face и посмотреть готовое изображение.

Original size 1323x588

Нейросеть начала обратку и обучение на изображениях

Первым промптом, который был попробован, стал промпт: photo collage in DEPRESSION style, forest, dark, depression, human, hat

Original size 1150x590

Исходное изображение // Генерация нейросети (250 шагов)

Используя стандартный промпт из лекции, удалось добиться внушительных результатов с самого начала. Однако нейросеть не учла некоторых моментов, например, она не добавила человека, хотя это было указано. Тем не менее, она передала общую стилистику и часть промпта.

Стоит учитывать, что это была только половина первого этапа обучения — всего 250 шагов. Завершив обучение, нейросеть улучшила заявленный промпт и хорошо передела общую стилистику: доминирующие оттенки чёрного и серого, депрессивную атмосферу, лес, но забыла указать человека, как главную фигуру.

Original size 1150x590

Исходное изображение // Генерация нейросети (500 шагов)

Я решил оставить в промпте слово collage, а также добавил конкретики: photo collage in DEPRESSION style, human, dark, hoodie, forest

Original size 1150x590

Исходное изображение // Генерация нейросети (250 шагов)

Дальнейшие генерации показывали всё более лучший результат и это показывало, что обучение проходит успешно. За все итерации не было замечено нарушение стиля и каких-либо артефактов.

Original size 1150x590

Исходное изображение // Генерация нейросети (500 шагов)

Промпт: collage in DEPRESSION style, boy, hoodie, in the dark forest in the city

Original size 1024x1024

Промпт: collage in DEPRESSION style, boy, hoodie, in the dark forest in the city

Генерация человека в худи в тёмном лесу в городе нейросеть поняла отлично и выдала ожидаемый результат. Я пытался немного менять изначальный промпт, добавляя в него конкретики, меняя некоторые элементы одежды, но оставляя изначальный «депрессивный» стиль неизменным.

Промпт: photo collage in DEPRESSION style, human, forest, dark, boy wearing a hoodie, standing alone, holding a bottle

Попробовав добавить что-то новое, например, бутылку или то, что человек должен стоять в одиночестве, нейросеть поняла отлично и повторила все заявленные элементы с первой итерации.

Original size 1024x1024

Промпт: photo collage in DEPRESSION style, human, forest, dark, boy wearing a hoodie, standing alone, holding a bottle

После экспериментов с промптами, мне захотелось создать что-то абсолютно новое. Результат особо не изменился, нейросеть сохранила основной стиль, но добавила новых элементов.

Original size 1150x590

Photo collage in DEPRESION style, people in the city with forest

Подведение итогов

Чему удалось обучить нейросеть?

— Цветовая палитра; — Стилистику изображений; — Однотонный фон; — Точно передавать описанные элементы;

Подводя итоги проекта, хочу подчеркнуть, что нейросеть не заменит художника и не может на 100% передавать задуманный стиль, но может служить ценным инструментом для концепт-артов. Она способна быстро визуализировать задуманный образ, выступая в роли «черновика» для дальнейшей работы, от которого можно в дальнейшем отталкиваться и дорабатывать некоторые элементы.

Обучение генеративной нейросети Stable Diffusion под депрессивный стиль
35
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more