Original size 736x920

Обучение генеративной модели Stable Diffusion для визуала к мини-альбому

PROTECT STATUS: not protected
10

Концепция

В мае я планирую выпустить мини-альбом, к которому необходимо проработать визуал. Самая сложная часть — буклет с текстами альбома для CD-диска. Обычно буклет состоит из 8 или 16 страниц с картинками в атмосфере альбома. Поэтому в качестве проекта я решил сгенерировать визуальные материалы для физических изданий — мне необходимы слегка абстрактные рисунки акварелью в туманном, мечтательном стиле с ключевыми образами альбома.

В поддержку этого альбома уже создана метавселенная, с которой можно ознакомиться по ссылке выше. Важным элементом в разработке буклета было сохранять уже выработанную стилистику, при этом с помощью буклета найти новую грань этой эстетики.

Исходные изображения

В качестве датасета я использовал свой мудборд, собранный на Pinterest. Этот же мудборд я использовал при создании метавселенной, что при генерации помогло мне оставаться в единой стилистике во всех материалах к альбому.

big
Original size 1536x1152

Большинство фотографий в мудборде — абстрактные рисунки акварелью, будто покрытые туманом. Именно этого я и хотел достичь в сгенерированных изображениях.

Процесс обучения модели и генерации иллюстраций

В первую очередь я выгрузил мудборд, состоящий из 22 фотографий, в блокнот с кодом.

Original size 1848x687

С использованием модели LoRA были направлены все референсы и промпты для анализа и обработки данных.

Original size 1443x876

После окончания тренировки модели я начал генерацию визуальных материалов для альбома.

Original size 2911x977

Итоговая серия изображений

В буклете альбома я хотел комбинировать более абстрактные и бесформенные рисунки с конкретными образами. Фотографии без конкретных объектов могут быть как отдельными иллюстрациями, так и фоном для текстов песен.

Мне понравилось, что я могу задавать характер рисунка через код — через цвет, размытость кадра, крупность плана я сделал две версии иллюстрации ягнёнка.

С помощью повторения одного и того же промпта я сделал по несколько версий одинаковых абстракций. Это может работать как единый разворот с текстом песни, так и на разных разворотах как объединяющий элемент визуальной эстетики.

В отличие от ситуации с ягнёнком, где я могу выбрать более понравившуюся версию рисунка, тут мне хотелось поработать с разными иллюстрациями одного образа. Эти фото могут находится на разных концах буклета.

Я решил попробовать сделать более яркие изображения — как конкретный образ в виде сакуры, так и абстрактный рисунок.

Ещё две абстракции — рисунок справа выглядит в точности как мудборд и скорее всего будет первой фотографией в буклете.

А вот моя попытка сделать пару «конкретный образ» — «абстрактная версия образа» на примере розового кварца.

Итог

У меня получилось сделать изображения для буклета CD-диска — я очень удивлён результату, ведь рисунки правда похожи на мой мудборд. Модель смогла сгенерировать достаточное количество изображений в едином консистентном стиле. Интересно, что у нейросети лучше всего получалось делать именно абстрактные изображения, так как она очень хорошо отзывалась на промпт по цветовой гамме и настроению кадра.

Инструменты, использованные для реализации проекта:

Pinterest — сбор фотографий для датасета

Stable Diffusion — обучение генеративной нейросети под свой стиль

Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт

Google Colab — выполнение кода и генераций

Обучение генеративной модели Stable Diffusion для визуала к мини-альбому
10
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more