Original size 2480x3500

Обучение генеративной модели Stable Diffusion стилю Жана Мишеля Баскии

PROTECT STATUS: not protected
5

Концепция

Для этого проекта я решила обучить нейросеть Stable Diffusion XL создавать изображения в узнаваемом стиле Жана-Мишеля Баския — одного из самых влиятельных художников нео-экспрессионизма конца XX века.

Баския известен своим уникальным стилем, сочетающим примитивизм, граффити, яркие цвета и элементы поп-культуры с глубокими социальными комментариями. Его работы наполнены символизмом, анатомическими рисунками, короноподобными структурами и необработанными, энергичными линиями.

Исходные картины

big
Original size 635x461
0

Для обучения модели я собрала датасет из 22 картин Баския, включающий его наиболее характерные работы:

Датасет

Обучение модели

1/ Подготовка данных

Для обучения модели в стиле Жана-Мишеля Баския был собран датасет из 22 изображений его наиболее характерных работ. Изображения были предварительно обработаны:

- Преобразованы в формат PNG - Размещены в директории ./cher/

2/ Инфраструктура обучения

Обучение производилось в Google Colab на бесплатном GPU T4, используя передовые техники для оптимизации памяти и вычислений:

- Gradient checkpointing - 8-битная оптимизация Adam - Смешанная точность (Mixed precision, fp16)

3/ Основные параметры обучения

Для обучения использовался метод DreamBooth с LoRA (Low-Rank Adaptation), позволяющий значительно сократить требования к памяти при сохранении качества результатов:

- Базовая модель: stabilityai/stable-diffusion-xl-base-1.0 - Оптимизированный VAE: madebyollin/sdxl-vae-fp16-fix - Размер батча: 2 - Шаги градиентного накопления: 3 - Скорость обучения: 1e-4 - Общее количество шагов обучения: 500 - Промпт для обучения: «In the style of BASQUIAT»

Код для обучения

Использовался скрипт train_dreambooth_lora_sdxl.py из репозитория Diffusers. Основные шаги:

Установка необходимых библиотек:

Original size 1442x256

Загрузка скрипта обучения

Original size 1418x256

Подготовка изображений и автоматическое создание подписей с использованием модели BLIP:

Original size 1414x618

Запуск обучения:

Original size 1398x1044

Результаты обучения

По окончании обучения модель сохранена в формате LoRA весов для последующего использования с базовой моделью Stable Diffusion XL.

- basquiat_style_LoRA/adapter_model.safetensors (финальная версия после 500 шагов)

Генерация изображений

Original size 1408x866

Наблюдения и выводы

1. Модель успешно усвоила ключевые элементы стиля Баския даже на небольшом датасете. 2. Использование LoRA позволило эффективно обучить модель на ограниченных вычислительных ресурсах. 3. Автоматически сгенерированные BLIP подписи в сочетании с префиксом «In the style of BASQUIAT» улучшили результаты обучения.

Результирующая серия изображений

Original size 1024x1024
0

Стилистические характеристики изображений

1. Цветовая палитра: Модель успешно адаптировала яркую, контрастную палитру Баския, используя его характерные черный, красный, желтый и синий цвета. 2. Линии и формы: Грубые, энергичные линии, незавершенные формы и примитивистский подход к анатомии — все это присутствует в сгенерированных изображениях. 3. Композиция: Хаотичное, но при этом сбалансированное размещение элементов на холсте с характерными для Баския пустыми пространствами и слоистостью изображения.

Original size 1024x1024
Original size 1024x1024

Полученные изображения успешно совмещают узнаваемую эстетику Баския с современными темами и персонажами. Обученная модель демонстрирует понимание не только визуальных аспектов стиля художника, но и концептуальный подход к изображаемым объектам.

Сгенерированная модель

Блокнот с кодом

Особенности генерации

В процессе обучения использовался метод DreamBooth с LoRA (Low-Rank Adaptation), что позволило с минимальными вычислительными ресурсами адаптировать большую модель Stable Diffusion XL под конкретный стиль. Для обучения было достаточно 500 шагов.

Особую роль в успешной генерации сыграли:

- Использование префикса «In the style of BASQUIAT» в промтах - Применение автоматических подписей BLIP для обогащения датасета - Настройка параметра lora_scale для контроля силы стилизации

Визуальный анализ

Несмотря на общую стилистическую согласованность, каждое изображение в серии имеет свои уникальные черты. Модель демонстрирует вариативность в рамках одного стиля:

- В одних работах преобладают яркие красные и желтые тона - В других доминирует черно-белая графика с акцентированными цветовыми вставками - Третьи демонстрируют многослойность и «перегруженность» элементами

Эта вариативность соответствует творчеству самого Баския, который экспериментировал с различными подходами в рамках своего узнаваемого стиля.

Использование генИИ в проекте

В рамках этого проекта помимо обученной нейросети Stable Diffusion XL был использован ГенИИ Claude 3.7 Sonnet для следующих целей:

1. Формулировка концепции и идеи 2. Написание экспликации к проекту 3. Структурирование процесса обучения и разъяснение технических аспектов DreamBooth и LoRA

Использование ГенИИ позволило эффективно структурировать информацию о проекте.

Обучение генеративной модели Stable Diffusion стилю Жана Мишеля Баскии
5
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more