
Концепция
Для этого проекта я решила обучить нейросеть Stable Diffusion XL создавать изображения в узнаваемом стиле Жана-Мишеля Баския — одного из самых влиятельных художников нео-экспрессионизма конца XX века.
Баския известен своим уникальным стилем, сочетающим примитивизм, граффити, яркие цвета и элементы поп-культуры с глубокими социальными комментариями. Его работы наполнены символизмом, анатомическими рисунками, короноподобными структурами и необработанными, энергичными линиями.
Исходные картины

Для обучения модели я собрала датасет из 22 картин Баския, включающий его наиболее характерные работы:
Датасет
Обучение модели
1/ Подготовка данных
Для обучения модели в стиле Жана-Мишеля Баския был собран датасет из 22 изображений его наиболее характерных работ. Изображения были предварительно обработаны:
- Преобразованы в формат PNG
- Размещены в директории ./cher/
2/ Инфраструктура обучения
Обучение производилось в Google Colab на бесплатном GPU T4, используя передовые техники для оптимизации памяти и вычислений:
- Gradient checkpointing - 8-битная оптимизация Adam - Смешанная точность (Mixed precision, fp16)
3/ Основные параметры обучения
Для обучения использовался метод DreamBooth с LoRA (Low-Rank Adaptation), позволяющий значительно сократить требования к памяти при сохранении качества результатов:
- Базовая модель: stabilityai/stable-diffusion-xl-base-1.0
- Оптимизированный VAE: madebyollin/sdxl-vae-fp16-fix
- Размер батча: 2
- Шаги градиентного накопления: 3
- Скорость обучения: 1e-4
- Общее количество шагов обучения: 500
- Промпт для обучения: «In the style of BASQUIAT»
Код для обучения
Использовался скрипт train_dreambooth_lora_sdxl.py из репозитория Diffusers. Основные шаги:
Установка необходимых библиотек:
Загрузка скрипта обучения
Подготовка изображений и автоматическое создание подписей с использованием модели BLIP:
Запуск обучения:
Результаты обучения
По окончании обучения модель сохранена в формате LoRA весов для последующего использования с базовой моделью Stable Diffusion XL.
- basquiat_style_LoRA/adapter_model.safetensors (финальная версия после 500 шагов)
Генерация изображений
Наблюдения и выводы
1. Модель успешно усвоила ключевые элементы стиля Баския даже на небольшом датасете. 2. Использование LoRA позволило эффективно обучить модель на ограниченных вычислительных ресурсах. 3. Автоматически сгенерированные BLIP подписи в сочетании с префиксом «In the style of BASQUIAT» улучшили результаты обучения.
Результирующая серия изображений




Стилистические характеристики изображений
1. Цветовая палитра: Модель успешно адаптировала яркую, контрастную палитру Баския, используя его характерные черный, красный, желтый и синий цвета. 2. Линии и формы: Грубые, энергичные линии, незавершенные формы и примитивистский подход к анатомии — все это присутствует в сгенерированных изображениях. 3. Композиция: Хаотичное, но при этом сбалансированное размещение элементов на холсте с характерными для Баския пустыми пространствами и слоистостью изображения.
Полученные изображения успешно совмещают узнаваемую эстетику Баския с современными темами и персонажами. Обученная модель демонстрирует понимание не только визуальных аспектов стиля художника, но и концептуальный подход к изображаемым объектам.
Сгенерированная модель
Блокнот с кодом
Особенности генерации
В процессе обучения использовался метод DreamBooth с LoRA (Low-Rank Adaptation), что позволило с минимальными вычислительными ресурсами адаптировать большую модель Stable Diffusion XL под конкретный стиль. Для обучения было достаточно 500 шагов.
Особую роль в успешной генерации сыграли:
- Использование префикса «In the style of BASQUIAT» в промтах - Применение автоматических подписей BLIP для обогащения датасета - Настройка параметра lora_scale для контроля силы стилизации
Визуальный анализ
Несмотря на общую стилистическую согласованность, каждое изображение в серии имеет свои уникальные черты. Модель демонстрирует вариативность в рамках одного стиля:
- В одних работах преобладают яркие красные и желтые тона - В других доминирует черно-белая графика с акцентированными цветовыми вставками - Третьи демонстрируют многослойность и «перегруженность» элементами
Эта вариативность соответствует творчеству самого Баския, который экспериментировал с различными подходами в рамках своего узнаваемого стиля.
Использование генИИ в проекте
В рамках этого проекта помимо обученной нейросети Stable Diffusion XL был использован ГенИИ Claude 3.7 Sonnet для следующих целей:
1. Формулировка концепции и идеи 2. Написание экспликации к проекту 3. Структурирование процесса обучения и разъяснение технических аспектов DreamBooth и LoRA
Использование ГенИИ позволило эффективно структурировать информацию о проекте.