
Идея
Владимир Сутеев — известный советский художник-иллюстратор, чьи работы отличаются уникальным стилем, сочетающим яркие цвета, простые формы и выразительные образы. Его работы часто украшают детские книги, где он мастерски изображает животных, природу и сказочные сцены. Обучение модели Stable Diffusion XL (SDXL) на его работах позволяет исследовать, как искусственный интеллект может воспроизводить этот неповторимый стиль.

Владимир Сутеев, иллюстрации к сказкам, «Три котёнка».


I. Владимир Сутеев, иллюстрации к сказкам, «Терем-Теремок». II. Владимир Сутеев, иллюстрации к сказкам, «Айболит».
Работа
Работы Владимира Сутеева идеально подходят для экспериментов с ИИ благодаря их характерным чертам:
Яркие цвета: На его иллюстрациях часто встречаются насыщенные оттенки, которые легко узнаваемы. Простота форм: Минималистичные, но выразительные элементы делают его стиль узнаваемым. Экспрессивность: Персонажи и сцены передают эмоции и атмосферу даже при минимальной детализации.
Обучение модели на его работах позволяет исследовать, как ИИ может интерпретировать эти элементы и создавать новые изображения в том же духе.
Подготовка данных
Качество обучения модели напрямую зависит от качества датасета. Вот как мы подготовили данные:
Сбор изображений: Я собрала коллекцию иллюстраций Владимира Сутеева, включая рисунки животных, пейзажей и сказочных сцен. Все изображения были сохранены в папке v-suteev.
Организация датасета: Я использовала библиотеку glob для загрузки изображений и PIL.Image для их предварительной обработки. Для удобства просмотра создали функцию image_grid, которая выводит миниатюры изображений.
Добавление текстовых подписей: Для каждой иллюстрации мы сгенерировали текстовые подписи с помощью модели Salesforce/blip-image-captioning-base. Эти подписи помогают модели лучше понять контекст изображений. Например, для изображения с медведем модель могла сгенерировать подпись: «a photo collage in Vladimir Suteev style, a bear sitting under a tree».
Создание метаданных: Мы сохранили все подписи в файл metadata.jsonl, который используется для обучения модели.
Обучение модели
Для обучения мы использовали метод LoRA (Low-Rank Adaptation), который позволяет эффективно адаптировать базовую модель SDXL к новому стилю без необходимости полного переобучения.
Настройка параметров обучения: Мы использовали базовую модель stabilityai/stable-diffusion-xl-base-1.0 и VAE (madebyollin/sdxl-vae-fp16-fix) для улучшения качества генерации.
Обучение с помощью train_dreambooth_lora_sdxl.py: Мы запустили скрипт обучения с помощью команды:
accelerate launch train_dreambooth_lora_sdxl.py…
Сохранение результатов: После завершения обучения веса модели были сохранены в формате .safetensors и загружены на Hugging Face Hub.
Результаты




Модель успешно передала следующие ключевые элементы стиля Владимира Сутеева:
Цветовая палитра: Яркие и насыщенные цвета, характерные для Сутеева. Формы: Простые, выразительные формы персонажей и объектов. Экспрессия: Эмоциональные выражения персонажей переданы верно. Атмосфера: Сказочная атмосфера каждой сцены сохранена.


Заключение
Обучение модели SDXL на стиле Владимира Сутеева — это успешный проект, который демонстрирует возможности искусственного интеллекта в области искусства. Модель успешно передала ключевые элементы стиля, такие как яркие цвета, простые формы и сказочную атмосферу.