
КОНЦЕПЦИЯ
Недавно мне попалась фотосессия модного дома Dolce & Gabbana в стиле Пауля Рубенса. Тогда я подумала, что было бы здорово создать что-то похожее, но в эстетике импрессионизма. Именно поэтому в качестве темы для проекта я выбрала сочетание моды и постимпрессионистического искусства.
Я решила, что наиболее подходящими для моего датасета будут работы французского художника Тулуза Лотрека. Они довольно яркие и динамичные, среди них есть как одиночные, так и групповые портреты, а главное, много бытовых сцен, которые можно положить в основу для сюжетов генераций.
Главная идея проекта — совместить стиль и динамику работ Лотрека с модной индустрией: погрузить фэшн-фотосессии и показы в новую эстетику.

картины Тулуза Лотрека
ПРИМЕНЕНИЕ ГЕНЕРАТИВНОЙ МОДЕЛИ
При создании проекта были использованы следующие инструменты:
— Google Colab — для написания кода и создания изображений; — Stable Diffusion — для обучения генеративной нейросети под выбранный стиль; — Hugging Face — чтобы получить токен для обучения нейросети; — Procreate — для создания коллажей.

В начале я загрузила все необходимые для обучения библиотеки.
Затем, загрузила собранный датасет и проверила их выгрузку.
загрузка картинок
картины Тулуза Лотрека из датасета
После проверки корректности выгрузки изображений я создала для каждого подписи с помощью нейросети.
создание описательных подписей для каждого изображения

Затем в Hugging Face я сгенерировала API-ключ, с помощью которого загрузила ресурсы, необходимые для обучения модели.

После всех этапов я наконец смогла приступить к обучению модели. Процесс занял примерно 45 минут.
После завершения обучения оставалось только сохранить модель на Hugging Face, и можно было приступать к генерации.
сохранение модели
Генерации занимали около 1 минуты. Для одного промта я генерировала сразу 10 изображений, а потом выбирала понравившееся.
первая генерация
ГЕНЕРАЦИИ
Для первой генерации я использовала простой короткий промт: «photo collage in CHAYCHUK style, A fashion show». Нейросеть выдала изображение с большим количеством людей, но я решила, что не хватает конкретики, и стала усложнять промты.


промт: photo collage in CHAYCHUK style, A fashion show

Я увеличила размер промта, добавив подробностей: «photo collage in CHAYCHUK style, the model is on the podium, the audience is sitting in the hall». Но результат снова получился слишком шумным и не очень понятным, хотя некая композиция начала прорисовываться.
Для следующей генерации я решила запросить только модель, идущую по подиуму: «photo collage in CHAYCHUK style, A fashion model walks alone on the catwalk in a dark hall, bright colors». Также я добавила параметр «bright colors», поскольку все изображения получились примерно в одной цветовой палитре, а мне хотелось разнообразия, как в исходных картинах.


промт: photo collage in CHAYCHUK style, A fashion model walks alone on the catwalk in a dark hall, bright colors

Результат мне понравился, но цвета опять стали генериться одни и те же. Тогда я решила добавить еще один параметр с уточнением главного цвета: «photo collage in CHAYCHUK style, A fashion model walks alone on the podium in a dark hall, bright colors, red».
Последующие промты я писала по той же схеме: мой стиль + сюжет изображения + bright colors + главный цвет (при необходимости).
Я решила попробовать сгенерировать разные сюжеты. Но в последних генерациях я повторила запрос про модный показ.


промт: photo collage in CHAYCHUK style, Two models walk down the catwalk alone in an empty hall, bright colors, red/yellow
модели на фотосессии в студии

Сначала я попробовала снова задать промт без уточнений по цветам, но, как и ожидала, получила первую палитру.
Промт: photo collage in CHAYCHUK style, a model on the fashion photo shoot in the studio


промт: photo collage in CHAYCHUK style, Three models at a photo shoot in the studio, one wearing a full skirt, the model dancing
промт: photo collage in CHAYCHUK style, A fashion The model is sitting alone in the studio on a fashion photo shoot, bright colors, yellow/pink/blue

В последней картинке этой серии я решила запросить двух моделей, сидящих в студии. Эта генерация нравится мне больше всех.
Промт: photo collage in CHAYCHUK style, two fashion models are sitting alone in the studio on a fashion photo shoot, bright colors, blue
модели в кафе
Здесь я запрашивала группы моделей в кофейнях, чтобы посмотреть, считала ли модель фоновые особенности исходных картин.


промт: photo collage in CHAYCHUK style, Three fashion models in a cafe, sitting at a table, bright colors


промт: photo collage in CHAYCHUK style, Two fashion models are sitting in a cafe at a fashion photo shoot, bright colors, blue
модели танцуют
Поскольку Тулуз Лотрек во многом известен благодаря работам, написанным в кабаре, я решила сделать серию картинок, на которых модели танцуют в пышных юбках.


промт: photo collage in CHAYCHUK style, One fashion model is dancing in the middle of the stage alone, bright colors, blue/red
Модель считала основные элементы картин, с танцующими женщинами, кроме юбок. Поэтому в следующие промты я добавила уточнение.


промт: A fashion model is dancing alone in a cafe hall, wearing a wide skirt, bright colors, red/yellow
ВЫВОДЫ
Модель вполне считала технику художника — рисование прямыми прерывистыми линиями.
Без уточнения цветов нейросеть делает изображения розовыми. Если сравнить с оригинальными работами, можно заметить, что сам художник довольно часто уводил цветовую гамму фона и одежды именно в этот цвет.
В целом, модель неплохо считывает цветовые сочетания и проецирует их на генерации.


Картины Лотрека | промт: photo collage in CHAYCHUK style, One fashion model is dancing in the middle of the stage


картина Лотрека | генерация
С танцевальных картин нейросеть считала динамику движений и общую композицию.


картины Лотрека | генерация
Самые удачные генерации, на мой взгляд, картин на тематику кофеин. Нейросеть смогла повторить композицию, стиль и фоны.


картины Лотрека | генерация
Сейчас на сгенерированных изображениях довольно много артефактов, поэтому утверждать, что она в точности соответствует манере художника, нельзя. Возможно, если создавать изображения на более мощной видеокарте, увеличивать датасет, усложнять код и промты, результат будет лучше.
Тем не менее, мне кажется, что результат можно считать вполне успешным. Нейросеть способна сгенерировать изображения в стиле, приближенном к оригинальным картинам. Она переняла определенные черты работ Тулуза Лотрека, такие как цвета, композиция, манера письма.