Original size 2480x3500

Обучение генеративной нейросети по художественный стиль Тулуза Лотрека

КОНЦЕПЦИЯ

Недавно мне попалась фотосессия модного дома Dolce & Gabbana в стиле Пауля Рубенса. Тогда я подумала, что было бы здорово создать что-то похожее, но в эстетике импрессионизма. Именно поэтому в качестве темы для проекта я выбрала сочетание моды и постимпрессионистического искусства.

Я решила, что наиболее подходящими для моего датасета будут работы французского художника Тулуза Лотрека. Они довольно яркие и динамичные, среди них есть как одиночные, так и групповые портреты, а главное, много бытовых сцен, которые можно положить в основу для сюжетов генераций.

Главная идея проекта — совместить стиль и динамику работ Лотрека с модной индустрией: погрузить фэшн-фотосессии и показы в новую эстетику.

Original size 1280x330

картины Тулуза Лотрека

ПРИМЕНЕНИЕ ГЕНЕРАТИВНОЙ МОДЕЛИ

При создании проекта были использованы следующие инструменты:

— Google Colab — для написания кода и создания изображений; — Stable Diffusion — для обучения генеративной нейросети под выбранный стиль; — Hugging Face — чтобы получить токен для обучения нейросети; — Procreate — для создания коллажей.

В начале я загрузила все необходимые для обучения библиотеки.

Затем, загрузила собранный датасет и проверила их выгрузку.

загрузка картинок

Original size 1280x256

картины Тулуза Лотрека из датасета

После проверки корректности выгрузки изображений я создала для каждого подписи с помощью нейросети.

Original size 1280x255

создание описательных подписей для каждого изображения

Затем в Hugging Face я сгенерировала API-ключ, с помощью которого загрузила ресурсы, необходимые для обучения модели.

После всех этапов я наконец смогла приступить к обучению модели. Процесс занял примерно 45 минут.

После завершения обучения оставалось только сохранить модель на Hugging Face, и можно было приступать к генерации.

Original size 1280x462

сохранение модели

Генерации занимали около 1 минуты. Для одного промта я генерировала сразу 10 изображений, а потом выбирала понравившееся.

первая генерация

ГЕНЕРАЦИИ

Для первой генерации я использовала простой короткий промт: «photo collage in CHAYCHUK style, A fashion show». Нейросеть выдала изображение с большим количеством людей, но я решила, что не хватает конкретики, и стала усложнять промты.

промт: photo collage in CHAYCHUK style, A fashion show

Я увеличила размер промта, добавив подробностей: «photo collage in CHAYCHUK style, the model is on the podium, the audience is sitting in the hall». Но результат снова получился слишком шумным и не очень понятным, хотя некая композиция начала прорисовываться.

Для следующей генерации я решила запросить только модель, идущую по подиуму: «photo collage in CHAYCHUK style, A fashion model walks alone on the catwalk in a dark hall, bright colors». Также я добавила параметр «bright colors», поскольку все изображения получились примерно в одной цветовой палитре, а мне хотелось разнообразия, как в исходных картинах.

промт: photo collage in CHAYCHUK style, A fashion model walks alone on the catwalk in a dark hall, bright colors

Результат мне понравился, но цвета опять стали генериться одни и те же. Тогда я решила добавить еще один параметр с уточнением главного цвета: «photo collage in CHAYCHUK style, A fashion model walks alone on the podium in a dark hall, bright colors, red».

Последующие промты я писала по той же схеме: мой стиль + сюжет изображения + bright colors + главный цвет (при необходимости).

Я решила попробовать сгенерировать разные сюжеты. Но в последних генерациях я повторила запрос про модный показ.

промт: photo collage in CHAYCHUK style, Two models walk down the catwalk alone in an empty hall, bright colors, red/yellow

модели на фотосессии в студии

Сначала я попробовала снова задать промт без уточнений по цветам, но, как и ожидала, получила первую палитру.

Промт: photo collage in CHAYCHUK style, a model on the fashion photo shoot in the studio

промт: photo collage in CHAYCHUK style, Three models at a photo shoot in the studio, one wearing a full skirt, the model dancing

промт: photo collage in CHAYCHUK style, A fashion The model is sitting alone in the studio on a fashion photo shoot, bright colors, yellow/pink/blue

В последней картинке этой серии я решила запросить двух моделей, сидящих в студии. Эта генерация нравится мне больше всех.

Промт: photo collage in CHAYCHUK style, two fashion models are sitting alone in the studio on a fashion photo shoot, bright colors, blue

модели в кафе

Здесь я запрашивала группы моделей в кофейнях, чтобы посмотреть, считала ли модель фоновые особенности исходных картин.

промт: photo collage in CHAYCHUK style, Three fashion models in a cafe, sitting at a table, bright colors

промт: photo collage in CHAYCHUK style, Two fashion models are sitting in a cafe at a fashion photo shoot, bright colors, blue

модели танцуют

Поскольку Тулуз Лотрек во многом известен благодаря работам, написанным в кабаре, я решила сделать серию картинок, на которых модели танцуют в пышных юбках.

промт: photo collage in CHAYCHUK style, One fashion model is dancing in the middle of the stage alone, bright colors, blue/red

Модель считала основные элементы картин, с танцующими женщинами, кроме юбок. Поэтому в следующие промты я добавила уточнение.

промт: A fashion model is dancing alone in a cafe hall, wearing a wide skirt, bright colors, red/yellow

ВЫВОДЫ

Модель вполне считала технику художника — рисование прямыми прерывистыми линиями.

Без уточнения цветов нейросеть делает изображения розовыми. Если сравнить с оригинальными работами, можно заметить, что сам художник довольно часто уводил цветовую гамму фона и одежды именно в этот цвет.

В целом, модель неплохо считывает цветовые сочетания и проецирует их на генерации.

Картины Лотрека | промт: photo collage in CHAYCHUK style, One fashion model is dancing in the middle of the stage

картина Лотрека | генерация

С танцевальных картин нейросеть считала динамику движений и общую композицию.

картины Лотрека | генерация

Самые удачные генерации, на мой взгляд, картин на тематику кофеин. Нейросеть смогла повторить композицию, стиль и фоны.

картины Лотрека | генерация

Сейчас на сгенерированных изображениях довольно много артефактов, поэтому утверждать, что она в точности соответствует манере художника, нельзя. Возможно, если создавать изображения на более мощной видеокарте, увеличивать датасет, усложнять код и промты, результат будет лучше.

Тем не менее, мне кажется, что результат можно считать вполне успешным. Нейросеть способна сгенерировать изображения в стиле, приближенном к оригинальным картинам. Она переняла определенные черты работ Тулуза Лотрека, такие как цвета, композиция, манера письма.

БЛОКНОТ / ДАТАСЕТ

Обучение генеративной нейросети по художественный стиль Тулуза Лотрека

Mariya Chaychuk

artificial intelligence

neural network

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...