Original size 2480x3500

До-обучение генеративной нейросети Stable Diffusion

Стилистика

Для до-обучения генеративной нейросети Stable Diffusion я использовала картины Кристоффера Зеттерстранда. Передо мной стояла цель обучить модель его живописной стилистике.

Original size 1920x1904

Dante And The Three Beasts, 2007

О художнике

Кристоффер Зеттерстранд, художник-сюрреалист из Швеции, получивший большую славу из-за внедрения его картин в видеоигру Minecraft. В своих работах он создает сюжеты, которые несут в себе выдумку и реальность. Он включает большое количество цифровых и сценографических элементов.

Датасет

Часть из работ пришлось обрезать, так как они не отвечали формату 1:1. Все картинки были подогнаны под размер 1800 × 1800 px.

Процесс до-обучения

Для до-обучения я использовала готовый ноутбук. Его я импортировала в Kaggle и включила акселератор GPU P100. Я шла по шагам, которые были предложены, отходя от них, только в случае крайней необходимости.

Я создала датасет на Kaggle и подгрузила картинки из него в уже существующую папку.

Original size 1314x148

Я подготовила датасет к до-обучению, создала промты к каждой из картинок датасета и зашла в аккаунт Hugging Face используя токен.

Некоторые из промтов к картинкам из датасета:

{"file_name»: «49.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a woman playing a guitar"} {"file_name»: «47.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a man kneeling on a rock"} {"file_name»: «96.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a person with a backpack"}

Дальше я запустила до-обучение модели, установив число шагов на 800. На всякий случай чекпоинты у меня стояли на каждых 100 шагах, чтобы вернуться в случае переобучения.

Original size 1316x881

Original size 1285x181

После окончания до-обучения я загрузила готовую модель на Hugging Face.

Финальным шагом я очистила кэш ноутбука и подгрузила готовые веса модели.

Original size 1288x391

Проблемы модели

Original size 1201x1097

Так как я пыталась создать это модель несколько раз, я пришла к выводу, что у нее есть общая проблема.

Модель даже после обучения не смогла в полной мере создавать картинки, которые повторяют стиль художника. Хотя в картинах присутствует размытость мира, которая свойственна художнику, и общая живописность, диффузионная модель показывает ошибки с цветами. Чаще всего именно сочетание двух стилистик, цифровой и живописной, ей не по силам. Она отдает предпочтение одной из них.

Также диффузионной модели не удается создавать картинки с большим количеством мелких деталей. Зачастую присутствуют следы переобучения, заключающиеся в том, что картинки получаются в одном цвете.

Сгенерированная серия

Original size 3500x2550

В своей серии я вижу идею проникновения реальной жизни в сон. Сломы реальности, размытые лица — это все напоминает состояние человека, когда он фантазирует или спит. Реальность проникает в это уязвимое состояния, делая его тревожным, а порой и опасным.

Описание применения генеративной модели

Для изображений применялся Stable Diffusion, который был до-обучен для генерации изображений в стилистике Зеттерстранга. До-обученная модель была загружена на Hugging Face. Для обучения использовался Kaggle.

Ноутбук с кодом

Модель на Hugging face

До-обучение генеративной нейросети Stable Diffusion

Xenia "Sova" Zinoveva

artificial intelligence

neural network

visual series

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...