
Стилистика
Для до-обучения генеративной нейросети Stable Diffusion я использовала картины Кристоффера Зеттерстранда. Передо мной стояла цель обучить модель его живописной стилистике.

Dante And The Three Beasts, 2007
О художнике
Кристоффер Зеттерстранд, художник-сюрреалист из Швеции, получивший большую славу из-за внедрения его картин в видеоигру Minecraft. В своих работах он создает сюжеты, которые несут в себе выдумку и реальность. Он включает большое количество цифровых и сценографических элементов.


Часть из работ пришлось обрезать, так как они не отвечали формату 1:1. Все картинки были подогнаны под размер 1800 × 1800 px.


Процесс до-обучения
Для до-обучения я использовала готовый ноутбук. Его я импортировала в Kaggle и включила акселератор GPU P100. Я шла по шагам, которые были предложены, отходя от них, только в случае крайней необходимости.
Я создала датасет на Kaggle и подгрузила картинки из него в уже существующую папку.
Я подготовила датасет к до-обучению, создала промты к каждой из картинок датасета и зашла в аккаунт Hugging Face используя токен.
Некоторые из промтов к картинкам из датасета:
{"file_name»: «49.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a woman playing a guitar"} {"file_name»: «47.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a man kneeling on a rock"} {"file_name»: «96.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a person with a backpack"}
Дальше я запустила до-обучение модели, установив число шагов на 800. На всякий случай чекпоинты у меня стояли на каждых 100 шагах, чтобы вернуться в случае переобучения.
После окончания до-обучения я загрузила готовую модель на Hugging Face.
Финальным шагом я очистила кэш ноутбука и подгрузила готовые веса модели.
Проблемы модели
Так как я пыталась создать это модель несколько раз, я пришла к выводу, что у нее есть общая проблема.
Модель даже после обучения не смогла в полной мере создавать картинки, которые повторяют стиль художника. Хотя в картинах присутствует размытость мира, которая свойственна художнику, и общая живописность, диффузионная модель показывает ошибки с цветами. Чаще всего именно сочетание двух стилистик, цифровой и живописной, ей не по силам. Она отдает предпочтение одной из них.
Также диффузионной модели не удается создавать картинки с большим количеством мелких деталей. Зачастую присутствуют следы переобучения, заключающиеся в том, что картинки получаются в одном цвете.


Сгенерированная серия
В своей серии я вижу идею проникновения реальной жизни в сон. Сломы реальности, размытые лица — это все напоминает состояние человека, когда он фантазирует или спит. Реальность проникает в это уязвимое состояния, делая его тревожным, а порой и опасным.
Описание применения генеративной модели
Для изображений применялся Stable Diffusion, который был до-обучен для генерации изображений в стилистике Зеттерстранга. До-обученная модель была загружена на Hugging Face. Для обучения использовался Kaggle.