
Прогресс в сфере искусственного интеллекта дает возможность генерировать картинки в любом желаемом стиле.
Генерирование картинок в собственной стилистике позволяет взглянуть на свое творчество с другой стороны, а также может быть полезно при разработке наброска.
Главные задачи проекта — обучить модель Stable Diffusion для генерации изображений в собственном стиле и создать изображения, близкие по исполнению.
Для обучения и генерации изображений использовались порталы kaggle, hugging face, а также заранее собранный пользовательский датасет.
Было интересно попробовать, насколько далеко от заданного датасета сможет отойти нейросеть, при этом сохраняя нужный стиль.
подготовка датасета

часть собранного датасета
Для датасета было собрано 28 кадров из нескольких моих рисованных анимаций. Каждая работа отражает особенности моего стиля (черный контур, острый нос, фиолетовые цвета), что очень важно для обучении нейросети.
Сгенерированные изображения
PROMPT: Picture in KOMILLA style, dark magic world. Woman in dark shadow with black fire eyes.
PROMPT: Picture in KOMILLA style, dark magic world. Woman in dark shadow with black fire eyes. Backround: black trees
При создании картинок, нейросети удалось очень точно подметить выразительную форму глаз, присущую моей рисовке, а также цветовую гамму и построение силуэта в кадре.
PROMPT: picture in KOMILLA style, a witch with a wide-brimmed hat and a dress made of autumn leaves in deep purple hues, riding a broomstick through a glowing mushroom forest.
PROMPT: Picture in KOMILLA style, A brave kid with a backpack and a makeshift cape standing on a giant floating island, looking to the moon / looking at a valley of candy-colored mushrooms.
Несмотря на то, что основная часть картинок в датасете изображала человека по пояс, нейросеть смогла удачно продлить анатомию персонажей сдерживая заданный стиль.
PROMPT: picture in KOMILLA style, a mermaid with shimmering violet scales, lounging on a rock under a twilight sky. Strong outlines and dreamy underwater lighting, intricate linework, comics shading.
PROMT: Picture in KOMILLA style, A flamboyant cartoon villain — a man in a purple suit with pockets — slipping on a banana peel while his henchmen facepalm.
Промты достаточно сильно отличались своим сюжетом от картинок использованных в датасете, но несмотря несвойственные моему стилю сюжету, в созданном изображении все еще отражается мой стиль
PROMPT: picture in KOMILLA style, cucumber with tomato / on plate.
Этот промт наоборот, по своему сюжету был достаточно близок к картинкам имевшимся в датасете, тем не менее сгенерированное изображение никак не повторяет датасет, а добавляет к нему новый взгляд!
Именно такой подход может быть полезен художникам при создании набросков.
Picture in KOMILLA style, A cozy kitchen

Picture in KOMILLA style, sunflower girl

PROMOPT: Picture in KOMILLA style, A mystical elf warrior standing in a moonlit forest, wearing ornate armor with floral patterns. vibrant colors, dreamy atmosphere
PROMPT: picture in KOMILLA style, tokio night city without human
Итоговые изображения генерировались с целью исследования вариативности изображений, которые нейросеть способна воссоздать не отходя от стиля, при достаточно небольшом датасете.
Важно было сохранить стилистические особенности в изображении персонажей: большая голова, полукруглые глаза, острый подбородок, астеническое телосложение.
работа с кодом
установка зависимостей
Переносим датасет в kom папку. Инициализируем функцию для отображения изображений.
Просмотр датасета (первые 5 изображений)
Для датасета было собрано 28 кадров из нескольких моих рисованных анимаций. Каждая работа отражает особенности моего стиля (черный контур, острый нос, фиолетовые цвета), что очень важно для обучении нейросети.
Генерируем описание к изображению
Ставим обучаться на 500 шагов, с сохранением каждые 250 шагов.
Фрагмент кода. Обучение.
модель использованная для до-обучения: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
энкодер модели: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
помощь при составлении промптов: https://www.deepseek.com/
блокнот с кодом: https://disk.yandex.ru/d/9csQ3JXoaa6JZQ
диск с датасетом: https://disk.yandex.ru/d/nq8NDAZc_1fjqw