Original size 2480x3500

Обучение генеративной нейросети под собственный стиль

PROTECT STATUS: not protected
48

Прогресс в сфере искусственного интеллекта дает возможность генерировать картинки в любом желаемом стиле.

Генерирование картинок в собственной стилистике позволяет взглянуть на свое творчество с другой стороны, а также может быть полезно при разработке наброска.

Главные задачи проекта — обучить модель Stable Diffusion для генерации изображений в собственном стиле и создать изображения, близкие по исполнению.

Для обучения и генерации изображений использовались порталы kaggle, hugging face, а также заранее собранный пользовательский датасет.

Было интересно попробовать, насколько далеко от заданного датасета сможет отойти нейросеть, при этом сохраняя нужный стиль.

подготовка датасета

big
Original size 4185x2052

часть собранного датасета

Для датасета было собрано 28 кадров из нескольких моих рисованных анимаций. Каждая работа отражает особенности моего стиля (черный контур, острый нос, фиолетовые цвета), что очень важно для обучении нейросети.

Сгенерированные изображения

Original size 2116x1024

PROMPT: Picture in KOMILLA style, dark magic world. Woman in dark shadow with black fire eyes.

PROMPT: Picture in KOMILLA style, dark magic world. Woman in dark shadow with black fire eyes. Backround: black trees

При создании картинок, нейросети удалось очень точно подметить выразительную форму глаз, присущую моей рисовке, а также цветовую гамму и построение силуэта в кадре.

Original size 3208x1024

PROMPT: picture in KOMILLA style, a witch with a wide-brimmed hat and a dress made of autumn leaves in deep purple hues, riding a broomstick through a glowing mushroom forest.

Original size 2116x1024

PROMPT: Picture in KOMILLA style, A brave kid with a backpack and a makeshift cape standing on a giant floating island, looking to the moon / looking at a valley of candy-colored mushrooms.

Несмотря на то, что основная часть картинок в датасете изображала человека по пояс, нейросеть смогла удачно продлить анатомию персонажей сдерживая заданный стиль.

Original size 1024x1024

PROMPT: picture in KOMILLA style, a mermaid with shimmering violet scales, lounging on a rock under a twilight sky. Strong outlines and dreamy underwater lighting, intricate linework, comics shading.

Original size 2116x1024

PROMT: Picture in KOMILLA style, A flamboyant cartoon villain — a man in a purple suit with pockets — slipping on a banana peel while his henchmen facepalm.

Промты достаточно сильно отличались своим сюжетом от картинок использованных в датасете, но несмотря несвойственные моему стилю сюжету, в созданном изображении все еще отражается мой стиль

PROMPT: picture in KOMILLA style, cucumber with tomato / on plate.

Этот промт наоборот, по своему сюжету был достаточно близок к картинкам имевшимся в датасете, тем не менее сгенерированное изображение никак не повторяет датасет, а добавляет к нему новый взгляд!

Именно такой подход может быть полезен художникам при создании набросков.

Picture in KOMILLA style, A cozy kitchen

Picture in KOMILLA style, sunflower girl

Original size 4291x1024

PROMOPT: Picture in KOMILLA style, A mystical elf warrior standing in a moonlit forest, wearing ornate armor with floral patterns. vibrant colors, dreamy atmosphere

Original size 1024x1024

PROMPT: picture in KOMILLA style, tokio night city without human

Итоговые изображения генерировались с целью исследования вариативности изображений, которые нейросеть способна воссоздать не отходя от стиля, при достаточно небольшом датасете.

Важно было сохранить стилистические особенности в изображении персонажей: большая голова, полукруглые глаза, острый подбородок, астеническое телосложение.

работа с кодом

Original size 1255x368

установка зависимостей

Переносим датасет в kom папку. Инициализируем функцию для отображения изображений.

Original size 560x505
Original size 1240x494

Просмотр датасета (первые 5 изображений)

Для датасета было собрано 28 кадров из нескольких моих рисованных анимаций. Каждая работа отражает особенности моего стиля (черный контур, острый нос, фиолетовые цвета), что очень важно для обучении нейросети.

Генерируем описание к изображению

Original size 1159x382
Original size 731x132
Original size 633x193

Ставим обучаться на 500 шагов, с сохранением каждые 250 шагов.

Original size 680x452

Фрагмент кода. Обучение.

модель использованная для до-обучения: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

энкодер модели: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

помощь при составлении промптов: https://www.deepseek.com/

блокнот с кодом: https://disk.yandex.ru/d/9csQ3JXoaa6JZQ

диск с датасетом: https://disk.yandex.ru/d/nq8NDAZc_1fjqw

Обучение генеративной нейросети под собственный стиль
48
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more