Original size 1140x1600

Чувства, музыка, машина

PROTECT STATUS: not protected
6

Чувства, музыка, машина это серия сгенерированных картинок при помощи обученной нейросети Stable Diffusion XL.

Я обучала нейросеть своим работам за последние три года. Долго думала над концепцией в итоге пришла к тому, что хочу совместить два своих любимых занятия в этом проекте: рисование и музыку. Стало интересно как будет работать тандем чувственного человеческого и машинного бесчувственного.

Любопытно было, как нейросеть, используя мой стиль рисования, интерпретирует названия моих любимых песен.

В промпте также прописывала чувства, которые вызывала каждая из песен.

Некоторые из моих работ, которые использовались в обучении

big
Original size 1024x1024
big
Original size 1024x1024
Original size 1024x1024
Original size 1024x1024
Original size 1024x1024

Так как я рисую преимущественно людей, большая часть работ, по которым училась нейросеть была без проработанных фонов. Из-за этого в последствии возникали некоторые трудности с генерацией картинок. К этому нюансу вернемся немного позже.

Пробы

Сначала я решила посмотреть какие картинки получаются в принципе при генерации с помощью этой машины. Задавала какие-то односложные промпты без уточнений.

Original size 1024x1024

Изображение, сгенерированное нейросетью

В целом нейросеть уловила моменты моего стиля. где-то небрежные мазки и лайн, плоские заливки. Цветовые решения так же похожи на картинки, которые были приложены для обучения.

Original size 1024x1024

Изображение, сгенерированное нейросетью

Original size 1024x1024

Изображение, сгенерированное нейросетью

Абстрактные сюжеты

Я решила посмотреть, на что будет делать уклон генерация, если я буду задавать размытые описания с акцентами на эмоциональное состояние: радость, гнев, печаль, другие. Добавляла в некоторых случая ассоциативные уточнения, например, острый к гневу или круглый к счастью. В некоторых случаях получить, нечто абстрактное удалась на ура, в других же генерация стала вырисовывать какие-то человекоподобные элементы.

0

Изображения, сгенерированное нейросетью

Пейзажи

С пейзажами ситуация обстояла сложнее. При генерации так и всплывали образы людей, очень часто приходилось прописывать дважды БЕЗ ЛЮДЕЙ. В таком случае получалось сгенерировать изображение пейзажа.

0

Изображение, сгенерированное нейросетью

Предметы

Отдельные изображения предметов выходили прикольными, но еще меньше были похожи, на мою рисовку. Опять же, думаю, что проблема в первоисточнике с моими рисунками людей.

0

Изображения, сгенерированное нейросетью

Забавное изображение наушников с глазками получилось, хотя в промпте я написала только слово «наушники». Круто, что нейросеть подметила мой прикол добавлять всему глазки.

Original size 1024x1024

Изображение, сгенерированное нейросетью

В некоторых генерациях так и не получилось избавиться от наличия человеческих фигур.

0

Изображения, сгенерированное нейросетью

Животные

Некоторые отдельные изображения животных: собака, лошадь и кот.

Original size 1024x1024

Изображение, сгенерированное нейросетью

Original size 1024x1024

Изображение, сгенерированное нейросетью

Original size 1024x1024

Изображение, сгенерированное нейросетью

Люди

После всех проб я убедилась, что все же люди получаются интереснее всего, поэкспериментировала с генерацией людей еще немного.

Original size 1024x1024

Изображение, сгенерированное нейросетью

Original size 1024x1024

Изображение, сгенерированное нейросетью

Original size 1024x1024

Изображение, сгенерированное нейросетью

Далее я приступила к генерации картинок, используя исключительно название различных песен.

Original size 1024x1024

Изображение, сгенерированное нейросетью

Original size 1024x1024

Изображение, сгенерированное нейросетью

Original size 1024x1024

Изображение, сгенерированное нейросетью

Сюжеты получались слишком абстрактными и далекими от сюжета песен и моего чувственного восприятия. Я думала, думала и пришла к решению давать размытые описания в промптах плюс к названию песни. От этого нейросеть генерировала более близкие к настроению песен изображения, при том «полет фантазии» для нейросети оставался доступным. Случались очень неожиданные и интригующие сюжеты, далекие от идеально вылизанной картинки, но это меня и радовало.

Я дополняла промпты размытыми определениями такими как: энергичная, агрессивная, веселая, так далее. Иногда добавляла слова дополняющие настроение песни.

Сгенерированные изображения до (слева) и после (справа) уточнения промпта.

Изображения, сгенерированное нейросетью (песня: Snake Dance — March Violets)

Изображения, сгенерированное нейросетью (песня: Sorry for Party Rocking — LMFAO)

Изображения, сгенерированное нейросетью (песня: Minus — ohGr)

Изображения, сгенерированное нейросетью (песня: Ghost Train — Gorillas)

Изображения, сгенерированное нейросетью (песня: The Night — The Moody Blues)

Изображения, сгенерированное нейросетью (песня: Just Another Day — OINGO BOINGO)

Изображения, сгенерированное нейросетью (песня: Faust — Gorillas)

Изображения, сгенерированное нейросетью (песня: Heavy Games — Portugal. The Man)

Изображения, сгенерированное нейросетью (песня: Old Heroes Young Villains — Rabbit Junk)

Изображения, сгенерированное нейросетью (песня: The Mummers' Dance — Loreena McKennitt)

Изображения, сгенерированное нейросетью (песня: Run! — Valorant, Odertari, Lay Bankz)

После уточнения картинки стали более интересными наполненными сюжетно. Довольно любопытный опыт получился. Мое чувственное и механическое нейроночное сошлись в одном и создали необычные интересные изображения на первый взгляд, ничего не имеющее с первоисточником (названиями песен) и при том по настроению отдалено связанные с их названиями, да еще и в чем-то схожем по стилю с моими рисунками. Как инструмент генерация картинок штука забавная.

Ноутбук с кодом для обучения и генерации

Ход работы

Original size 1280x912

Скриншот из Google Collab

Сначала установила основные библиотеки. Затем установила diffusers прямо из репозитория GitHub. Скачала скрипт для обучения Dreambooth c Lora для SDXL (Stable Diffusion XL).

Затем занялась подготовкой данных. Создала директорию для хранения изображений. Загрузила изображения.

0

Скриншот из Google Collab

Отобразила первые 5 изображений.

Затем загрузила модель BLIP (Bootstrapped Language-Image Pretraining) для генерации текстовых описаний изображений. Создала функцию, которая принимает изображение и возвращает его описание.

Далее добавила префикс к описаниям, чтобы указать стиль, затем создала файл метаданных в формате JSONL.

Затем удалила модель BLIP т. к. она больше не нужна, чтобы оптимизировать память GPU.

0

Скриншот из Google Collab

Настроила кодировку и конфигурировала асcelerate для распределенного обучения. Затем мне нужно было авторизироваться в Hugging Face Hub.

Запустила обучение.

Создала репозиторий Hugging Face Hub и сохранила карточку с информацией об обучении. Затем загрузила все модели уже в сам репозиторий. Ну и дело осталось за сладким.

Original size 1280x912

Скриншот из Google Collab

Приступила к генерации картинок.

Применения генеративной модели

Stable Diffusion — обучение модели для генерации изображений в стиле моих рисунков.

BLIP — генерация промптов к исходным компонентам датасета.

Библиотека с моими рисунками по которым училась нейросеть.

Чувства, музыка, машина
6
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more