Original size 1748x2480

Городские каникулы райской птички // Обучение генеративной нейросети

PROTECT STATUS: not protected

Концепция

Райская птица Уилсона — яркая и редкая птичка, находящаяся под угрозой исчезновения. Является эндемиком и проживает исключительно на двух островах Юго-Западного Папуа. В проекте я представила, как могли бы выглядеть каникулы этой райской птицы, очутись она в Москве.

big
Original size 3466x657

Пример изображений из датасета

Для этого я обучила модель на основе Stable-diffusion-xl-base-1.0. Фокус моего проекта направлен на генерацию самой райской птицы Уилсона, а не города, который служит лишь декорациями. Поэтому в качестве базы данных я собрала квадратные фотографии этой птицы. Я старалась подбирать разные ракурсы, чтобы «дать полное представление» нейросети о внешнем облике генерируемого объекта.

Процесс обучения

Для начала я подготовила все для работы, установив необходимые библиотеки и скрипт для тренировки модели.

big
Original size 1822x119

Далее я загрузила базу изображений в директорию, которую нейросеть будет использовать для обучения, а также проверила, что изображения открываются правильно.

big
Original size 3478x2318

Я загрузила модель и добавила префикс, чтобы создать собственный промпт.

Original size 3478x1790

Префикс: a photo of TOK bird of paradise

После я зарегистрировалась на HuggingFace, получила токен и внесла его в Collab. Загрузила необходимые библиотеки, дала название своей модели и начала обучение.

Original size 3478x4207

Название модели: bird_of_paradise_LoRA

Модель готова, можно начинать генерировать изображения, используя ранее созданный префикс!

Результирующая серия изображений

Я выделила несколько особенностей райской птицы Уилсона, которые хотела передать с помощью модели: 1. Черное или коричневое туловище с яркими цветными пятнами 2. Небольшой размер птицы 3. Длинный раздвоенный хвост

На фоне достопримечательности

Для начала мне хотелось создать типичную туристическую фотографию на фоне достопримечательности, для чего после префикса я указала «the backdrop features historic buildings of Moscow». В качестве исторического здания ИИ выбрал собор Василия Блаженного.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, the backdrop features historic buildings of Moscow

Модель достаточно точно передала внешность птицы, сохранив ее окрас (черное туловище с яркими цветными пятнами), небольшой размер самой птицы, длинный раздвоенный хвост.

Original size 3424x1689

Промпт: a photo of TOK bird of paradise, the backdrop features historic buildings of Moscow

Другие генерации по этому же промпту также показали неплохие результаты по передаче самой птицы, хотя не обошлось и без артефактов в виде слишком большого количества лап и исчезающей посередине ветки. Цвета стали ярче, сделав изображения более жизнерадостными.

В компании друзей

Мне было интересно посмотреть, сможет ли нейросеть изобразить несколько птиц за раз. В Москве, как и в любом городе, часто можно наблюдать стаи птиц, сидящие на проводах.

Промпт: a photo of TOK bird of paradise, a lot of them sitting on the wires, cars are passing below

Часть с проезжающими под проводами машинами ИИ почему-то проигнорировал, однако самих птиц изобразил достаточно достоверно. Хорошо передалась окраска, однако на изображении слева мордочки птиц сгенерировались с артефактами. Я сделала еще одну вариацию этого изображения (справа), перезапустив ячейку. Окрас также передался верно, однако хвосты были сгенерированы не совсем точно, так как не у всех птиц они получились раздвоенными.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, a lot of them sitting on the wires, cars are passing below

С новым знакомым

Далее мне хотелось представить, что райская птичка могла бы подружиться с кем-то из жителей Москвы. Дети любят кормить птиц, и я предположила, что маленькая девочка могла бы поладить с экзотической птицей.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, sitting on the hand of a small girl, background features Moscow

Модель предпочла сделать это изображение в чб, однако и тут видно, что расположение цветного оперения похоже на референсные фото. Странно сгенерировался клюв — почему-то он состоит из 3 частей, однако сама его форма и длина верные. Интересно, что модель изобразила девочку в платье, узором и кроем напоминающем русский сарафан, так что можно считать, что наш персонаж успешно интегрировался в местное общество.

Original size 3424x1689

Промпт: a photo of TOK bird of paradise, sitting on the hand of a girl, background features Moscow

До этой генерации я не уточняла возраст девочки, а писала в промпте просто «girl». В ответ модель выдала мне девушек и взрослых женщин, сгенерированных с артефактами, однако райские птицы получились вполне достоверными.

Сувенир

Многие туристы, приезжая в Москву из других стран, покупают на память шапку-ушанку. Я решила представить, что и райская птичка Уилсона могла бы приобрести в городе такой сувенир.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, wearing an ushanka hat

Интересной мне показалась генерация, где ИИ нарядил птицу в куртку в дополнение к шапке-ушанке.

Original size 3424x1113

Промпт: a photo of TOK bird of paradise, wearing an ushanka hat

Я перезапускала ячейку несколько раз, получая новые изображения по тому же запросу. На последующих генерациях туловище оказалось выполнено похоже, однако хвост был коротковат.

Вывод

Модель хорошо справилась с окрасом и размером птицы, хвост же оказался для нее трудноватым в генерации. Тем не менее птица всегда оставалась узнаваемой и похожей на референсные фотографии.

Описание применения генеративной модели

Stable Diffusion  — генеративная нейросеть, на основе которой была создана модель Chat GPT — использовался для устранения ошибок в коде

Городские каникулы райской птички // Обучение генеративной нейросети
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more