
Концепция
Райская птица Уилсона — яркая и редкая птичка, находящаяся под угрозой исчезновения. Является эндемиком и проживает исключительно на двух островах Юго-Западного Папуа. В проекте я представила, как могли бы выглядеть каникулы этой райской птицы, очутись она в Москве.

Пример изображений из датасета
Для этого я обучила модель на основе Stable-diffusion-xl-base-1.0. Фокус моего проекта направлен на генерацию самой райской птицы Уилсона, а не города, который служит лишь декорациями. Поэтому в качестве базы данных я собрала квадратные фотографии этой птицы. Я старалась подбирать разные ракурсы, чтобы «дать полное представление» нейросети о внешнем облике генерируемого объекта.
Процесс обучения
Для начала я подготовила все для работы, установив необходимые библиотеки и скрипт для тренировки модели.

Далее я загрузила базу изображений в директорию, которую нейросеть будет использовать для обучения, а также проверила, что изображения открываются правильно.

Я загрузила модель и добавила префикс, чтобы создать собственный промпт.
Префикс: a photo of TOK bird of paradise
После я зарегистрировалась на HuggingFace, получила токен и внесла его в Collab. Загрузила необходимые библиотеки, дала название своей модели и начала обучение.
Название модели: bird_of_paradise_LoRA
Модель готова, можно начинать генерировать изображения, используя ранее созданный префикс!
Результирующая серия изображений
Я выделила несколько особенностей райской птицы Уилсона, которые хотела передать с помощью модели: 1. Черное или коричневое туловище с яркими цветными пятнами 2. Небольшой размер птицы 3. Длинный раздвоенный хвост
На фоне достопримечательности
Для начала мне хотелось создать типичную туристическую фотографию на фоне достопримечательности, для чего после префикса я указала «the backdrop features historic buildings of Moscow». В качестве исторического здания ИИ выбрал собор Василия Блаженного.
Промпт: a photo of TOK bird of paradise, the backdrop features historic buildings of Moscow
Модель достаточно точно передала внешность птицы, сохранив ее окрас (черное туловище с яркими цветными пятнами), небольшой размер самой птицы, длинный раздвоенный хвост.
Промпт: a photo of TOK bird of paradise, the backdrop features historic buildings of Moscow
Другие генерации по этому же промпту также показали неплохие результаты по передаче самой птицы, хотя не обошлось и без артефактов в виде слишком большого количества лап и исчезающей посередине ветки. Цвета стали ярче, сделав изображения более жизнерадостными.
В компании друзей
Мне было интересно посмотреть, сможет ли нейросеть изобразить несколько птиц за раз. В Москве, как и в любом городе, часто можно наблюдать стаи птиц, сидящие на проводах.


Промпт: a photo of TOK bird of paradise, a lot of them sitting on the wires, cars are passing below
Часть с проезжающими под проводами машинами ИИ почему-то проигнорировал, однако самих птиц изобразил достаточно достоверно. Хорошо передалась окраска, однако на изображении слева мордочки птиц сгенерировались с артефактами. Я сделала еще одну вариацию этого изображения (справа), перезапустив ячейку. Окрас также передался верно, однако хвосты были сгенерированы не совсем точно, так как не у всех птиц они получились раздвоенными.
Промпт: a photo of TOK bird of paradise, a lot of them sitting on the wires, cars are passing below
С новым знакомым
Далее мне хотелось представить, что райская птичка могла бы подружиться с кем-то из жителей Москвы. Дети любят кормить птиц, и я предположила, что маленькая девочка могла бы поладить с экзотической птицей.
Промпт: a photo of TOK bird of paradise, sitting on the hand of a small girl, background features Moscow
Модель предпочла сделать это изображение в чб, однако и тут видно, что расположение цветного оперения похоже на референсные фото. Странно сгенерировался клюв — почему-то он состоит из 3 частей, однако сама его форма и длина верные. Интересно, что модель изобразила девочку в платье, узором и кроем напоминающем русский сарафан, так что можно считать, что наш персонаж успешно интегрировался в местное общество.
Промпт: a photo of TOK bird of paradise, sitting on the hand of a girl, background features Moscow
До этой генерации я не уточняла возраст девочки, а писала в промпте просто «girl». В ответ модель выдала мне девушек и взрослых женщин, сгенерированных с артефактами, однако райские птицы получились вполне достоверными.
Сувенир
Многие туристы, приезжая в Москву из других стран, покупают на память шапку-ушанку. Я решила представить, что и райская птичка Уилсона могла бы приобрести в городе такой сувенир.
Промпт: a photo of TOK bird of paradise, wearing an ushanka hat
Интересной мне показалась генерация, где ИИ нарядил птицу в куртку в дополнение к шапке-ушанке.
Промпт: a photo of TOK bird of paradise, wearing an ushanka hat
Я перезапускала ячейку несколько раз, получая новые изображения по тому же запросу. На последующих генерациях туловище оказалось выполнено похоже, однако хвост был коротковат.
Вывод
Модель хорошо справилась с окрасом и размером птицы, хвост же оказался для нее трудноватым в генерации. Тем не менее птица всегда оставалась узнаваемой и похожей на референсные фотографии.
Описание применения генеративной модели
Stable Diffusion — генеративная нейросеть, на основе которой была создана модель Chat GPT — использовался для устранения ошибок в коде