
Концепция
В рамках курса «Создание инфраструктуры креативного производства инструментами ИИ» я занимался дообучением генеративной модели Stable Diffusion для создания изображений несуществующих мобов из игры «Minecraft».
Уже много лет разработчики «майнкрафта» выпускают обновления для игры, добавляя новые предметы и необычных существ. Разработчики также проводили «голосование за мобов», в котором игроки сами решали, какие мобы попадут в игру, а какие нет.
Я подумал, что будет интересно натренировать генератор мобов, который использует ИИ для создания изображений персонажей в фирменном стиле игры.

Я взял стандартизированные изображения мобов в три четверти с Minecraft Wiki, использовав скрипт в питоне чтобы корректировать их формат и фон.
Итоговые изображения генерировались в формате 512 на 512 пикселей.
Результаты

промпт: image of a minecraft mob, a magician in a purple outfit and cone hat
промпт: image of a minecraft mob, a magician in a purple outfit and cone hat
промпт: image of a minecraft mob, a rock gollem
промпт: image of a minecraft mob, a rock gollem
Анализ
Несмотря на низкое разрешение входных и выходных данных, нейросеть смогла воспроизвести стиль майнкрафт мобов. Генератор вполне можно использовать для создания собственных концептов для модов или будущих обновлений в игре.
Материалы
Ссылка на доску в гугл-коллаб:
https://colab.research.google.com/drive/1bOfOMf3YV3vTIHHz2NZImbJ7Y13Hxq-I?usp=sharing
В проекте я дообучал и применял для генерации изображений модель Stable Diffusion XL (SDXL) с DreamBooth и LoRA, ссылка на получившуюся модель: https://huggingface.co/NoSurname/minecraft_mobs_LoRA