Original size 512x768

Обучение генеративной нейросети под стиль видеоигры The Walking Dead

Концепция

Проект посвящён созданию кастомной нейросети на базе Stable Diffusion XL для генерации изображений в стилистике игры The Walking Dead от Telltale Games. Основой послужила визуальная эстетика игры, вдохновлённая комиксами: грубые контуры, выразительная штриховка, ограниченная палитра, мягкие тени для создания объёма и акцент на эмоциональной выразительности глаз персонажей.

Модель обучается на специально собранном датасете квадратных изображений, отражающих визуальные особенности этой стилистики, включая постапокалиптическую атмосферу — с грязью, повреждениями и мрачной средой. Цель — получить инструмент, способный генерировать оригинальные сцены и персонажей в духе игры, сохраняя её уникальное сочетание комиксовой графики и реализма.

Создание датасета

Для начала я собрала 217 скриншотов из всех частей игры The Walking Dead от Telltale Games, чтобы обеспечить нейросеть разнообразным и репрезентативным визуальным материалом. Все изображения были приведены к квадратному формату 512×512 пикселей непосредственно в Google Colab, что позволило сразу подготовить их к обучению модели.

Original size 1000x1000

Скриншоты из серии игр The Walking Dead

Подготовка

Для обучения я использовала метод DreamBooth с LoRA-адаптацией — он позволяет эффективно дообучать модель даже при ограниченных ресурсах видеопамяти (VRAM).

Original size 1182x292

Original size 1233x463

Создание метаданных для обучения

Для корректной работы модели Stable Diffusion необходимо, чтобы каждое изображение сопровождалось текстовым описанием, помогающим нейросети лучше улавливать визуальные особенности стиля. С этой целью формируется специальный файл metadata.jsonl, в который для каждого изображения добавляется подпись, составленная из заданного префикса и автоматически сгенерированного текста.

Original size 1233x463

Подключение к HuggingFace

Чтобы получить доступ к ресурсам на Hugging Face, я инициировала авторизацию через функцию notebook_login (). После ввода персонального API-ключа стала доступна загрузка моделей и датасетов, необходимых для процесса обучения.

Original size 776x503

Обучение модели

Original size 808x515

Сохранение модели

Original size 1823x152

Загрузка модели на Hugging Face начинается с определения имени пользователя с помощью токена. Затем автоматически формируется уникальное название репозитория, в который сохраняются результаты обучения и сама модель.

Original size 588x570

Работа с моделью

Активирую VAE, загружаю Stable Diffusion XL в формате float16 и указываю репозиторий с LoRA-весами, чтобы модель могла работать в требуемом стиле. Затем переношу всё на графический процессор для ускорения генерации изображений и оптимизации использования памяти.

Original size 1337x455

Результаты генерации

Original size 1024x1024

prompt = «close-up of a young man with fire reflected in his eyes, expression of shock and anger, light from flames on face, dark surroundings, in The Walking Dead art style.»

После обучения нейросеть смогла приблизиться к визуальному стилю, характерному для The Walking Dead. В сгенерированных изображениях проявляется «рисованная» графика с чёткими контурами, контрастными цветами и грубыми тенями, что приближает их к атмосфере оригинальной игры.

Original size 2048x1024

1. prompt = «a zombie standing still in a foggy field, its face resembles someone familiar, staring blankly at the camera, surrounded by silence and tall grass, in The Walking Dead art style.» 2. prompt = «makeshift surgery in an abandoned hospital room, dirty tools, flashlight illumination, tense expressions, in The Walking Dead art style.»

На мой взгляд, большим достижением стало то, что нейросеть смогла передать сложные эмоции, которые я закладывала в изображения. Например, зомби в поле, увидевший кого-то родного, что придаёт сцене трагизм и эмоциональную глубину.

Original size 2048x1024

1. prompt = «a hand-drawn map on the floor, with blood drops on it, a compass and flashlight lying next to it, the camera looking from above, in The Walking Dead art style.» 2. prompt = «a handwritten message on a wall saying „we tried“ next to blood stains and arrows, in The Walking Dead art style.»

Нейросеть хорошо справилась с созданием антуража, однако с текстом возникли проблемы, и она не смогла создать его должным образом.

Original size 2048x1024

1. prompt = «a man pointing a gun with trembling hands at his infected best friend, who kneels in front of him with a sad smile, both covered in dirt and blood, in The Walking Dead art style.» 2. prompt = «a group of survivors speeding away in an old car, zombies chasing behind, broken road ahead, the driver crying silently, golden hour lighting, in The Walking Dead art style.»

Original size 1024x1024

prompt = «a fierce woman covered in dirt and blood, standing on top of an overturned car with a machete in her hand, fighting off a horde of zombies at sunset, her face determined, clothes torn.»

Динамичные сцены, такие как атаки зомби, погони и битвы, оказались сложными для обученной модели. Видны недостатки в анатомии персонажей, что связано с ограниченным количеством обучающих изображений, не позволивших модели полностью освоить сложные структуры.

Original size 2048x1024

1. prompt = «a tense man yelling while pointing at someone off-frame, blood on face, torn clothes, intense tension, abandoned building, in The Walking Dead art style.» 2. prompt = «a group of zombies stumbling through a storm, strong wind and rain blurring their features, flashes of lightning revealing details, in The Walking Dead art style.»

Original size 1024x1024

prompt = «a girl with messy hair and a backpack, walking alone through the ruins, pistol in hand, face dirty and angry, in The Walking Dead art style.»

Original size 2048x1024

1. prompt = «a man kneeling by a handmade grave in a field, sunrise in background, in The Walking Dead art style.» 2. prompt = «a man kneeling near a burning radio transmitter, night scene, tears in his eyes, flames reflecting in his face, emotional moment, in The Walking Dead art style.»

Original size 512x768

prompt = «close-up of a young man with fire reflected in his eyes, expression of shock and anger, light from flames on face, dark surroundings, in The Walking Dead art style.»

Модель отлично справилась с изображением лиц, точно передавая атмосферу комикса и характерную штриховку.

Вывод

Обученная модель успешно передала стиль The Walking Dead, включая жирные контуры, ограниченную палитру и грубые тени. Однако, из-за небольшого объема датасета, появились некоторые артефакты, например, ошибки в анатомии и деталях динамичных сцен. Для улучшения качества потребуется больше изображений для обучения. В целом, модель хорошо передала атмосферу и общий стиль.

Описание применения генеративной модели

ChatGPT был использован для помощи в отладке кода и устранении ошибок. Кроме того, он помог создать более детализированные промпты.

Ноутбук с кодом и датасет

Обучение генеративной нейросети под стиль видеоигры The Walking Dead

Dinara Gafina

artificial intelligence

neural network

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...