
Концепция
Проект посвящён созданию кастомной нейросети на базе Stable Diffusion XL для генерации изображений в стилистике игры The Walking Dead от Telltale Games. Основой послужила визуальная эстетика игры, вдохновлённая комиксами: грубые контуры, выразительная штриховка, ограниченная палитра, мягкие тени для создания объёма и акцент на эмоциональной выразительности глаз персонажей.
Модель обучается на специально собранном датасете квадратных изображений, отражающих визуальные особенности этой стилистики, включая постапокалиптическую атмосферу — с грязью, повреждениями и мрачной средой. Цель — получить инструмент, способный генерировать оригинальные сцены и персонажей в духе игры, сохраняя её уникальное сочетание комиксовой графики и реализма.
Создание датасета
Для начала я собрала 217 скриншотов из всех частей игры The Walking Dead от Telltale Games, чтобы обеспечить нейросеть разнообразным и репрезентативным визуальным материалом. Все изображения были приведены к квадратному формату 512×512 пикселей непосредственно в Google Colab, что позволило сразу подготовить их к обучению модели.

Скриншоты из серии игр The Walking Dead
Подготовка
Для обучения я использовала метод DreamBooth с LoRA-адаптацией — он позволяет эффективно дообучать модель даже при ограниченных ресурсах видеопамяти (VRAM).
Создание метаданных для обучения
Для корректной работы модели Stable Diffusion необходимо, чтобы каждое изображение сопровождалось текстовым описанием, помогающим нейросети лучше улавливать визуальные особенности стиля. С этой целью формируется специальный файл metadata.jsonl, в который для каждого изображения добавляется подпись, составленная из заданного префикса и автоматически сгенерированного текста.
Подключение к HuggingFace
Чтобы получить доступ к ресурсам на Hugging Face, я инициировала авторизацию через функцию notebook_login (). После ввода персонального API-ключа стала доступна загрузка моделей и датасетов, необходимых для процесса обучения.
Обучение модели
Сохранение модели
Загрузка модели на Hugging Face начинается с определения имени пользователя с помощью токена. Затем автоматически формируется уникальное название репозитория, в который сохраняются результаты обучения и сама модель.
Работа с моделью
Активирую VAE, загружаю Stable Diffusion XL в формате float16 и указываю репозиторий с LoRA-весами, чтобы модель могла работать в требуемом стиле. Затем переношу всё на графический процессор для ускорения генерации изображений и оптимизации использования памяти.
Результаты генерации
prompt = «close-up of a young man with fire reflected in his eyes, expression of shock and anger, light from flames on face, dark surroundings, in The Walking Dead art style.»
После обучения нейросеть смогла приблизиться к визуальному стилю, характерному для The Walking Dead. В сгенерированных изображениях проявляется «рисованная» графика с чёткими контурами, контрастными цветами и грубыми тенями, что приближает их к атмосфере оригинальной игры.
1. prompt = «a zombie standing still in a foggy field, its face resembles someone familiar, staring blankly at the camera, surrounded by silence and tall grass, in The Walking Dead art style.» 2. prompt = «makeshift surgery in an abandoned hospital room, dirty tools, flashlight illumination, tense expressions, in The Walking Dead art style.»
На мой взгляд, большим достижением стало то, что нейросеть смогла передать сложные эмоции, которые я закладывала в изображения. Например, зомби в поле, увидевший кого-то родного, что придаёт сцене трагизм и эмоциональную глубину.
1. prompt = «a hand-drawn map on the floor, with blood drops on it, a compass and flashlight lying next to it, the camera looking from above, in The Walking Dead art style.» 2. prompt = «a handwritten message on a wall saying „we tried“ next to blood stains and arrows, in The Walking Dead art style.»
Нейросеть хорошо справилась с созданием антуража, однако с текстом возникли проблемы, и она не смогла создать его должным образом.
1. prompt = «a man pointing a gun with trembling hands at his infected best friend, who kneels in front of him with a sad smile, both covered in dirt and blood, in The Walking Dead art style.» 2. prompt = «a group of survivors speeding away in an old car, zombies chasing behind, broken road ahead, the driver crying silently, golden hour lighting, in The Walking Dead art style.»
prompt = «a fierce woman covered in dirt and blood, standing on top of an overturned car with a machete in her hand, fighting off a horde of zombies at sunset, her face determined, clothes torn.»
Динамичные сцены, такие как атаки зомби, погони и битвы, оказались сложными для обученной модели. Видны недостатки в анатомии персонажей, что связано с ограниченным количеством обучающих изображений, не позволивших модели полностью освоить сложные структуры.
1. prompt = «a tense man yelling while pointing at someone off-frame, blood on face, torn clothes, intense tension, abandoned building, in The Walking Dead art style.» 2. prompt = «a group of zombies stumbling through a storm, strong wind and rain blurring their features, flashes of lightning revealing details, in The Walking Dead art style.»
prompt = «a girl with messy hair and a backpack, walking alone through the ruins, pistol in hand, face dirty and angry, in The Walking Dead art style.»
1. prompt = «a man kneeling by a handmade grave in a field, sunrise in background, in The Walking Dead art style.» 2. prompt = «a man kneeling near a burning radio transmitter, night scene, tears in his eyes, flames reflecting in his face, emotional moment, in The Walking Dead art style.»
prompt = «close-up of a young man with fire reflected in his eyes, expression of shock and anger, light from flames on face, dark surroundings, in The Walking Dead art style.»
Модель отлично справилась с изображением лиц, точно передавая атмосферу комикса и характерную штриховку.
Вывод
Обученная модель успешно передала стиль The Walking Dead, включая жирные контуры, ограниченную палитру и грубые тени. Однако, из-за небольшого объема датасета, появились некоторые артефакты, например, ошибки в анатомии и деталях динамичных сцен. Для улучшения качества потребуется больше изображений для обучения. В целом, модель хорошо передала атмосферу и общий стиль.
Описание применения генеративной модели
ChatGPT был использован для помощи в отладке кода и устранении ошибок. Кроме того, он помог создать более детализированные промпты.