
Концепция
В своём проекте я решила исследовать, как нейросеть справляется с созданием иллюстративных персонажей, передавая их характер, эмоции и стиль. В качестве основы я выбрала трёх медведей — белого, бурого и панду — из мультфильма «Вся правда о медведях» (We Bare Bears). Мне было интересно, сможет ли алгоритм не просто нарисовать их внешность, но и показать их индивидуальность, привычки, мимику и взаимодействие друг с другом.
Я собрала визуальные материалы, вдохновлённые мультфильмом, и обучила модель на примерах сцен с этими героями. Я обращала внимание на форму, цветовую палитру, позы, выражения лиц и простую, но выразительную анимационную стилистику.
Мне было важно понять, может ли нейросеть не просто копировать стиль оригинала, а по-настоящему передать атмосферу мультфильма и ту «живость», за которую зрители любят этих персонажей.
Исходные данные

Кадры из собранного датасета
Код
В рамках проекта используется метод дообучения модели изображений — DreamBooth-LoRA — поверх генеративной нейросети Stable Diffusion. Этот подход позволяет адаптировать нейросеть под конкретный визуальный стиль или образы, сохраняя при этом качество и разнообразие генерации. Для обучения используется датасет из 83 картинок, полученных из мультсериала «Вся правда о медведях» и методы эффективной адаптации (LoRA).

К каждому изображению из датасета генерируется индивидуальная подпись. Полученные метаданные сохраняются в metadata.jsonl.
После завершения операции, стало понятно, что нейросеть верно распознает кадры из мультика, что говорит о корректной работе кода.
В качестве основы берётся предобученная модель stable-diffusion-xl-base-1.0, разработанная командой Stability AI. Для улучшения качества изображений дополнительно используется VAE (вариационный автокодировщик) — madebyollin/sdxl-vae-fp16-fix, который обеспечивает более точную реконструкцию деталей при генерации.
Обучение проводится с использованием следующих ключевых параметров:
• Разрешение изображений: 512×512 пикселей • Размер батча: 2 изображения • Скорость обучения (learning rate): 1e-4 • Максимальное число шагов обучения: 500 • Оптимизатор: Adam с 8-битной точностью • Формат чисел: FP16 (снижение потребления памяти и ускорение обучения)
Такой подход позволяет эффективно дообучить модель на небольшом датасете, при этом сохранив стабильность генерации и выразительность образов. Использование LoRA значительно снижает требования к ресурсам и ускоряет процесс обучения, делая его более доступным.
После окончания обучения модель загружается на платформу Hugging Face с помощью функции upload_folder (), которая отправляет все файлы из указанной папки с результатами. Перед этим создаётся карточка модели (модельная документация), содержащая основную информацию о параметрах обучения. Это делается через функцию save_model_card () — в неё передаётся информация о базовой модели (stable-diffusion-xl-base-1.0), используемом VAE (madebyollin/sdxl-vae-fp16-fix), текстовом промте, а также другие настройки, например, отключение дообучения текстового энкодера.
Таким образом, благодаря этим функциям, весь процесс публикации модели становится автоматизированным: создаётся репозиторий, сохраняется карточка модели с описанием, и финальная версия модели отправляется в облачное хранилище Hugging Face.
После завершения обучения LoRA-модификации модели, она загружается и используется для генерации изображений с помощью DiffusionPipeline. В коде задаётся текстовый промпт, например: «cartoon in the style of We Bare Bears, White bear working as a barista in a tiny coffee shop, pouring latte art with precision, calm expression.» — этот запрос описывает конкретную сцену в мультяшном стиле по мотивам мультсериала «Вся правда о медведях».
Для генерации изображения используется pipe (prompt=…, num_inference_steps=100). При этом inference идёт в формате FP16, что ускоряет процесс и экономит видеопамять. Из полученного результата выбирается первое изображение: .images[0].
Такой подход позволяет гибко создавать сцены с любыми персонажами и сюжетами, используя уже дообученную на нужном стиле модель.
Результат
В итоговой серии изображений демонстрируется способность нейросети не только точно воспроизводить визуальный стиль мультсериала «Вся правда о медведях», но и органично встраивать персонажей в разнообразные повседневные и фантазийные сцены. Генеративные изображения сохраняют ключевые элементы оригинального стиля — мягкую палитру, округлые формы, выразительную мимику и уютную атмосферу.
Более того, нейросеть уверенно оперирует характерными деталями: интерьеры, реквизит и композиции создаются с такой точностью, что результат визуально почти неотличим от оригинальных сцен. Алгоритм не только имитирует стиль, но и вносит творческий вклад — создавая ситуации, которых не было в мультсериале, при этом полностью сохраняя его дух.
Начальная фраза всех промтов: Cartoon in the style of We Bare Bears.


panda bear working as a barista, holding a cup, cozy coffee shop background // three bears sitting on the floor reading books, warm home atmosphere
white bear calmly reading a book, minimalistic background


grizzly and panda bear watching TV with popcorn, cozy evening // grizzly bear skateboarding downhill, excited expression
Модель отлично справляется с генерацией как одиночных портретов, так и сложных композиций с несколькими персонажами. Стиль, эмоции, антураж и характеры переданы точно и последовательно. Особенно хорошо реализованы сцены с взаимодействием между медведями — они выглядят натурально и сюжетно завершёнными.
grizzly bear filming with a camera on tripod, home setup // white bear as a chef standing in money rain, dramatic scene // panda bear relaxing with a laptop in armchair, homey setup


all three bears in a colorful van on a road trip, nature background // panda bear in a bubble bath with rubber ducks, playful mood
Несмотря на общее довольно хорошее качество генераций, детали, вроде лап и глаз, требовали дополнительного внимания — как при составлении датасета, так и в подборе удачных промптов. Часто лапы выходили с неправильной формой — либо слишком вытянутыми, либо с неестественным количеством пальцев, а глаза могли съезжать с привычных пропорций или располагаться асимметрично — особенно у панды, где чёрные круги вокруг глаз часто искажались.
Все итоговые изображения
Заключение
В ходе проекта мне удалось исследовать, насколько хорошо нейросетевая модель способна воспроизводить стилистику и характер мультяшных персонажей, используя дообучение на примере героев из мультсериала «Вся правда о медведях».
Особое внимание уделялось не только визуальному сходству, но и передаче характеров героев — их мимики, привычных ролей и типичных взаимодействий. Благодаря этому результат получился живым и убедительным: групповые сцены передают атмосферу оригинального сюжета, а одиночные образы — раскрывают индивидуальность каждого персонажа.
В целом, проект подтвердил, что нейросеть может не только стилизовать изображения под заданную эстетику, но и сохранить анимационную идентичность, создавая узнаваемые, выразительные и харизматичные визуальные сцены.
Описание применения генеративной модели
Была использована модель для обучения и создания изображений Stable Diffusion. Для генерации промтов и помощи при возникших ошибках GPT-4o mini.