
Вводная часть
Я пользовался сайтом kaggle.com, чтобы собрать как можно больше информации о фильмах Marvel и их персонажей. Для аналитики выбрал оценку фильмов критиками, мировые кассовые сборы, оценки зрителей, упоминаемость героев в фильмах, сериалах и комиксах, супер способности героев. Мне это стало интересно, потому что мне нравятся фильмы от Marvel, хотелось бы узнать как кассовые сборы связаны с теми или иными персонажами.
Для визуализации я данных я стал применять столбчатые, точечные, круговые, линейные и линейчатые диаграммы. Столбчатые и линейные диаграммы хорошо покажут зависимость между двумя типами данных. Круговые покажут сравнение одного и того же типа данных в зависимости от повторяемости, например, популярность суперспособностей героев. Линейчатые лучше изобразят динамику, например, кассовые сборы. Точечный график хорошо продемонстрирует оценку зрителей.
Этапы работы
Для оформления данных я использовал классический набор цветовой палитры Marvel. HEX: #e23636б, #000000б, #504a4аб, #518cca, #f78f3f. Этот яркий цвет хорошо связан со стилем студии. Взял эту цветовую палитру на сайте color-hex.com. Также я выбрал жирный шрифт из библиотеки Matplotlib.
Для написания кода я пользовался Chat GPT. Туда же я загружал табличные данные для последующего анализа. Так как было сложно пытаться комбинировать собранную информацию, я также пользовался Google Collab для получения с помощью ИИ ошибок при составления кода. Для создания красивых картинок, референсов, текстуры и графики я пользовался Midjourney.
Для фона графиков я пользовался цветом HEX: #e23636б. На заднем фоне была нарисована еле заметная текстура, напоминающая патину Человека-паука.
Структура кода на примере линейчатой диаграммы
Задаем пути к файлам. Указываем пути к двум CSV-файлам: один с оценками фильмов Marvel, другой с данными о кассовых сборах. Импортируем необходимые библиотеки. Pandas используется для работы с табличными данными, Matplotlib — для создания визуализаций, Numpy — для выполнения математических операций, например, для расчетов с углами. Загружаем данные из двух файлов: данные с оценками фильмов и с кассовыми сборами. Преобразуем буквенные оценки в числовые значения. Создаем функцию для преобразования оценок (A, B, C и т. д.) в числовой формат. Это позволит нам упорядочивать фильмы и находить топовые по рейтингу.
Добавляем в данные новую колонку, где буквенные оценки преобразованы в числовой формат. Находим топ-10 фильмов с самыми высокими оценками. Используем сортировку по числовым оценкам и выбираем 10 фильмов с наивысшими рейтингами. Выбираем из данных о сборах только названия фильмов и их мировые сборы, а затем устанавливаем название фильма как индекс. Устанавливаем одинаковый индекс для объединения. Заменяем индекс в данных с оценками на названия фильмов, чтобы можно было соединить таблицы. Соединяем данные о фильмах с оценками и их кассовыми сборами по индексу. Используем метод inner join, чтобы оставить только фильмы, которые есть в обоих наборах данных. Настраиваем цветовую схему. Задаем цвета для элементов графика, включая фон, заголовки, сетку и столбцы. Задаем размер фигуры и получаем доступ к системе координат для добавления элементов, таких как паутина.
Рисуем концентрические круги и радиальные линии, создавая декоративный эффект паутины. Рисуем два набора столбцов: для оценок фильмов и для кассовых сборов (в миллионах долларов). Подписываем каждый столбец с кассовыми сборами, указывая суммы в миллионах долларов.
Устанавливаем общий цвет фона для всей фигуры, синхронизируя стилистику графика. Показываем финальную визуализацию, иллюстрирующую связь между рейтингами фильмов и их кассовыми сборами.
Самые оценённые фильмы от Marvel
Линейчатый график самых высоко оцененных фильмов критиками по шкале A — D (меньше 1 — оценка -D)
Связь оценки критиков с кассовыми сборами фильмов от Marvel
График связи между оценкой фильма критиками и кассовыми сборами в мире
Связь оценки зрителей с кассовыми сборами трёх самых прибыльных фильмов от Marvel
Самые популярные суперспособности героев
Самые популярные способности героев
Самые встречающиеся персонажи Marvel
Топ 10 самых популярных персонажей Marvel
Выводы
Самые хорошо оцененные фильмы критиками и простыми зрителями оказались из серии Мстителей. Они же являются самыми кассовыми, что по факту подтверждает связь оценок этих двух аудиторий.
Удивительно, что самые часто встречающиеся супер способности героев не связаны с какими-то особенными качествами, например, умение пускать паутину, видеть сквозь стены, телепатия… По сути у героев три важных качества, которые должны быть почти у всех: сверх выносливость, скорость и долговечность.
Ещё более удивительным оказался тот факт, что самые часто встречающиеся персонажи комиксов на последнем графике почти никак не связаны с кассовыми сборами фильмов. Эти персонажи как минимум не встречались в фильмах вовсе, например Женщина-паук. И как максимум они бывали в серии Мстителей. Это все наводит на мысль, что вскоре данные персонажи будут экранизированы, поскольку они известны своей целевой аудитории и скорее всего они будут сняты сразу вместе, так подобная тактика съёмок хорошо зарекомендовала себя по кассовым сборам Мстителей.