В этом проекте проанализирован датасет о фильмах и сериалах Netflix. Цель исследования — понять, как менялся каталог Netflix за годы, какие жанры представлены сильнее всего, как распределена длительность фильмов и как различаются возрастные рейтинги. Анализ позволил увидеть долгосрочные тренды: рост производства контента после 2000-х годов, жанры с наибольшей представленностью, а также отличия между фильмами и сериалами по длительности и годам выпуска.
Внешний вид графиков вдохновлён эстетикой неонового свечения экранов — ощущением, будто данные подсвечены «голографическим» светом стриминговой платформы. Для оформления использована фиолетово-синяя палитра, напоминающая интерфейсы Netflix и ночные кадры городских экранов.
Для анализа использован открытый датасет Netflix Movies and TV Shows, содержащий: тип контента (Movie / TV Show), год выхода, длительность, жанры (несколько категорий), возрастной рейтинг, страну производства, описание.
Данные получены на платформе Kaggle. Для анализа были отобраны следующие признаки: тип контента, основной жанр, год релиза, длительность, рейтинг.
Для визуализации я использовала несколько типов графиков: столбчатые диаграммы, линейный график и гистограмму, тепловую карту, boxplotю Все графики оформлены в единой фиолетово-синей цветовой гамме, напоминающей неоновую «голографическую» инфографику.
Мудборд
Мудборд
Использование библиотек
В проекте использованы: pandas — чтение CSV-файла и обработка данных matplotlib.pyplot — построение графиков matplotlib.rcParams — настройка единого стиля seaborn — тепловая карта и boxplot numpy — работа с числовыми значениями
Обработка данных
В первоначальном датасете встречались пропуски и несоответствия форматов, поэтому перед анализом я удалила строки с отсутствующими значениями в ключевых признаках, удалила дубликаты по названию и типу, извлекла числовую длительность из строки, нашла основной жанр, преобразовала длительность сериалов в количественный формат. Также были созданы две выборки: только фильмы и только сериалы.
Визуализация
Фильмы и сериалы на Netflix. Столбчатая диаграмма
Фильмы и сериалы на Netflix. Столбчатая диаграмма. Диаграмма показывает распределение контента по двум крупным категориям. В датасете фильмов больше, чем сериалов, что отражает историческую структуру каталога Netflix.
Разбор кода: построение и стилизация диаграммы «Фильмы и сериалы». Подготовка данных: type_counts = df['type'].value_counts ()
Построение основы графика: plt.figure () type_counts.plot (kind='bar', color=[palette[0], palette[2]])
Заголовок графика: plt.title ('Распределение контента на Netflix: фильмы и сериалы')
Подписи осей: plt.xlabel ('Тип контента') plt.ylabel ('Количество тайтлов')
Сетка (grid): plt.grid (axis='y') mpl.rcParams['grid.color'] = '#4c1d95' mpl.rcParams['grid.linestyle'] = '--' mpl.rcParams['grid.alpha'] = 0.5
Настройка меток оси X: plt.xticks (rotation=0)
Автоматическая подгонка полей: plt.tight_layout ()
Визуализация: plt.show ()
Топ-10 жанров Netflix. Горизонтальная диаграмма
График демонстрирует жанры, которые чаще всего встречаются на платформе. Это позволяет увидеть основные направления контента, а также определить наиболее развитые категории.
Количество тайтлов по годам выхода. Линейный график
На графике виден рост числа релизов в начале XXI века. С 2015 года наблюдается резкое увеличение выпуска контента — период активного развития оригинальных проектов Netflix.
Анализ длительности фильмов показывает, что основная часть кинотеки Netflix состоит из фильмов длительностью 80–120 минут. Это стандартный формат массового кино, который доминирует в каталоге.
Возрастные рейтинги. Столбчатая диаграмма
Распределение возрастных рейтингов показывает ориентир Netflix на взрослую и подростковую аудиторию. Категории TV-MA и TV-14 встречаются чаще всего.
Heatmap: страны × тип контента
Тепловая карта показывает, какие страны производят больше всего фильмов и сериалов. США, Индия и Великобритания являются крупнейшими источниками контента.
Boxplot длительности фильмов по жанрам
Диаграмма помогает сравнить жанры по медианной длительности и посмотреть, какие жанры имеют большой разброс. Комедии — самые короткие, драмы — самые вариативные.
Описание применения генеративной модели
Для работы были использованы изображения, созданные в Midjourney, чтобы подобрать визуальные референсы и проиллюстрировать тему исследования. Генеративная модель позволила воссоздать стиль графической неоновой иллюстрации, а также передать атмосферу наблюдения за экраном в затемнённом помещении. Промпты: «A graphic, stylized red-and-black illustration of a boy sitting cross-legged on the floor, seen from behind, watching a large modern TV screen glowing bright red with the word NETFLIX. Strong dramatic shadows, neon lighting, high contrast, vector-art style.»
«A stylized graphic illustration in red and teal tones: a boy sitting cross-legged on a bed, seen from behind, watching a retro TV glowing with the word NETFLIX. Dramatic shadows, neon red light, detailed line-art, retro atmosphere.»
Ссылка на модель: https://www.midjourney.com
Список источников
[1] Netflix Movies and TV Shows (URL: https://www.kaggle.com/datasets/shivamb/netflix-shows)
