Original size 2480x3500

NETFLIX и его популярность

ДА ЗДРАВСТВУЮТ СЕРИАЛЫ!

Мы живём в век технологий, век информации и перемен. Время для нас движется быстро, а количество поставленных задач нескончаемо растёт. Вечером почти каждый из нас, приходя домой, желает лишь отвлечься от этого шума и отдохнуть. А что расслабит лучше, чем серия лёгкого сериальчика под чай и любимые снеки?

Да, официально Netflix (одна из самых популярных стриминговых платформ в мире) ушёл из России, но его популярность всё растёт с каждым днём!. По данным на 2023 год, у Netflix более 230 миллионов подписчиков по всему миру, а контент охватывает более 190 стран.

Original size 1280x720

Анализ данных о Netflix позволит нам понять, какие тенденции преобладают в индустрии развлечений, какие страны являются основными производителями контента и как меняется популярность различных рейтингов и жанров с течением времени.

ДАННЫЕ

Все данные для анализа были найдены на платформе Kaggle. Используемый датасет содержит различную информацию как о фильмах, так и сериалах, доступных на Netflix, включая такие параметры, как название, тип контента, страну производства, год выпуска, рейтинг, продолжительность и жанры.

Original size 1950x900

ЭТАПЫ РАБОТЫ

Итак, прежде чем анализировать тонны информации и строить различные графики, следует тщательно подготовиться! В данном случае — импортировать сторонние библиотеки.

Original size 3194x486

Импортируемые библиотеки

Pandas рагружает и обрабатывает данные, а также подготавливает их для визуализации. Matplotlib и Seaborn создают статические графики и позволяют настраивать их стиль и внешний вид. Plotly.express создает интерактивные графики для более глубокого анализа. Ну а Tabulate форматирует таблицы для удобного вывода в консоль.

Original size 3090x1748

Загрузка и предварительный анализ

Эта часть кода загружает наш csv документ и подготавиливает его для дальнейшей обработки: просматривает первые строки данных, проверяет на наличие пропущенных значений и анализирует описательную статистику.

Original size 3066x662

Обработка данных

Далее код удаляет строки, в которых отсутствуют значения в колонках, которые нам понадобятся далее: country, rating, release_year. Это помогает работать только с полными данными и избежать ошибок в расчётах. А также преобразует год выпуска в формат datetime и фильтрует данные, оставляя только строки с допустимыми рейтингами (то есть отбрасывает некорректные или неизвестные).

Original size 3066x1900

Анализ данных

Ну а на этом этапе были проведены следующие действия:

Соотношение фильмов и сериалов Код считает количество фильмов и сериалов в колонке type и использует метод value_counts (), который возвращает количество уникальных значений в колонке.

Топ-10 стран по производству контента Считаем количество контента, произведенного в каждой стране и с помощью метода value_counts (), получаем количество контента по странам. А метод head (10) возвращает нам наш топ-10 стран.

Распределение контента по рейтингам Тут мы считаем количество контента для каждого рейтинга в соответствующей колонке rating, используя метод value_counts ().

Динамика выпуска контента по годам Считаем количество контента, выпущенного в каждый год. Метод dt.year извлекает год из колонки release_year. Метод value_counts () считает количество контента для каждого года. Метод sort_index () сортирует данные по годам (от старых к новым).

Последняя строка (sns.set_style («whitegrid»)) используется в библиотеке Seaborn для настройки стиля графиков. Мы поменяли цвет фона на белый.

ДИАГРАММЫ

Original size 3078x600

Соотношение фильмов и сериалов

Original size 1118x360

Original size 3058x602

Топ 10 стран по производству контента

Original size 1118x360

Original size 3072x588

Распределение по рейтингам

Original size 1118x360

Original size 3068x606

Количество контента по годам

Original size 1118x360

Как можно заметить, все графики строятся по почти что одной схеме. Разберём некоторые из применяемых нами параметров:

Сначала берутся данные, например, content_type_counts — данные, содержащие количество фильмов и сериалов. Далее, в круговой диаграмме values — значения для каждого сегмента. names — Названия сегментов. title — Заголовок диаграммы. В некоторых графиках также присутствует параметр labels — Подписи осей. color_discrete_sequence или сolor_continuous_scale: цветовая схема (в данном случае используются красные оттенки, ассоциирующиеся с Netflix).

СОХРАНЕНИЕ

Original size 3068x1528

Сохраняем и выводим финал

Если вдруг мы захотим вывести данные, то в папке, где находится скрипт, создается файл top_countries_netflix.csv, содержащий список стран и количество произведенного контента.

А теперь наводим красоту

Все графики, созданные с помощью библиотеки matplotlib или seaborn, сохраняются в файл изображения формата PNG. Параметр dpi=300 задает хорошее качество изображения. Параметр bbox_inches='tight' обрезает лишние поля вокруг графика, чтобы изображение выглядело аккуратно.

Последние строки кода высчитывают нужные данные по следующим формулам:

Формулы

ЗАКЛЮЧЕНИЕ

Этот анализ данных Netflix позволил выявить некоторые из ключевых тенденций не только на самой платформе, но и во всей индустрии развлечений!

Во-первых, мы заметили, что большая часть контента это всё-таки фильмы, а не сериалы. США (как и ожидалось) остаются основным производителем этого самого контента. И также был обнаружен скачок роста производства фильм и сериалов после 2015 года, что косвенно связано и с ростом популярности самого Netflix.

БЛОКНОТ И ДАТАСЕТ https://disk.yandex.ru/d/pYwAUUwGAX60uA

NETFLIX и его популярность

Anna Kirina

data visualization

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...