
ДА ЗДРАВСТВУЮТ СЕРИАЛЫ!
Мы живём в век технологий, век информации и перемен. Время для нас движется быстро, а количество поставленных задач нескончаемо растёт. Вечером почти каждый из нас, приходя домой, желает лишь отвлечься от этого шума и отдохнуть. А что расслабит лучше, чем серия лёгкого сериальчика под чай и любимые снеки?
Да, официально Netflix (одна из самых популярных стриминговых платформ в мире) ушёл из России, но его популярность всё растёт с каждым днём!. По данным на 2023 год, у Netflix более 230 миллионов подписчиков по всему миру, а контент охватывает более 190 стран.

Анализ данных о Netflix позволит нам понять, какие тенденции преобладают в индустрии развлечений, какие страны являются основными производителями контента и как меняется популярность различных рейтингов и жанров с течением времени.
ДАННЫЕ
Все данные для анализа были найдены на платформе Kaggle. Используемый датасет содержит различную информацию как о фильмах, так и сериалах, доступных на Netflix, включая такие параметры, как название, тип контента, страну производства, год выпуска, рейтинг, продолжительность и жанры.

ЭТАПЫ РАБОТЫ
Итак, прежде чем анализировать тонны информации и строить различные графики, следует тщательно подготовиться! В данном случае — импортировать сторонние библиотеки.
Импортируемые библиотеки
Pandas рагружает и обрабатывает данные, а также подготавливает их для визуализации. Matplotlib и Seaborn создают статические графики и позволяют настраивать их стиль и внешний вид. Plotly.express создает интерактивные графики для более глубокого анализа. Ну а Tabulate форматирует таблицы для удобного вывода в консоль.
Загрузка и предварительный анализ
Эта часть кода загружает наш csv документ и подготавиливает его для дальнейшей обработки: просматривает первые строки данных, проверяет на наличие пропущенных значений и анализирует описательную статистику.
Обработка данных
Далее код удаляет строки, в которых отсутствуют значения в колонках, которые нам понадобятся далее: country, rating, release_year. Это помогает работать только с полными данными и избежать ошибок в расчётах. А также преобразует год выпуска в формат datetime и фильтрует данные, оставляя только строки с допустимыми рейтингами (то есть отбрасывает некорректные или неизвестные).
Анализ данных
Ну а на этом этапе были проведены следующие действия:
Соотношение фильмов и сериалов Код считает количество фильмов и сериалов в колонке type и использует метод value_counts (), который возвращает количество уникальных значений в колонке.
Топ-10 стран по производству контента Считаем количество контента, произведенного в каждой стране и с помощью метода value_counts (), получаем количество контента по странам. А метод head (10) возвращает нам наш топ-10 стран.
Распределение контента по рейтингам Тут мы считаем количество контента для каждого рейтинга в соответствующей колонке rating, используя метод value_counts ().
Динамика выпуска контента по годам Считаем количество контента, выпущенного в каждый год. Метод dt.year извлекает год из колонки release_year. Метод value_counts () считает количество контента для каждого года. Метод sort_index () сортирует данные по годам (от старых к новым).
Последняя строка (sns.set_style («whitegrid»)) используется в библиотеке Seaborn для настройки стиля графиков. Мы поменяли цвет фона на белый.
ДИАГРАММЫ
Соотношение фильмов и сериалов
Топ 10 стран по производству контента
Распределение по рейтингам
Количество контента по годам
Как можно заметить, все графики строятся по почти что одной схеме. Разберём некоторые из применяемых нами параметров:
Сначала берутся данные, например, content_type_counts — данные, содержащие количество фильмов и сериалов. Далее, в круговой диаграмме values — значения для каждого сегмента. names — Названия сегментов. title — Заголовок диаграммы. В некоторых графиках также присутствует параметр labels — Подписи осей. color_discrete_sequence или сolor_continuous_scale: цветовая схема (в данном случае используются красные оттенки, ассоциирующиеся с Netflix).
СОХРАНЕНИЕ
Сохраняем и выводим финал
Если вдруг мы захотим вывести данные, то в папке, где находится скрипт, создается файл top_countries_netflix.csv, содержащий список стран и количество произведенного контента.
А теперь наводим красоту
Все графики, созданные с помощью библиотеки matplotlib или seaborn, сохраняются в файл изображения формата PNG. Параметр dpi=300 задает хорошее качество изображения. Параметр bbox_inches='tight' обрезает лишние поля вокруг графика, чтобы изображение выглядело аккуратно.
Последние строки кода высчитывают нужные данные по следующим формулам:
Формулы
ЗАКЛЮЧЕНИЕ
Этот анализ данных Netflix позволил выявить некоторые из ключевых тенденций не только на самой платформе, но и во всей индустрии развлечений!
Во-первых, мы заметили, что большая часть контента это всё-таки фильмы, а не сериалы. США (как и ожидалось) остаются основным производителем этого самого контента. И также был обнаружен скачок роста производства фильм и сериалов после 2015 года, что косвенно связано и с ростом популярности самого Netflix.
БЛОКНОТ И ДАТАСЕТ https://disk.yandex.ru/d/pYwAUUwGAX60uA