Исходный размер 1140x1600

Анализ и визуализация данных о фильмах и телешоу Netflix

Выбор данных для анализа

Я выбрала данные о фильмах и телешоу Netflix. Netflix  — одна из самых популярных платформ потокового мультимедиа и видео. Этот набор табличных данных состоит из списков всех фильмов и телешоу, доступных на Netflix, а также таких подробностей, как актерский состав, режиссеры, рейтинги, год выпуска, продолжительность и т. д. Данные я нашла на Kaggle  — сайте соревнований для специалистов по Data Science.

Я являюсь поклонницей фильмов и сериалов от Netflix, также люблю смотреть дорамы их авторства. Именно поэтому я решила проанализировать конкретно эти данные. Мне близка эта тема кино, поэтому процесс анализа был для меня увлекательным и интересным. Я решила проанализировать, как контент распределяется по годам, по странам, по жанрам, по типу контента и по рейтингам и создать визуализацию своего анализа.

Выбор графиков для визуализации

Я решила создать линейные диаграммы, так как этот тип диаграмм позволяет четко увидеть тенденции и закономерности в изменении анализируемых данных, а также легко сравнивать значения между разными временными точками. Они также удобны для отслеживания роста и спада показателей, выявления пиковых значений и периодов стабильности. Кроме того, линейные диаграммы являются простыми и наглядными для восприятия, что делает их идеальным выбором для представления большого объема данных в понятном и информативном виде. Я стилизовала диаграммы, найдя понравившийся референс на сайте matplotlib.

big
Исходный размер 1038x593

Линейный график, использованный в качестве референса для стилизации

Поэтапная обработка данных

В анализе в первую очередь я, конечно же, импортировала библиотеки.

Исходный размер 1730x124

Затем я загрузила данные из CSV-файла в DataFrame df  с помощью функции pd.read_csv (), а также прописала путь к датасету, лежащему на моем компьютере.

Исходный размер 1678x110

Затем я напечатала первые несколько строк данных, чтобы увидеть структуру и содержимое DataFrame.

Исходный размер 1672x114

Затем я настроила стили графиков для интересной визуализации

Исходный размер 1650x250

После я определила функцию для создания стековых графиков

Исходный размер 1612x326

Далее я приступила к анализу распределения контента по годам: считаю количество контента, выпущенного каждый год и сортирую по годам, Извлекаю индексы и значения для построения графика и создаю и отображаю стековый график, показывающий распределение контента по годам.

Исходный размер 1698x422
Исходный размер 1185x583

Затем начала анализировать распределение контента по странам, считала количество контента для каждой страны и выбрала топ-10  стран, затем использовала функцию create_stackplot для создания и отображения графика.

Исходный размер 2110x142
Исходный размер 1183x584

Далее проанализировала распределение контента по жанрам: сначала преобразовала строковые значения жанров в dummy-переменные и суммировала их, а затем выбрала топ-10 жанров и использовала функцию create_stackplot для создания и отображения графика.

Исходный размер 2148x144
Исходный размер 1184x584

После исследовала распределение по типу контента: сначала считала количество контента для каждого типа (фильм или шоу), а затем использовала функцию create_stackplot.

Исходный размер 2110x148
Исходный размер 1183x584

Далее начала анализировать распределение контента по рейтингам. Для этого я считала количество контента для каждого рейтинга и выбрала топ-10. Использовала функцию create_stackplot.

Исходный размер 2110x148
Исходный размер 1183x584

В проекте для генерации обложки проекта я пользовалась нейросетью ideogram. У искусственного интеллекта я запросила создать 3д-линейную диаграмму, указала стиль 3д-рендер.

Анализ и визуализация данных о фильмах и телешоу Netflix
Проект создан 25.09.2024
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше