Original size 2912x4117

Тренды в киноиндустрии

PROTECT STATUS: not protected
5

Концепция

Я решил изучить тренды в киноиндустрии, чтобы понять, как меняются предпочтения зрителей, какие жанры становятся популярнее, и как бюджет фильма влияет на его успех.

Кино — это не только искусство, но и огромная индустрия, которая влияет на культуру и экономику. Мне было интересно узнать, какие закономерности можно выявить в данных о фильмах, и как эти знания могут помочь в создании успешных проектов.

big
Original size 2252x840

Мне было интересно проанализировать данные о фильмах, потому что кино — это не только искусство, но и важная часть современной культуры и экономики. Этот датасет содержит информацию о бюджетах, кассовых сборах, жанрах, рейтингах и датах выпуска фильмов, что позволяет изучить множество аспектов киноиндустрии.

Для визуализации данных я использовал несколько видов графиков, каждый из которых решал конкретную задачу. Линейный график показывает, как меняется популярность жанров с течением времени. Столбчатые диаграммы я выбрал для сравнения средних кассовых сборов по жанрам. Круговая диаграмма помогла показать распределение фильмов по жанрам. Гистограмма позволила проанализировать распределение рейтингов.

big
Original size 2252x852

Для анализа я использовал датасет The Movies Dataset который нашёл на платформе Kaggle. Этот датасет содержит информацию о 45 000 фильмов, включая: бюджет и кассовые сборы, жанры, рейтинги, даты выпуска.

Он достаточно объёмный и содержит разнообразные данные, которые позволяют провести глубокий анализ. Кроме того, данные хорошо структурированы, что упрощает их обработку.

Обработка данных

Я начал с загрузки данных в Google Colab. Для этого я использовал библиотеку Pandas.

Original size 1016x338

Для загрузки данных я использовал функцию files.upload () из библиотеки Google Colab, которая позволяет загрузить файл с компьютера. Затем я прочитал данные с помощью функции pd.read_csv (), чтобы загрузить их в DataFrame. Это позволило мне начать работу с данными.

После загрузки я проверил данные на наличие пропусков и ошибок. Например, некоторые строки не содержали информации о бюджете или жанрах, поэтому я удалил их, чтобы не искажать результаты анализа.

Original size 982x378

Я удалил строки с пропущенными значениями с помощью функции dropna (), чтобы избежать ошибок в анализе. Затем я преобразовал столбцы budget и revenue в числовой формат с помощью astype (float), чтобы можно было выполнять математические операции. Также я добавил новый столбец year, извлекая год из даты выпуска фильма с помощью pd.to_datetime ().dt.year.

Одной из ключевых задач было преобразование столбца с жанрами. В исходном датасете жанры были записаны в формате JSON, что затрудняло их анализ. Я преобразовал этот столбец в список, чтобы можно было легко работать с каждым жанром отдельно.

Original size 1204x166

Для преобразования столбца genres я использовал функцию ast.literal_eval (), которая преобразует строку в формате JSON в список словарей. Затем я извлёк названия жанров с помощью спискового включения [i['name'] for i in …] и применил это ко всем строкам с помощью apply ().

Линейный график

Этот график показывает, как менялась популярность различных жанров с течением времени. Например, можно заметить, что жанры «драма» и «комедия» популярнее чем боевик.

0

Для анализа популярности жанров я использовал функцию explode (), которая разделяет строки с несколькими жанрами на отдельные строки. Затем я сгруппировал данные по году и жанру с помощью groupby () и создал таблицу, где строки — годы, а столбцы — жанры. Для визуализации я использовал sns.lineplot (), чтобы построить линейный график для каждого жанра. Также я настроил цветовую палитру с помощью sns.set_palette () и установил тёмный фон с помощью plt.style.use ('dark_background').

Столбчатая диаграмма

Столбчатая диаграмма позволяет сравнить средние кассовые сборы фильмов разных жанров. Видно, что фильмы в жанре «фантастика» и «приключения» чаще всего собирают больше денег в прокате.

0

Для анализа кассовых сборов я сгруппировал данные по жанрам с помощью groupby () и вычислил средние значения с помощью mean (). Затем я отсортировал результаты по убыванию с помощью sort_values (). Для визуализации я использовал sns.barplot (), чтобы построить столбчатую диаграмму. Чтобы подписи на оси X не накладывались друг на друга, я повернул их на 45 градусов с помощью plt.xticks (rotation=45).

Круговая диаграмма

Круговая диаграмма показывает, какие жанры наиболее представлены в датасете. Например, драмы и комедии составляют значительную часть всех фильмов.

0

Для анализа распределения фильмов по жанрам я использовал функцию value_counts (), которая подсчитывает количество фильмов для каждого жанра. Затем я построил круговую диаграмму с помощью plt.pie (), добавив проценты с помощью autopct='%1.1f%%'.

Гистограмма

Гистограмма демонстрирует, как распределены рейтинги фильмов. Большинство фильмов имеют рейтинг от 6 до 8 баллов, что говорит о том, как зрители оценивают фильмы.

0

Для анализа распределения рейтингов я использовал sns.histplot (), чтобы построить гистограмму. Я добавил кривую плотности с помощью kde=True, чтобы сделать график более наглядным.

Список источников

Работа с Pandas: Функция read_csv() Пропущенные значения Группировка данных Преобразование JSON в Pandas: Преобразование JSON в список Стилизация графиков: Настройка стилей графиков Обработка текстовых данных: Текстовые данные

Тренды в киноиндустрии
5
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more