
Описание
Для этого проекта был выбран датасет, содержащий подборку 1000 самых популярных современных фильмов, выпущенных с 2006 по 2016 года по версии веб-сайта с крупнейшей в мире базы данных о кинематографе — IMDB. Записи содержат жанры, продолжительность, количество голосов, рейтинг и прибыль по кинотеатрам США для каждого фильма.
Датасет взят с сайта соревнований для специалистов по Data Science — Kaggle.

Актуальность и интерес

Мне было интересно проанализировать эти данные, потому что кино всегда было важной частью культуры, и часто, чтобы понять, что происходит в индустрии, нужно не просто смотреть фильмы, а анализировать тренды и закономерности.
Кроме того, тема кино связана с моими личными интересами: я люблю смотреть фильмы и хочу лучше понять, что влияет на их популярность и успех.
Эти данные позволяют не только увидеть какие фильмы были успешными, но и понять, как изменялись предпочтения зрителей, что очень важно для того, чтобы не просто анализировать данные, но и делать выводы, которые могут быть полезными и в будущем.
Выбранные для анализа виды графиков
Для анализа данных о фильмах использованы следующие виды графиков, каждый из которых был выбран в зависимости от того, какие данные и закономерности нужно визуализировать
Круговая диаграмма — была использована для отображения распределения продолжительности фильмов по категориям. Круговая диаграмма помогает наглядно увидеть долю каждого интервала продолжительности в общем объеме.
Розовый цвет отображает долю фильмов в категории от 120 до 150 минут Голубой — от 90 до 120 минут Оранжевый — менее 90 минут Фиолетовый — более 150 минут
Линейная диаграмма — использована для отображения динамики прибыли фильмов по годам. Линейный график идеально подходит для анализа изменений во времени, так как он позволяет увидеть тренды и колебания, а также понять, как изменялась прибыль от проката с течением лет.
График линейной диаграммы показывает зависимость прибыли (млн $) от фильмов в кинопрокате от года их выпуска
Столбчатая диаграмма — эта диаграмма была использована для отображения тенденции количества фильмов по определённым жанрам. Столбчатая диаграмма позволяет легко сравнивать количество фильмов в разных жанрах.
Гистограмма с накоплением отображает доли фильмов по жанрам от каждого года. Эта гистограмма позволяет удобно проанализировать, какие жанры фильмов были наиболее популярны в тот или иной год
Итоги работы
В ходе работы был проанализирован датасет фильмов с 2006 по 2016 года. Реализована визуализация в виде различных графиков. При помощи этой визуализации можно зрительно проанализировать:
Ссылка на датасет и блокнот с кодом: https://disk.yandex.ru/d/DNzvPC7YXtbVAA