
Ввведение
Многие люди любят выбирать фильмы, ориентируясь по топам лучших фильмов и по их рейтингу на самом популярном сервисе по оценке кино IMDB. Это крупнейшая в мире база данных и сайт о кинематографе. В базе собрана информация о более чем 450 тыс. фильмов и телесериалов. Мне было интересно провести анализ данных 1000 лучших фильмов по версии IMDB, так как я сама часто при выборе фильма обращаю внимание на рейтинг, дату выхода картины и на оценки пользователей.
В этом исследовании я изучаю в какое десятилетие было выпущено больше всего фильмов с самым высоким рейтингом, какие конкретно фильмы получили больше всего зрительских оценок, какие возрастные рейтинги чаще всего стоят у картин и исследую их среднюю продолжительность.
Анализ датасета
Для анализа я использую сайт kaggle.com, в котором я нашла датасет 1000 лучших фильмов по версии IMDB, который включает в себя различные атрибуты, такие как рейтинг фильма, год выпуска, продолжительность, возрастное ограничение, рейтинг IMDb, количество оценок, Metascore, описание и название.
В коде я использую библиотеки Pandas для анализа данных и Matplotlib для визуализации.

Круговая диаграмма средней продолжительности фильмов
Этот код создает круговую диаграмму, показывающую доли фильмов по их продолжительности. Продолжительность фильмов из формата «2h 22m» переводится в минуты. Фильмы распределяются по трем категориям: от 1 до 2 часов, от 2 до 3 часов и более 3 часов. Количество фильмов в каждой категории подсчитывается. Создается круговая диаграмма с долями для каждой категории, а данные представлены в процентах. Диаграмма визуализирует распределение фильмов по их продолжительности в трех категориях.
Линейный график зависимости среднего рейтинга от десятилетия создания фильма
Далее я создала линейную диаграмму, которая позволяет увидеть, как менялся средний рейтинг фильмов на IMDb с течением времени, от десятилетия к десятилетию. Год выпуска каждого фильма переводится в десятилетие. Фильмы группируются по десятилетиям, и для каждой группы вычисляется средний рейтинг. Создается линейная диаграмма, где по оси X откладываются десятилетия, а по оси Y — средний рейтинг фильмов для каждого десятилетия. Настраиваются оси и заголовок диаграммы, добавляется сетка для лучшей читаемости, и метки по оси X выставляются для каждого десятилетия.
Столбчатая диаграмма распределения по возрастному рейтингу
Этот код создает столбчатую диаграмму, отображающую распределение фильмов по возрастным рейтингам. Сначала подсчитывается количество фильмов для каждого возрастного рейтинга и строится диаграмма с использованием синего цвета для столбцов и тёмного фона. Заголовки и метки осей настраиваются для лучшей читаемости, а числовые значения добавляются над каждым столбцом. График показывает, сколько фильмов соответствует каждому возрастному рейтингу, с наглядными и легко читаемыми данными.
Этот график показывает топ-10 фильмов по рейтингу IMDB. Сначала данные сортируются по рейтингу и выбираются 10 лучших фильмов. Названия фильмов, превышающие пять слов, разбиваются на несколько строк для улучшения читаемости. Затем создается горизонтальная столбчатая диаграмма, на которой отображаются названия фильмов и их рейтинги, с указанием значений рядом со столбцами.
Вывод
Анализ данных о 1000 лучших фильмах по версии IMDb выявил, что некоторые фильмы получают значительно больше оценок, чем другие, что указывает на их широкую популярность. Топ-10 фильмов с наивысшими рейтингами IMDB демонстрируют высокое качество и признание критиков и зрителей. Распределение по возрастным рейтингам показывает ориентацию на широкую аудиторию. Большинство фильмов имеют длительность от 1 до 2 часов, хотя есть значительное количество длительных фильмов, что указывает на их сложность. Исследование изменения средних рейтингов по десятилетиям показывает тенденцию к росту качества фильмов со временем.
Промт для обложки
make a dynamic cover for the project about movies where there will be different figures, scenes, colorful and dynamic use blue and dark blue colors and make monochrome art