Original size 620x875

Создание стилизованных графиков по датасету

PROTECT STATUS: not protected
6

РУБРИКАТОР

1. Вводная часть 2. Обработка данных 3. Стилизация графиков 4. Графики 5. Описание применения генеративной модели 6. Ссылки 7. Источники информации

ВВОДНАЯ ЧАСТЬ

Для работы я выбрала датасет Coffee Taste Test из открытых данных сайта Kaggle.

Я выбрала этот датасет, потому что очень люблю кофе и обязательно выпиваю как минимум одну чашку каждый день. Мне стало интересно проанализировать какие-нибудь данные, связанные с кофе.

В своей работе я использовала четыре вида графиков: круговая диаграмма, столбчатая диаграмма, горизонтальная столбчатая диаграмма и коробочная диаграмма. Я подумала, что эти четыре больше всего подходят для стилизации под кофейную тему, поскольку круговая напоминает вид сверху на чашку, столбчатая — вид сбоку, горизонтальная — стол, а коробочная навивает мысли о коробках для кофе.

ОБРАБОТКА ДАННЫХ

Процесс обработки данных начался с подключения необходимых библиотек: pandas, matplotlib.pyplot, seaborn, numpy. Затем, я добавила датасет и вырезала из него только те колонки, которые буду анализировать.

big
Original size 999x540

Список колонок из таблицы, которые понадобятся

Дальше я прошлась по всем выбранным колонкам и посчитала сколько пропусков в каждой колонке.

Original size 755x558

Выявление пустых ячеек

Получив результат подсчета, я сформировала гипотезу: в данных есть люди, про которых мало что известно, и большинство пропусков относятся к ним. Чтобы ее проверить я посчитала количество людей с пропусками.

Original size 588x268

Количество людей с пропусками в данных

Оказалось, что строк с пропусками примерно 13% от общего числа. Я решила убрать проблемные строчки, поскольку еще останется 87% данных, по которым будет удобнее строить графики.

Original size 749x72

Убираем пустые строки

Далее я убрала лишние данные в строке «Пол», оставив только «Male» и «Female», а остальные объединила под названием «Other».

Original size 1370x286

Обработка данных колонки «Пол»

После этого я приступила к построению графиков по данным. Сначала я анализировала где и по какой причине люди пьют кофе. Результат представлялся в виде круговых диаграмм.

Original size 733x522

Выявление места и причины для питья кофе

Следующий график отражает любимые напитки и топпинги. Результат представлялся в виде столбчатых диаграмм.

Original size 760x729

Любимые напитки и топпинги

Следующая диаграмма отражает сколько чашек кофе пьют люди разных возрастов. Ширина полосы показывает процент людей по количеству чашек из 100%. Результат представлялся в виде горизонтальных диаграмм.

Original size 1239x233

Чашки кофе на возраст

После нее созданы подобные диаграммы с анализом предпочтений по крепости и прожарке среди людей разных возрастов.

Крепкость / Прожарка

Последние четыре диаграммы посвящены оценке четырех кофейных напитков у групп разных возрастов и с показателями по полу. Результат представлялся в виде коробочных диаграмм.

Original size 1650x472

Оценка напитков 1

Original size 1663x472

Оценка напитков 2

Original size 1659x462

Оценка напитков 3

Original size 1650x469

Оценка напитков 4

СТИЛИЗАЦИЯ ГРАФИКОВ

У меня не было конкретного референса для стилизации, я хотела придумать ее сама. Поэтому нашла только названия цвето, создала график-палитру с оттенками кофейных напитков и использовала эти цвета для окрашивания диаграмм. Также я прочитала, что можно создать паттерны из знаков ’’-’’, ’’/’’, ’’.’’, ’’*’’ и ’’||’’, поэтому некоторые графики дополнила паттернами.

Original size 572x401

Цветовая палитра

ГРАФИКИ

В данном случае, круговые диаграммы наилучшим образом показывают отношение наиболее популярных ответов.

Можно заметить, что самое популярное место — дома, а причина — он вкусный.

Original size 2390x1190

Круговые диаграммы: где люди пьют кофе и почему

Здесь больше категорий, поэтому нагляднее показать их столбчатой диаграммой.

Мы видим, что самые популярные типы напитков — пуровер (особый метод заваривания) и латте, а менее популярные — взбитый (как фраппе) и колд-брю.

Среди топпингов лидирует показатель кофе без топпинга (просто черный), а самый низкий у других вариантов, не вошедших в большие категории. Одинаковые показатели у молока, растительного молока и сливок.

Original size 1489x1190

Столбчатые диаграммы: любимые типы напитков и топпингов

Данные по возрастным группам было удобнее оформлять горизонтальными диаграммами, на которых видно процентное соотношения показателя (чашек кофе / крепкость / прожарка) по группе.

Original size 989x593

Количество чашек кофе на людей разных возрастов

Original size 989x593

Предпочтения по крепости кофе

Original size 989x593

Предпочтения по обжарке

Данные с результатами предпочтений после дегустации удобно показывать с помощью коробочных диаграмм. Они удачно презентуют распределение значений колонки, когда нужно сравнить несколько показателей (в данном случае: возраст, пол и результаты опроса).

Отзывы о напитках

Отзывы о напитках

ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ

При создании графиков не использовались нейросети. Единственный элемент проекта, созданный с помощью нейросети — обложка. Она создана в нейросети Кандинский (Fusion Brain) по промту: «три прозрачные чашки с латте, капучино и сладким кофе стоят на столе рядом друг с другом, фон размытый с гирляндой».

ССЫЛКИ

ИСТОЧНИКИ

1. Датасет — Kaggle: https://www.kaggle.com/datasets/joebeachcapital/coffee-taste-test 2. Обложка — Fusion Brain: https://fusionbrain.ai/

Создание стилизованных графиков по датасету
6
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more