Original size 1140x1600

Визуализация датасет «шаблон трат»

PROTECT STATUS: not protected
4

Я выбрала датасет, который содержит информацию о том, на что люди тратят свои деньги, в каком объеме и какие способы оплаты используют. Этот датасет был найден на платформе Kaggle, которая является одним из крупнейших ресурсов для работы с открытыми данными.

Этот датасет привлек мое внимание, потому что понимание того, на что люди тратят свои деньги, дает ценную информацию для анализа потребительских привычек. В условиях экономической неопределенности и изменений в потребительских предпочтениях важно знать, какие товары и услуги становятся более востребованными, а какие теряют популярность. Также можно изучить, какие способы оплаты наиболее распространены, что может быть полезно для разработки маркетинговых стратегий или оптимизации финансовых сервисов. Этот анализ может помочь не только компаниям в принятии решений, но и дать более глубокое понимание того, как распределяются денежные потоки в обществе.

Типы графиков

big
Original size 3130x1772

Столбчатая диаграмма с распределеним количества транзакций по категориям расходов

1. Столбчатая диаграмма

Этот график позволяет четко увидеть, какие категории расходов наиболее востребованы у пользователей, наглядно демонстрируя их пропорции. Столбцы представляют количество транзакций в каждой категории, с различными цветами для визуального выделения.

Наибольшее количество транзакций зарегистрировано в категории, представленной самым высоким столбцом — продукты. Такой подход помогает проанализировать, на какие категории расходов приходится наибольшая активность пользователей.

post

Подготовка данных

В коде мы начинаем с группировки данных по категориям и подсчета количества транзакций для каждой категории: Здесь я использую метод value_counts () для того, чтобы подсчитать количество транзакций для каждой категории расходов. Это помогает нам понять, какие категории расходов встречаются чаще всего в нашем наборе данных.

post

Визуализация данных

Далее я строю столбчатую диаграмму, где каждое значение категории отображается с соответствующим количеством транзакций. Я используем метод bar () для рисования столбцов, настраиваю их цвет и ширину, а также разбиваю длинные подписи категорий на строки.

Original size 1853x1517

Круговая диаграмма, показывающая популярные способы оплаты

2. Круговая диаграмма

Круговая диаграмма иллюстрирует популярность различных способов оплаты в анализируемых транзакциях. Каждый сектор представляет один способ оплаты, и его размер пропорционален числу использований этого метода.

post

Сбор данных:

Я начала с подсчета частоты каждого способа оплаты в столбце «Способ оплаты» с помощью метода value_counts (). Этот шаг позволяет нам понять, сколько раз каждый метод оплаты был использован.

post

Построение графика

Сначала создаются фигура и оси с заданными размерами (8×8 дюймов) и фоновым цветом. Затем определяются цвета для сегментов диаграммы. Круговая диаграмма строится с помощью метода plot (), где задаются проценты для каждого сегмента с одним десятичным знаком, а также угол начала диаграммы для визуального удобства.

Original size 3134x1647

Линейный график динамики трат по месяцам за разные годы

3. Линейный график

Этот график используется для отображения изменений суммарных трат по месяцам за разные годы, что помогает выявить сезонные тенденции и колебания в расходах. Линейный формат выбран, так как он наглядно показывает динамику изменений, позволяя легко сравнивать разные годы и выявлять тренды.

post

Обработка данных

Анализ данных строился на основе временных рядов, что позволяет выявить динамику изменения расходов по месяцам за несколько лет. Сначала даты транзакций были преобразованы в формат datetime, что позволило выделить год и месяц для дальнейшей группировки данных. Затем расходы суммировались по месяцам и разбивались по годам, создавая таблицу, где столбцы представляют разные годы.

post

Создание графика

Для визуализации был использован линейный график, так как он наиболее наглядно показывает тренды и сезонные колебания. Разные годы обозначены цветами, что позволяет легко сравнивать изменения. Добавлены маркеры для точек данных, что делает график информативнее.

Original size 3091x1642

Горизонтальная столбчатая диаграмма топ-10 товаров по сумме затрат

4. Горизонтальная столбчатая диаграмма

График отображает топ-10 товаров по общей сумме затрат, позволяя наглядно сравнить их вклад в общие расходы. Такой формат выбран, поскольку он оптимален для категориальных данных с длинными наименованиями, а использование градиентного цвета помогает интуитивно воспринимать разницу в значениях, выделяя наиболее значимые товары.

post

Группировка и агрегирование данных

Данные по транзакциям были сгруппированы по столбцу «Товар», после чего для каждой группы была вычислена общая сумма затрат с помощью df.groupby («Товар»)[«Итого потрачено»].sum (). Затем из всех товаров были отобраны 10 с наибольшими затратами (nlargest (10)), что позволило сосредоточиться на наиболее значимых позициях. Итоговый список отсортирован (sort_values ()) и преобразован в новый DataFrame с обновленными индексами (reset_index ()).

post

Построение графика

Этот код создает горизонтальную столбчатую диаграмму с градиентной окраской столбцов, где цвет изменяется от серого для минимального значения к оранжевому для максимального. Сначала задается размер графика (12×6 дюймов). Затем рассчитывается градиентная палитра для столбцов на основе линейной интерполяции между двумя цветами. Далее строится сама диаграмма, где товары располагаются по оси Y, а их сумма затрат — по оси X.

Original size 3569x1830

Диаграмма рассеяния, показывающая динамику среднего чека в категории «Продукты»

5. Диаграмма рассеяния (scatter plot)

Диаграмма рассеяния выбрана, потому что она позволяет визуализировать распределение среднего чека во времени, учитывая различные способы оплаты. Этот формат наглядно демонстрирует, как менялся средний чек в категории «Продукты» в разные года, а также помогает выявить тренды и аномалии. Цветовая дифференциация по способам оплаты позволяет дополнительно анализировать, какие платежные методы ассоциируются с более высокими или низкими средними чеками.

post

Очистка и подготовка данных

Сначала отбираются транзакции категории «Продукты», чтобы сосредоточиться на анализе этой группы. Затем удаляются строки с пропусками в ключевых столбцах, что предотвращает ошибки и повышает достоверность анализа. Даты переводятся в формат datetime для корректной работы, а средний чек рассчитывается как сумма трат, деленная на количество. Для устранения выбросов удаляются значения выше 99-го процентиля, чтобы исключить редкие, но экстремально высокие покупки, искажающие общую картину.

post

Создание словаря

Создается словарь, связывающий каждый способ оплаты с уникальным цветом. Это делается для того, чтобы на графике можно было легко различить группы данных, относящиеся к разным платежным методам.

post

Заголовок четвертого уровня

Создается диаграмма рассеяния, где ось X отображает даты транзакций, а ось Y — средний чек. Каждая точка соответствует отдельной покупке, а ее цвет указывает на способ оплаты. Такой формат визуализации помогает выявить изменения среднего чека во времени и сравнить разные методы оплаты.

Для лучшей читаемости добавлены подписи осей и заголовок, даты на оси X наклонены, а на оси Y включена пунктирная сетка. Также предусмотрена легенда, которая позволяет определить, какой цвет соответствует каждому способу оплаты.

Блокнот с кодом и датасет

Ссылка на яндекс диск с датасетом и кодом

ИИ в проекте:

Ideogram https://ideogram.ai - генерация обложки - генерация цветовой палитры

Chat GPT https://chatgpt.com - копирайтинг текста - помощь в переводе датасета - исправление ошибок в коде

Визуализация датасет «шаблон трат»
4
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more