
Я выбрала датасет, который содержит информацию о том, на что люди тратят свои деньги, в каком объеме и какие способы оплаты используют. Этот датасет был найден на платформе Kaggle, которая является одним из крупнейших ресурсов для работы с открытыми данными.
Этот датасет привлек мое внимание, потому что понимание того, на что люди тратят свои деньги, дает ценную информацию для анализа потребительских привычек. В условиях экономической неопределенности и изменений в потребительских предпочтениях важно знать, какие товары и услуги становятся более востребованными, а какие теряют популярность. Также можно изучить, какие способы оплаты наиболее распространены, что может быть полезно для разработки маркетинговых стратегий или оптимизации финансовых сервисов. Этот анализ может помочь не только компаниям в принятии решений, но и дать более глубокое понимание того, как распределяются денежные потоки в обществе.
Типы графиков

Столбчатая диаграмма с распределеним количества транзакций по категориям расходов
Этот график позволяет четко увидеть, какие категории расходов наиболее востребованы у пользователей, наглядно демонстрируя их пропорции. Столбцы представляют количество транзакций в каждой категории, с различными цветами для визуального выделения.
Наибольшее количество транзакций зарегистрировано в категории, представленной самым высоким столбцом — продукты. Такой подход помогает проанализировать, на какие категории расходов приходится наибольшая активность пользователей.

В коде мы начинаем с группировки данных по категориям и подсчета количества транзакций для каждой категории: Здесь я использую метод value_counts () для того, чтобы подсчитать количество транзакций для каждой категории расходов. Это помогает нам понять, какие категории расходов встречаются чаще всего в нашем наборе данных.

Далее я строю столбчатую диаграмму, где каждое значение категории отображается с соответствующим количеством транзакций. Я используем метод bar () для рисования столбцов, настраиваю их цвет и ширину, а также разбиваю длинные подписи категорий на строки.
Круговая диаграмма, показывающая популярные способы оплаты
Круговая диаграмма иллюстрирует популярность различных способов оплаты в анализируемых транзакциях. Каждый сектор представляет один способ оплаты, и его размер пропорционален числу использований этого метода.

Я начала с подсчета частоты каждого способа оплаты в столбце «Способ оплаты» с помощью метода value_counts (). Этот шаг позволяет нам понять, сколько раз каждый метод оплаты был использован.

Сначала создаются фигура и оси с заданными размерами (8×8 дюймов) и фоновым цветом. Затем определяются цвета для сегментов диаграммы. Круговая диаграмма строится с помощью метода plot (), где задаются проценты для каждого сегмента с одним десятичным знаком, а также угол начала диаграммы для визуального удобства.
Линейный график динамики трат по месяцам за разные годы
Этот график используется для отображения изменений суммарных трат по месяцам за разные годы, что помогает выявить сезонные тенденции и колебания в расходах. Линейный формат выбран, так как он наглядно показывает динамику изменений, позволяя легко сравнивать разные годы и выявлять тренды.

Анализ данных строился на основе временных рядов, что позволяет выявить динамику изменения расходов по месяцам за несколько лет. Сначала даты транзакций были преобразованы в формат datetime, что позволило выделить год и месяц для дальнейшей группировки данных. Затем расходы суммировались по месяцам и разбивались по годам, создавая таблицу, где столбцы представляют разные годы.

Для визуализации был использован линейный график, так как он наиболее наглядно показывает тренды и сезонные колебания. Разные годы обозначены цветами, что позволяет легко сравнивать изменения. Добавлены маркеры для точек данных, что делает график информативнее.
Горизонтальная столбчатая диаграмма топ-10 товаров по сумме затрат
График отображает топ-10 товаров по общей сумме затрат, позволяя наглядно сравнить их вклад в общие расходы. Такой формат выбран, поскольку он оптимален для категориальных данных с длинными наименованиями, а использование градиентного цвета помогает интуитивно воспринимать разницу в значениях, выделяя наиболее значимые товары.

Данные по транзакциям были сгруппированы по столбцу «Товар», после чего для каждой группы была вычислена общая сумма затрат с помощью df.groupby («Товар»)[«Итого потрачено»].sum (). Затем из всех товаров были отобраны 10 с наибольшими затратами (nlargest (10)), что позволило сосредоточиться на наиболее значимых позициях. Итоговый список отсортирован (sort_values ()) и преобразован в новый DataFrame с обновленными индексами (reset_index ()).

Этот код создает горизонтальную столбчатую диаграмму с градиентной окраской столбцов, где цвет изменяется от серого для минимального значения к оранжевому для максимального. Сначала задается размер графика (12×6 дюймов). Затем рассчитывается градиентная палитра для столбцов на основе линейной интерполяции между двумя цветами. Далее строится сама диаграмма, где товары располагаются по оси Y, а их сумма затрат — по оси X.
Диаграмма рассеяния, показывающая динамику среднего чека в категории «Продукты»
Диаграмма рассеяния выбрана, потому что она позволяет визуализировать распределение среднего чека во времени, учитывая различные способы оплаты. Этот формат наглядно демонстрирует, как менялся средний чек в категории «Продукты» в разные года, а также помогает выявить тренды и аномалии. Цветовая дифференциация по способам оплаты позволяет дополнительно анализировать, какие платежные методы ассоциируются с более высокими или низкими средними чеками.

Сначала отбираются транзакции категории «Продукты», чтобы сосредоточиться на анализе этой группы. Затем удаляются строки с пропусками в ключевых столбцах, что предотвращает ошибки и повышает достоверность анализа. Даты переводятся в формат datetime для корректной работы, а средний чек рассчитывается как сумма трат, деленная на количество. Для устранения выбросов удаляются значения выше 99-го процентиля, чтобы исключить редкие, но экстремально высокие покупки, искажающие общую картину.

Создается словарь, связывающий каждый способ оплаты с уникальным цветом. Это делается для того, чтобы на графике можно было легко различить группы данных, относящиеся к разным платежным методам.

Создается диаграмма рассеяния, где ось X отображает даты транзакций, а ось Y — средний чек. Каждая точка соответствует отдельной покупке, а ее цвет указывает на способ оплаты. Такой формат визуализации помогает выявить изменения среднего чека во времени и сравнить разные методы оплаты.
Для лучшей читаемости добавлены подписи осей и заголовок, даты на оси X наклонены, а на оси Y включена пунктирная сетка. Также предусмотрена легенда, которая позволяет определить, какой цвет соответствует каждому способу оплаты.
Блокнот с кодом и датасет
Ссылка на яндекс диск с датасетом и кодом
Ideogram https://ideogram.ai - генерация обложки - генерация цветовой палитры
Chat GPT https://chatgpt.com - копирайтинг текста - помощь в переводе датасета - исправление ошибок в коде