
Концепция
В поисках подходящего датасета я отправилась на kaggle.com, там я нашла занятную статистику про покупки во время скидок на маркетплейсе Amazon. Меня заинтересовала данная тема, так как люблю шоппинг и скидки всегда мотивируют покупать.
Для большей наглядности сюда идеально подойдут различные диаграммы.
Мне было интересно почувствовать себя своего рода маркетологом. Оказаться по ту сторону продаж, как на деле скидки влияют на совершение покупок и в каких категориях больше.
К тому же недавно я заинтересовалась темой продаж на маркетплейсах, реально ли заработать и какую тактику выбрать? Данный анализ помог мне лучше понять как влияют скидки на продажи.
Во-первых, скидки — один из главных инструментов маркетинга, который влияет на поведение потребителей. Понимать то, как именно скидки влияют на продажи, точно поможет бизнесу оптимизировать свои предложения и стратегию ценообразования, что соответственно поможет увеличить прибыль.
Во-вторых, в условиях очень высокой конкуренции на онлайн-рынке важность анализа данных увеличивается с каждым днем. Так, исследовав, как различные категории товаров реагируют на скидки, можно выявить, какие из них наиболее чувствительны к изменениям.
Для анализа я использовала датасет [1], с информацией о покупках и скидках на маркетплейсе Amazon.
Выбранные данные: 1. категории покупок 2. скидки 3. актуальные цены 4. скидки против цены
В стилизации диаграмм я руководствовалась фразой: «чем проще, тем понятнее». Поэтому использованы простые не яркие цвета.
Основа выполнена в цветах Amazon Оранжевый FE9900 и черный 000000.
Данные и их анализ
Первым делом я установила необходимые библиотеки, что позволяет использовать их функционал для работы с данными и построения графиков. После установки библиотек я загрузила данные из файла «amazon.csv» в DataFrame с помощью функции pd.read_csv () из библиотеки pandas.
! pip install pandas matplotlib seaborn
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
#Загрузка данных из CSV файла data = pd.read_csv («amazon.csv»)
#Преобразуем данные в нужный формат data['discounted_price'] = data['discounted_price'].str.replace ('₹', '').str.replace (', ', '').astype (float) data['actual_price'] = data['actual_price'].str.replace ('₹', '').str.replace (', ', '').astype (float) data['discount_percentage'] = data['discount_percentage'].str.replace ('%', '').astype (float)
#Устанавливаем стиль Seaborn sns.set (style="whitegrid»)
Первый график — это столбчатая диаграмма распределения по категориям товаров. Я разделила категории по символу " | " и подсчитываете количество товаров в каждой из них. Затем выбрала топ-10 категорий и визуализировала с помощью sns.barplot ().
#1. Диаграмма категорий покупок plt.figure (figsize=(12, 6)) category_counts = data['category'].str.split ('|').explode ().value_counts () top_categories = category_counts.head (10) # Выбираем только 10 самых популярных категорий sns.barplot (x=top_categories.index, y=top_categories.values, palette='viridis') plt.title ('Распределение по категориям (топ 10)') plt.xlabel ('Категория') plt.ylabel ('Количество продуктов') plt.xticks (rotation=45) plt.tight_layout () plt.show ()
Второй график — ящик с усами, который показывает распределение скидок в процентах. Этот тип графика позволяет наглядно оценить разброс и выбросы в данных о скидках.
#2. Ящик с усами для скидок plt.figure (figsize=(12, 6)) sns.boxplot (x=data['discount_percentage'], color='lightblue') plt.title ('Ящик с усами: Распределение скидок') plt.xlabel ('Процент скидки') plt.tight_layout () plt.show ()
Третий график — это плотность распределения актуальных цен товаров, которая создается с помощью функции sns.kdeplot (). Этот график, помогает понять, как цены распределены среди товаров, какие диапазоны цен наиболее распространены.
#3. Диаграмма актуальных цен plt.figure (figsize=(12, 6)) sns.kdeplot (data['actual_price'], fill=True, color='skyblue', alpha=0.5) plt.title ('Плотность распределения актуальных цен', fontsize=16, fontweight='bold') plt.xlabel ('Актуальная цена', fontsize=14) plt.ylabel ('Плотность', fontsize=14) plt.grid (axis='y', linestyle='--', alpha=0.7) plt.tight_layout () plt.show ()
Четвертый график — это диаграмма рассеяния, которая отображает связь между актуальной ценой и процентом скидки. Это помогает визуализировать, как цена товара соотносится с его скидкой, что полезно для анализа ценообразования.
#4. Процент скидки против цены plt.figure (figsize=(8, 4)) sns.scatterplot (x='actual_price', y='discount_percentage', data=data, alpha=0.6) plt.title ('Скидка vs. Цена', fontsize=10) plt.xlabel ('Цена', fontsize=8) plt.ylabel ('Скидка (%)', fontsize=8) plt.tight_layout () plt.show ()
Визуализация данных
Вертикальная гистограмма. Категории
Ящик с усами. Скидки
Линейная диаграмма. Актуальные цены
Точечная диаграмма. Скидка и цена
Описание применения генеративной модели
С помощью сайта fusionbrain.ai была создана обложка. URL: https://fusionbrain.ai/editor/
Список источников
[1] KARKAVELRAJA, «Amazon Sales Dataset», 2023. URL: https://www.kaggle.com/datasets/karkavelrajaj/amazon-sales-dataset?resource=download
Блокнот и база данных