
КОНЦЕПЦИЯ
Тема недвижимости, в частности, её функционирование в условиях крупного и динамично развивающегося мегаполиса, каким является Москва, представляла для меня предмет особого интереса. В этой связи, было принято решение о проведении аналитического исследования ценовой политики на рынке жилой недвижимости в различных административных округах столицы. Целью данного исследования является выявление устойчивых тенденций и закономерностей, определяющих формирование стоимости жилья в зависимости от локационных, инфраструктурных и иных факторов. Для этого я использовала датасет «Moscow Housing Price Dataset» с платформы Kaggle. В нём собрана информация о квартирах, включая цену, количество комнат, площадь, удалённость от метро и другие параметры.
Изображение сгенерировано с помощью ideogram.ai
Мне было важно не просто изучить сами цены, но и визуализировать данные, чтобы наглядно увидеть, какие факторы сильнее всего влияют на стоимость жилья. Поэтому я использовала различные виды графиков:
> Гистограммы — для распределения цен, количества квартир в районах, этажности. > Столбчатые диаграммы — для анализа стоимости жилья у разных станций метро. > Круговую диаграмму — чтобы показать распределение квартир по типу ремонта. > Облако слов — чтобы выделить наиболее популярные станции метро. > Графики рассеяния — для изучения связи между ценой, удалённостью от метро и площадью.
Обработка данных
Первым шагом я скачала датасет с помощью библиотеки kagglehub и нашла нужный CSV-файл. Далее я провела первичный анализ:
-Проверила, какие данные есть в датасете, сколько в нём пропущенных значений. -Вычислила статистические показатели — среднее, медиану, минимальные и максимальные цены. -Определила уникальные значения для категориальных признаков.
Затем я начала подготовку данных:
-Привела цены в более удобный формат — миллионы рублей. -Преобразовала некоторые числовые и категориальные признаки.
Визуализация данных
Я создала собственное оформление с помощью matplotlib, где основной цвет всех графиков — бордовый (#a8002c), так как это цвет фона герба Москвы, а по мере снижения показателей оттенок становится светлее.
(1) Гистограмма цен квартир
Гистограмма цен квартир — показала распределение стоимости жилья, выявив, что большая часть квартир стоит до 50 миллионов рублей.
(2) Столбчатый график по районам
Столбчатый график по районам — позволил увидеть распределение предложения по Москве и Московской области.
(3) Средняя цена по станциям метро
Средняя цена по станциям метро — оказалось, что самые дорогие квартиры находятся у станций Лужники, Площадь Революции и Театральная, а самые дешевые у станций Лихоборы, Остафьево и Бутово.
(4) Круговая диаграмма типа ремонта
Круговая диаграмма типа ремонта — показала, что больше половины квартир продается с косметическим ремонтом.
(5) Облако слов станций метро
Облако слов станций метро — визуализировало, у каких станций чаще всего продаются квартиры.
(6) Распределение квартир по этажам
Распределение квартир по этажам — абсолютное большинство предложений находится на нижних и средних этажах (1–17 этажи).
(7) График зависимости цены от времени до метро
График зависимости цены от времени до метро — подтвердил очевидное: чем дальше от метро, тем дешевле жильё.
(8) Кластеризация квартир по площади и цене
Кластеризация квартир по площади и цене — позволила выделить группы жилья по метражу и стоимости, показав, какие типы квартир наиболее популярны. Начиная с общей площади квартиры в 80 м² наблюдается четкая линейная зависимость роста цены от дальнейшего увеличения площади.
(9) Модель для предсказания цен
После анализа данных я решила попробовать предсказать цену квартиры на основе её параметров. Для этого я использовала градиентный бустинг (Gradient Boosting Regressor).
Алгоритм был обучен на следующих характеристиках:
-Площадь квартиры; -Количество комнат; -Удалённость от метро; -Этаж.
Я провела обучение модели и оценила её точность с помощью метрики MAE (средняя абсолютная ошибка). Она составила ≈ 13 млн рублей, что является неплохим результатом, учитывая сложность рынка недвижимости.
На финальном графике я сравнила реальные и предсказанные цены, и можно сказать, что модель справилась достаточно хорошо.
Выводы
Этот анализ помог мне глубже понять рынок недвижимости Москвы.
Среди ключевых выводов:
✔️ Цена квартиры сильно зависит от близости к метро — удалённость в 10+ минут снижает стоимость. ✔️ Район и станция метро имеют огромное значение — жильё в центре по-прежнему в разы дороже. ✔️ Квартиры с косметическим ремонтом встречаются чаще, чем с дорогой отделкой. ✔️ Средний сегмент — это квартиры 50–70 м² за 15–25 млн рублей.
Изображение сгенерировано с помощью ideogram.ai
Описание применения генеративной модели
Chat GPT — это запросы для получения инструкций и советов по оптимизации кода, ответы на вопросы об использовании функций и библиотек. (URL: https://chatgpt.com)
Leonardo AI — генерация обложки (URL: https://leonardo.ai)
Ideogram.ai — генерация изображений по заданному промту (URL: https://ideogram.ai)
Matplotlib — создание визуализаций на Python (URL:https://matplotlib.org/)
Ссылка на блокнот и датасет: