
Описание

По данным Всемирной организации здравоохранения (ВОЗ), инсульт занимает второе место среди причин смертности в мире. Эта тема интересует меня не только с научной точки зрения, но и имеет личное значение. Моя семья также столкнулась с этим заболеванием: у моей бабушки произошёл инсульт левого полушария мозга. Инсульт — это серьёзная патология, которая влечёт за собой тяжёлые последствия для организма, вплоть до полной потери дееспособности. Крайне важно своевременно диагностировать инсульт, поскольку ранняя диагностика и анализ факторов риска могут помочь предотвратить инсульт или минимизировать его последствия. Возможно, результаты такого анализа станут полезными для других людей и помогут вовремя выявлять угрозу и защищать своих близких.
Для анализа я выбрала Stroke Prediction Dataset, размещённый на платформе Kaggle. Этот набор данных предоставляет информацию о различных факторах, влияющих на вероятность инсульта, и идеально подходит для задачи прогнозирования.

Сгенерированные изображения в Midjorney1

Цветовая палитра
Я черпала вдохновение в образах МРТ-снимков, выполненных в сине-голубой палитре с розовыми акцентами на очаговых участках. Для разработки концепции стилистического оформления я опиралась на изображения, сгенерированные посредством Midjourney, что помогло мне задать тон проекта и определить цветовую гамму.
Я стремилась передать ощущение медицинской среды и добавить намек на технологичность. Цветовая палитра проекта включает оттенки #C63D73, #FED2EA, #00B1F1, #0053B9 и #003680, которые применялись для оформления графиков и презентации.
- a detailed MRI scan of a human brain, viewed as medical imaging. The color palette includes shades of blue and pink, maintaining realistic medical details. The brain structure is clear and intricate - illustration of the human brain, showing intricate neural connections and glowing cells. The background is a dark blue with subtle red lights representing some parts in focus - close-up of doctors examining an MRI scan showing the brain in a medical setting, with a blue color palette, high-resolution photography - blue and red glowing neurons in the brain, macro photography, hyper-realistic
В ходе анализа данных я выбрала определенные виды графиков, поскольку они кажутся мне самыми подходящими и информативными для визуализации, а именно:
- круговые диаграммы - кольцевые диаграммы - линейный график - матрица корреляций - точечный график - столбчатый график
Обработка данных
Я импортировала необходимые библиотеки: numpy, matplotlib, pandas, matplotlib.colors и seaborn, а затем загрузила данные из CSV-файла «HT_DS.csv» в переменную df для удобной работы с таблицей.
После загрузки данных я начала подготовку информации для круговых диаграмм. Я создала подмножества для анализа распределения по полу, гипертонии, сердечно-сосудистым заболеваниям, семейному положению и типу места проживания, сохранив результаты в переменные GD, HT, HD, EM и RT.
Далее обработала данные для двух кольцевых диаграмм. Распределение по статусу курения сохранено в переменной Smoke, а распределение по типу работы — в переменной WT.
Для построения линейного графика, чтобы убедиться, что все значения корректно преобразованы в числовой формат, я применила функцию pd.to_numeric с параметром errors='coerce', который автоматически заменяет некорректные данные на пустые значения. После чего подсчитала кол-во уникальных совпадений value_counts () и отсортировала данные по индексу с помощью sort_index (). Результат сохранила в переменную Ages.
Для тепловой карты я отфильтровала данные по людям, перенёсшим инсульт, и сохранила их в переменную MK. Затем отфильтровала данные для людей с инсультом и оставила только значимые признаки, сохранив их в переменную MK1. После этого рассчитала корреляционную матрицу с помощью метода .corr () и сохранила результат в переменной matrix.
В случае с построением столбчатого графика, я обработала данные о возрасте и индексе массы тела (BMI) для мужчин и женщин, перенёсших инсульт. Для каждой группы рассчитала средние значения BMI по возрасту, сгруппировав данные с использованием .groupby ('age') и метода .agg ({'bmi': 'mean'}). После фильтрации был применен метод сброса индекса reset_index () для удобной работы с полученными данными. Итог был сохранен в переменные MData (для мужчин) и FMData (для женщин).
Для построения точечного графика были сформированы две переменные. x_AG — содержит значения возраста пациентов с инсультом, а y_AG — значения среднего уровня глюкозы в их крови.
Визуализация данных
— График № 1
Круговые диаграммы. Распределение пациентов с инсультом по полу, наличию гипертонии, сердечных заболеваний, семейному статусу и типу местности проживания
На основе представленных круговых диаграмм можно сделать несколько интересных выводов:
Мужчины оказались более подвержены инсульту (56.63%) по сравнению с женщинами (43.37%), что может быть связано с различиями в образе жизни и факторах риска у представителей разных полов.
Большая часть пациентов с инсультом (73.49%) не имела гипертонии, однако у 26,51% она присутствовала, что подтверждает гипертонию как один из факторов риска, но далеко не единственный.
Проблемы с сердцем были выявлены лишь у 18,88% пациентов, тогда как у подавляющего большинства (81.12%) сердечно-сосудистые заболевания отсутствовали, что указывает на их меньшую распространённость среди людей, перенёсших инсульт.
Интересно, что только 11,65% пациентов состояли в браке, тогда как 88,35% были неженаты или не замужем, что в теории могло свидетельствовать о влиянии социальных и психоэмоциональных факторов на здоровье.
Также стоит отметить, что показатели инсульта, проживающих в городской местности (54.22%) и в сельской (45.78%), наводят на мысли о небольшом влиянии местности обитания на вероятность возникновения инсульта.
— График № 2
Кольцевая диаграмма. Курение как фактор риска: статус курящих пациентов с инсультом
Наибольшая доля пациентов (36.14%) никогда не курили, что свидетельствует о том, что инсульт может возникать и у людей без привычки к курению, под влиянием других факторов риска. Однако, значительная часть пациентов курят или ранее курили, что подтверждает долгосрочное негативное воздействие курения на здоровье и его связь с риском инсульта даже после отказа от этой привычки. В совокупности график подтверждает значительную роль курения в возникновении инсульта и подчёркивает важность контроля этой привычки для снижения рисков.
Кольцевая диаграмма. Типы занятости среди людей с инсультом
Решила использовать данный тип графика также и для данных о занятости пациентов и проанализировать влияние трудовой нагрузки на вероятность возникновения инсульта.
Наиболее уязвимыми группами по результатам диаграммы являются работники частного сектора и самозанятые, которые вместе составляют более 85% выборки. Люди из этих категорий нередко сталкиваются с нерегулярным графиком, отсутствием полноценного отдыха и высоким уровнем ответственности, что может способствовать развитию не только инсульта, но и других заболеваний, например, сердечной недостаточности.
На третьем месте по численности находятся пациенты, занятые в государственных структурах — 13,25%. Небольшой показатель этой группы может говорить о более стабильных условиях труда. И минимальную долю составляют дети — 0,80%, что вполне ожидаемо, поскольку инсульт преимущественно возникает у взрослого и пожилого населения.
— График № 3
Линейный график. Зависимость количества случаев инсульта от возраста пациентов
Наибольшее количество инсультов приходится на пожилой возраст. Начиная с 45 лет, наблюдается рост количества инсультов, который особенно выражен после 55 лет и достигает пика в диапазоне 75–80 лет. Пожилой возраст является одним из основных факторов риска инсульта и требует к себе особого внимания. Минимальное же количество случаев — в молодом возрасте. В возрастных группах до 30 лет количество инсультов крайне низкое, практически близкое к нулю, но тоже стоит оставаться внимательным к своему здоровью и применять профилактические меры.
— График № 4
Матрица корреляций возможных причин инсульта
Матрица корреляций показывает степень зависимости между возможными причинами инсульта. Например, самая сильная положительная корреляция наблюдается между средним уровнем глюкозы и индекса массы тела (0.34), что подтверждает связь избыточного веса с повышением сахара в крови. Также есть умеренная связь между уровнем глюкозы и сердечно-сосудистыми заболеваниями (0.25). Корреляции между другими факторами, такими как гипертония и сердечно-сосудистые заболевания, оказались крайне слабыми, это может говорить о том, что они развиваются независимо друг от друга. Однако, важно отметить, что несмотря на низкие значения корреляций, каждый из этих факторов имеет значительное влияние на вероятность возникновения инсульта, особенно при их комбинации.
— График № 5
Столбчатый график. Средний уровень ИМТ у пациентов с инсультом в зависимости от возраста и пола
С возрастом индекс массы тела (ИМТ) у людей увеличивается, что может быть связано с изменениями метаболизма, гормональным сбоем, снижением мышечной массы и ухудшением общего состояния здоровья. Ожирение является известным фактором риска инсульта, поэтому особенно важно отслеживать свое состояние.
Анализ данных показал, что возрастной интервал 45–80 лет является наиболее критическим: средний ИМТ в этот период стабильно высок (30–35 и выше). Это подчёркивает необходимость контроля массы тела и профилактики ожирения у людей старше 45 лет для снижения вероятности инсульта.
Интересное наблюдение — гендерные различия: в некоторых возрастных группах, например, около 50 и 70 лет, у мужчин значения ИМТ достигают 45. Такое высокое значения ИМТ — говорит о тяжелом ожирении, которое является одним из ведущих факторов и показывает повышенную уязвимость перед риском инсульта. У женщин средние значения ИМТ также остаются высокими, но менее выражены по сравнению с мужчинами.
— График № 6
Точечный график. Влияние возраста и среднего уровня глюкозы на возникновение инсульта
Пожилые люди и высокий уровень глюкозы — два этих фактора значительно повышают вероятность развития инсульта. Особое внимание следует уделять пациентам старше 50 лет с показателями глюкозы выше 200 мг/дл, так как это сигнализирует о серьезных нарушениях обмена веществ и необходимости медицинского контроля.
Применение генеративных нейросетей
Ссылки: Adobe color — генерация цветовой палитры на основе загруженного изображения
Midjourney — генерация обложки и изображений для стилистического поиска