
Введение

Нейросеть Leonardo Ai
Моя малая родина — Ростовская область. С этим местом у меня лично только теплые воспоминания, как и погода в регионе: относительная близость к морю, свежие фрукты, и яркое солнце. Однако очень часто люди, которые впервые узнают откуда я и сколько времени я проводила в тех местах, по-настоящему беспокоятся о пришествиях. А именно о различных случаях криминала: взломов жилищ, краж и даже убийств. На деле, в местности стоит напряженная криминалистическая обстановка. Именно изучение статистики криминальных случаев на Юге РФ стало темой моего финального проекта. У работы высокая актуальность, так как там проживают мои близкие родственники. А демонстрация через графики не только наглядно отобразит данные, но и привлечет внимание к собственной безопасности.
В качества материалов, а именно ресурса со статистикой был использован сайт http://crimestat.ru/opendata, из рекомендованных организаторами курса. Для оформления были выбраны различные виды диаграмм: гистограмма, круговая и также линейные грпфики. Под каждым графиком будет объяснение выбора типа и визуала для него.
Ход работы
В качестве источника данных был взят открытый ресурс из рекомендаций создателей курса
В начале работы, были скачены xml таблицы со статистикой преступлений по всем регионам России из базы данных, которая указана по ссылке выше. Учитывались легкие, средние, тяжкие и особо тяжкие преступления, а также вывелись в отдельную таблицу нераскрытые преступления (тяжкого и особо тяжкого видов).
Далее все выгруженные таблицы были прогнаны через extractor.py и в итоге отобраны только регионы южного федерального округа. И также, полученные данные от сортировались в рамках выставленного временного периода: с 2015-го, по 2022-й год. По похожему принципу, как и в первом случае сортировки, не раскрыте тяжкие и особо тяжкие преступления были выделены в отдельную таблицу.
Парсинг данных из исходных таблиц осуществляться внутри extractor.py с помощью модуля xml.etree.ElementTree, строки соответствующие фильтрам сохраняются в новые XML таблицы, на основе которых в последующем строится инфографика.
Для создания изображений использовалась нейросеть, во избежании путаницы с авторскими правами и излишней демонстрацией жестокости
Для обложки проекта в строку нейросети Leonardo Ai был написан следующий промпт:
«white Russian police cars crowded under the entrance of a gray panel soviet house. next to the policeman in the foreground depicted multiple oranges and light green blocks».
Из готовых пресетов в разделе «модель» «graphic design», в «стиль» был выбран «graphic design 3D».
Нейросеть Leonardo Ai
Для других изображений в лонгриде на сайте нейросети Leonardo Ai был использован тот же промпт, что и для обложки и те же готовые пресеты. По сути, были отобраны другие вариции изображения.
Для последнего изображения был написан следующий промпт:
«policemen crowded under the entrance to the public sand beach. next to the policeman in the foreground is a boy with a green inflatable an orange and green circle.»
Из готовых пресетов в разделе «модель» «graphic design», в «стиль» был выбран «graphic design 3D».
При работе использовалась Mixtral 8x7B
При выполнении работы использовалась модель Mixtral 8×7B. Главным образом для следующего:
1. Оптимизации экстрактора под работу с большими xml таблицами 2. Обучения использования библиотеки matplotlib и модуля pyplot 3. Некоторой помощи с разработкой логики для построение сложенных столбчатых диаграмм по не раскрытым преступлениям
также использовался codeium (https://codeium.com/) для упрощения и ускорения разработки
Палитра оформления / gradients.app.ru
Определенного референса для графиков не было, но главная цель была — наглядность статистических данных. Так как их объем был достаточно большой, то были выбраны диаграммы отображающие сравнительную информацию, динамику развития и соотношение массы и отдельной ее части.
В качестве цветового решения там, где была возможность, были использованы оттенки взятые с изображений сгенерированных нейросетью, с помощью инструмента «пипетка».
Были выделены следующие цвета по коду HEX:
#E98B41 #65aa71 #73aee8 #252c3e
Эти же цвета применялись для оформления проекта.
График 1
Соотношение преступлений по регионам и типам тяжести. Для отображения этой статистики была выбрана круговая диаграмма, подходящая для демонстрации соотношения величин. Было проделано вычисление доли каждого типа тяжести (особой, тяжкой, средней, небольшой) в общем объёме преступлений за год или весь выбранный период (10 лет, с 2015-го, по 2022-й). Главная цель — выяснить какой тип преступлений преобладает. Определенное облегчение вызывает тот факт, что самые преобладающие типы преступлений это небольшой и средней тяжести, однако, 25% в каждом регионе приходится на тяжкие преступления. Особо тяжкие составляют наименьшую долю, возможно по причине сложности исполнения.
График 2
Количество преступлений на душу населения по годам и регионам. Для изучения этой статистики был выбран линейный график с несколькими рядами данных, где ось X — кол-во преступлений на душу населения, а ось Y — год. Причина выбора объема данных. Проводилось не только сравнение между регионами, но и также учитывалось время (с 2015-го по 2022-й год), также анализируя уровень преступности в расчёте на 1000 человек населения для каждого региона. Главные цели — выявление региона-лидера по преступности за весь указанный период, и сравнение преступность с учетом населения, а не абсолютных чисел.
Полученные данные можно разделить на категории.
1. Районы, где видна отчетливая тенденция на спад количества преступлений на душу населения: Республика Крым (коричневый) и Республика Калмыкия (фиолетовый). 2. Районы, где видна отчетливая тенденция на возрастание количества преступлений на душу населения: Краснодарский край (зеленый) и г. Севастополь. 3. Районы, где сохраняется умеренное значение количества преступлений на душу населения: Астраханская область (синий), Ростовская (розовый) и Волгоградская (желтый) области, Республика Адыгея (красный).
Основные пиковые значения практически для всех регионов пришлись на 2015 год, и период с 2019-го по 2022-й. Связано это с последствиями экономического кризиса 2014 года, Коронавирусной пандемией, начавшейся в 2019-м и политическими потрясениями начала 2020-х.
График 3
Третий график посвящен сравнению раскрываемости тяжких и особо тяжких преступлений по регионам. Для демонстрации был выбран столбчатый вид диаграммы, наглядно показывающий соотношение велечин и сравнение. Целью было выявить регионы-лидеры по количеству этого вида преступлений, при этом учитывая количество незавершенных дел. Становится ясно, что Краснодарский край имеет ошиломительный в плохом смысле этого слова показатель по совершенным тяжким преступлениям, при этом раскрытым. Он также демонстриует высокое число нераскрытых преступлений выской и сосбой тяжкости. На втором месте по показателям Ростовская область. А наиболее спокойными регионами: г. Севастополь, рспублики Адыгея и Калмыкия.
График 4
Количество тяжких и особо тяжких преступлений на душу населения по регионам. На графике рассмотрены только преступления особой тяжести как индикатор опасности. Была сделана оценка доли преступлений особой тяжести в каждом регионе за весь указанный выше период. В качестве демонстрации была выбрана столбчатая диаграмма. Целью ставилось понимание, где риск преступлений особой тяжести выше. Анализируя результаты, можно понять, что на Юге страны к началу 2020-го года увеличилось общее количество преступлений средней тяжести, когда как преступления высокой тяжести варьируются. При этом, наблюдается и общий рост преступности. Наиболее низкие значения на фоне других областней и регионов получились у города Севастополя, видимо по причине статуса города Федерального значения РФ. Наибольшую отрицательную статистику показали следующие регионы: Краснодарский край, Астраханская область и республика Крым. В них количество особо тяжких преступлений увеличилось.
Выводы
К сожалению, выводы по ситуации очевидно плачевные. По полученным данным на Юге России уровень преступности с 2020-го года значительно возрос. Самыми высокими по количеству совершений стали преступления легкой и средней тяжести. Что подтверждает опасение людей из моего окружения. Очевидно, регион можно считать достаточно опасным для проживания.
Такой массив данных и чтение статистики совершалось в разы удобнее при использовании азов программирования. Подытоживая, язык Python является не только универсальным инструментом в сфере IT, но и отныне может применяться для повышения осведомлённости о собственной безопасности родных и близких.
Нейросеть Leonardo Ai