Original size 2480x3508

Наблюдения НЛО (1941–2014 гг.)

14

Вступление

В качестве материала для анализа я выбрала данные о наблюдениях НЛО из датасета UFO Sightings с платформы Kaggle. Он содержит более 80 000 отчетов за последний век, включая данные о дате и времени, городе, штате, стране, форме объекта, длительности наблюдения, комментариях очевидцев, дате публикации и географических координатах.

Наверняка тема НЛО привлекала многих еще с детства своей загадочностью и таинственностью — в поп-культуре она всегда была окружена яркими образами и легендами. Об НЛО сняты десятки фильмов, сериалов и создано множество игр, а в детстве истории о них воспринимались как захватывающие страшилки — пугающие, но манящие своей загадочностью. Даже если большинство образованных людей относятся к реальным наблюдениям НЛО с изрядной долей скепсиса, мне все равно было интересно взглянуть на эту тему с объективной точки зрения: как жители разных стран, городов и штатов описывали свои встречи с необъяснимым, как менялось восприятие этого феномена с течением времени и какие закономерности можно обнаружить в этих данных

Для визуализации анализа данных я выбрала несколько типов диаграмм.

Линейный график (Line Plot) — позволяет проследить динамику изменений во времени.

Диаграмма с областями (Stacked Area Chart) — дает представление о том, какие значения были наиболее популярны в разные периоды.

Облако слов (Word Cloud) — понятно показывает, какие слова чаще всего используются в комментариях очевидцев.

Гистограмма (Bar Chart) — наглядно визуализирует сравнение количества наблюдений в разных странах и делает акцент на различиях в данных.

Точечная карта (Dot Density Map) — дает детализированное представление о том, какие регионы были особенно «уфологически активны».

Цветная точечная карта (Scatter Plot on Map) — подобно предыдущему графику, позволяет наглядно увидеть, какие цвета НЛО встречались в разных регионах.

Стиль графиков был вдохновлён классической эстетикой «зеленых человечков» и футуризма. Основные цвета — глубокий черный и неоновый зеленый — отсылка к классическим инопланетным темам, футуристичным интерфейсам IBM и компьютерной графике 80-х

big
Original size 3508x1418

Предварительная подготовка

В первую очередь я подключила все библиотеки, которые мне понадобятся позже, а также загрузила и прочитала файл с датасетом

Original size 3508x753

Далее я указываю шрифт и путь к нему

Original size 3508x255

Теперь я визуально анализирую датасет. С помощью кода вывожу первые 10 строк и 10 случайных строк колонок со страной и штатом

Original size 3508x249

Я заметила, что значения в колонке страны не приведены к общему значению, иногда страна вовсе написана в скобках в колонке города. Чтобы это не мешало дальнейшему анализу, я решила оформить эти проблемные колонки. Для начала мы берем строки в «городе», в которых встречаются скобки, и извлекаем их содержание в колонку страны, при этом удаляя сами скобки. Если скобок больше одной, информацию о стране берем из последней. Игнорируем, если длина строки в скобках больше 2 или если есть символы. Если скобок нет и нет значения в country — остается пустая строка. Далее некоторые страны приводим к единому формату (например, страны, записанные как uk, gb, scotland, wales и т. д. обозначаем как gb)

Original size 3508x1418

В некоторых строках в колонке с комментариями встречаются HTML-коды символов, которые мешают прочтению, удаляем их

Original size 3508x243

Оформляем значения в колонке со странами. Удаляем все, что в скобках и сами скобки в city. Приводим строки в country к нижнему регистру. Заменяем gb на UK. Если длина страны равна или больше 2 слов, пишем каждое слово с заглавной буквы. Если страна — это 2-3 символа, пишем их заглавными буквами. Остальные страны пишем просто с заглавной буквы. Выводим 10 рандомных значений для проверки

Original size 3508x1028

Заполняем пропуски строковых значений во всех колонках и проверяем

Original size 3508x309

Линейный график

Линейный график показывает динамику сообщений о наблюдениях НЛО с первой половины XX века по 2014 год

0

Основные тренды: небольшое количество наблюдений до середины 1990-х, далее резкий рост и экспоненциальный скачок после 2010 года. Скорее всего такие скачки коррелируют с развитием цифровых технологий, распространением Интернета, популяризацией темы в медиа и как следствие ростом общественного интереса к теме НЛО

Диаграмма с областями

Диаграмма с областями показывает изменение частоты встречаемости 10 основных форм НЛО в наиболее активный период

0

Топ форм остаётся стабильным: абстрактный «свет» лидирует во все годы, за ним следуют формы «треугольника», «шара», «сигары». Доминирование «света» как формы говорит о том, что многие наблюдения — это нечеткие визуальные аномалии без явной структуры. Возможно, что часть сообщений — это ошибки идентификации известных объектов, например, самолетов или погодных аэростатов

Облако слов

Облако слов визуализирует наиболее частые термины в описаниях очевидцев НЛО. Размер слова отражает частоту его употребления

0

Чаще всего упоминаются слова, связанные со светом («свет», «яркий»), формой («шар», «треугольник», «диск») и цветом («красный», «оранжевый», «зеленый»). Доминируют описания динамики («летит», «движется», «завис») что указывает на нестандартное поведение объектов. Редко встречаются технические термины — описания эмоциональны и субъективны

Столбчатая диаграмма

Столбчатая диаграмма отображает топ-5 стран по количеству зарегистрированных наблюдений НЛО. Высота столбцов пропорциональна числу случаев

0

На США приходится подавляющее большинство наблюдений, остальные страны имеют крайне низкие показатели — их столбцы близки к 0. Такой тренд, вероятно, связан с развитой в штатах инфраструктурой для фиксации летающих объектов или с культурными факторами и популяризацией темы в медиа, фильмах, книгах и сериалах

Точечная карта

Картограмма США с точками наблюдений НЛО отражает частоту сообщений в разных штатах. График фокусируется на континентальной части страны, исключая Аляску и Гавайи

0

Наибольшая активность в Калифорнии, Флориде, Техасе, Вашингтоне, Нью Йорке — штатах с высокой плотностью населения и развитой инфраструктурой. Отсутствие явной корреляции с зонами военно-промышленных комплексов (например, в Неваде) вопреки стереотипам о «Зоне 51». Низкая плотность в сельских районах может объясняться недостатком наблюдателей, НЛО — это в первую очередь городской феномен

Цветная точечная карта

Цветная точечная картограмма США, где, подобно предыдущему графику, каждая точка соответствует наблюдению НЛО, а ее цвет — это цвет, упомянутый очевидцем в его комментарии, который с большой долей вероятности относится к характеристике увиденного объекта

0

Основные цвета из комментариев: красный (~30%), оранжевый (~28%), белый (~19%), зеленый (~10%)

Подведение итогов

Ключевые выводы:

  1. Рост сообщений о НЛО после 1990-х, вероятно, связан с развитием технологий, а не с реальным увеличением аномальной активности.

  2. Самые распространенные формы НЛО — шар и треугольник, цвета — красный, оранжевый и белый.

  3. Эмоциональные и субъективные описания объектов могут отражать культурные стереотипы из поп-культуры, а не уникальные характеристики, что указывает на ошибки идентификации известных явлений, а стабильность этих паттернов за десятилетия указывает на шаблонность мышления наблюдателей и психологическую природу многих случаев.

  4. Большинство наблюдений сконцентрированы в США, особенно в густонаселенных штатах, что подчеркивает связь статистики с доступностью инструментов фиксации таких событий.

Данные выводы не отрицают возможность аномальных явлений, но подчеркивают необходимость критического анализа источников и отделения фактов от интерпретаций

Описание применения генеративной модели

В рамках работы над проектом я использовала ChatGPT и DeepSeek для оптимизации решения некоторых задач и при возникновении технических проблем, связанных в основном с написанием кода. Основные цели применения: консультация по логике кода, поиск и решение ошибок, поиск релевантных библиотек под конкретный запрос, оформление цветовой палитры в код и поиск HEX-кодов

Наблюдения НЛО (1941–2014 гг.)
14
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more