
Вступление
В качестве материала для анализа я выбрала данные о наблюдениях НЛО из датасета UFO Sightings с платформы Kaggle. Он содержит более 80 000 отчетов за последний век, включая данные о дате и времени, городе, штате, стране, форме объекта, длительности наблюдения, комментариях очевидцев, дате публикации и географических координатах.
Наверняка тема НЛО привлекала многих еще с детства своей загадочностью и таинственностью — в поп-культуре она всегда была окружена яркими образами и легендами. Об НЛО сняты десятки фильмов, сериалов и создано множество игр, а в детстве истории о них воспринимались как захватывающие страшилки — пугающие, но манящие своей загадочностью. Даже если большинство образованных людей относятся к реальным наблюдениям НЛО с изрядной долей скепсиса, мне все равно было интересно взглянуть на эту тему с объективной точки зрения: как жители разных стран, городов и штатов описывали свои встречи с необъяснимым, как менялось восприятие этого феномена с течением времени и какие закономерности можно обнаружить в этих данных
Для визуализации анализа данных я выбрала несколько типов диаграмм.
Линейный график (Line Plot) — позволяет проследить динамику изменений во времени.
Диаграмма с областями (Stacked Area Chart) — дает представление о том, какие значения были наиболее популярны в разные периоды.
Облако слов (Word Cloud) — понятно показывает, какие слова чаще всего используются в комментариях очевидцев.
Гистограмма (Bar Chart) — наглядно визуализирует сравнение количества наблюдений в разных странах и делает акцент на различиях в данных.
Точечная карта (Dot Density Map) — дает детализированное представление о том, какие регионы были особенно «уфологически активны».
Цветная точечная карта (Scatter Plot on Map) — подобно предыдущему графику, позволяет наглядно увидеть, какие цвета НЛО встречались в разных регионах.
Стиль графиков был вдохновлён классической эстетикой «зеленых человечков» и футуризма. Основные цвета — глубокий черный и неоновый зеленый — отсылка к классическим инопланетным темам, футуристичным интерфейсам IBM и компьютерной графике 80-х

Предварительная подготовка
В первую очередь я подключила все библиотеки, которые мне понадобятся позже, а также загрузила и прочитала файл с датасетом
Далее я указываю шрифт и путь к нему
Теперь я визуально анализирую датасет. С помощью кода вывожу первые 10 строк и 10 случайных строк колонок со страной и штатом
Я заметила, что значения в колонке страны не приведены к общему значению, иногда страна вовсе написана в скобках в колонке города. Чтобы это не мешало дальнейшему анализу, я решила оформить эти проблемные колонки. Для начала мы берем строки в «городе», в которых встречаются скобки, и извлекаем их содержание в колонку страны, при этом удаляя сами скобки. Если скобок больше одной, информацию о стране берем из последней. Игнорируем, если длина строки в скобках больше 2 или если есть символы. Если скобок нет и нет значения в country — остается пустая строка. Далее некоторые страны приводим к единому формату (например, страны, записанные как uk, gb, scotland, wales и т. д. обозначаем как gb)
В некоторых строках в колонке с комментариями встречаются HTML-коды символов, которые мешают прочтению, удаляем их
Оформляем значения в колонке со странами. Удаляем все, что в скобках и сами скобки в city. Приводим строки в country к нижнему регистру. Заменяем gb на UK. Если длина страны равна или больше 2 слов, пишем каждое слово с заглавной буквы. Если страна — это 2-3 символа, пишем их заглавными буквами. Остальные страны пишем просто с заглавной буквы. Выводим 10 рандомных значений для проверки
Заполняем пропуски строковых значений во всех колонках и проверяем
Линейный график
Линейный график показывает динамику сообщений о наблюдениях НЛО с первой половины XX века по 2014 год
Основные тренды: небольшое количество наблюдений до середины 1990-х, далее резкий рост и экспоненциальный скачок после 2010 года. Скорее всего такие скачки коррелируют с развитием цифровых технологий, распространением Интернета, популяризацией темы в медиа и как следствие ростом общественного интереса к теме НЛО
Диаграмма с областями
Диаграмма с областями показывает изменение частоты встречаемости 10 основных форм НЛО в наиболее активный период
Топ форм остаётся стабильным: абстрактный «свет» лидирует во все годы, за ним следуют формы «треугольника», «шара», «сигары». Доминирование «света» как формы говорит о том, что многие наблюдения — это нечеткие визуальные аномалии без явной структуры. Возможно, что часть сообщений — это ошибки идентификации известных объектов, например, самолетов или погодных аэростатов
Облако слов
Облако слов визуализирует наиболее частые термины в описаниях очевидцев НЛО. Размер слова отражает частоту его употребления
Чаще всего упоминаются слова, связанные со светом («свет», «яркий»), формой («шар», «треугольник», «диск») и цветом («красный», «оранжевый», «зеленый»). Доминируют описания динамики («летит», «движется», «завис») что указывает на нестандартное поведение объектов. Редко встречаются технические термины — описания эмоциональны и субъективны
Столбчатая диаграмма
Столбчатая диаграмма отображает топ-5 стран по количеству зарегистрированных наблюдений НЛО. Высота столбцов пропорциональна числу случаев
На США приходится подавляющее большинство наблюдений, остальные страны имеют крайне низкие показатели — их столбцы близки к 0. Такой тренд, вероятно, связан с развитой в штатах инфраструктурой для фиксации летающих объектов или с культурными факторами и популяризацией темы в медиа, фильмах, книгах и сериалах
Точечная карта
Картограмма США с точками наблюдений НЛО отражает частоту сообщений в разных штатах. График фокусируется на континентальной части страны, исключая Аляску и Гавайи
Наибольшая активность в Калифорнии, Флориде, Техасе, Вашингтоне, Нью Йорке — штатах с высокой плотностью населения и развитой инфраструктурой. Отсутствие явной корреляции с зонами военно-промышленных комплексов (например, в Неваде) вопреки стереотипам о «Зоне 51». Низкая плотность в сельских районах может объясняться недостатком наблюдателей, НЛО — это в первую очередь городской феномен
Цветная точечная карта
Цветная точечная картограмма США, где, подобно предыдущему графику, каждая точка соответствует наблюдению НЛО, а ее цвет — это цвет, упомянутый очевидцем в его комментарии, который с большой долей вероятности относится к характеристике увиденного объекта
Основные цвета из комментариев: красный (~30%), оранжевый (~28%), белый (~19%), зеленый (~10%)
Подведение итогов
Ключевые выводы:
Рост сообщений о НЛО после 1990-х, вероятно, связан с развитием технологий, а не с реальным увеличением аномальной активности.
Самые распространенные формы НЛО — шар и треугольник, цвета — красный, оранжевый и белый.
Эмоциональные и субъективные описания объектов могут отражать культурные стереотипы из поп-культуры, а не уникальные характеристики, что указывает на ошибки идентификации известных явлений, а стабильность этих паттернов за десятилетия указывает на шаблонность мышления наблюдателей и психологическую природу многих случаев.
Большинство наблюдений сконцентрированы в США, особенно в густонаселенных штатах, что подчеркивает связь статистики с доступностью инструментов фиксации таких событий.
Данные выводы не отрицают возможность аномальных явлений, но подчеркивают необходимость критического анализа источников и отделения фактов от интерпретаций
Описание применения генеративной модели
В рамках работы над проектом я использовала ChatGPT и DeepSeek для оптимизации решения некоторых задач и при возникновении технических проблем, связанных в основном с написанием кода. Основные цели применения: консультация по логике кода, поиск и решение ошибок, поиск релевантных библиотек под конкретный запрос, оформление цветовой палитры в код и поиск HEX-кодов