
В этом проекте я проанализирую произведение Льва Николаевича Толстого «Война и мир» и посчитаю сколько раз в тексте упоминаются слова «война», «мир» и «любовь».

война
«Война и мир» является основой русской классической литературы. Было интересно посмотреть насколько часто в тексте упоминаются заглавные темы.
Зачем?
1. Позволяет проследить преобладающую тему в каждом томе. 2. Помогает исследователям и студентам анализировать развитие конфликтов, изменение фокуса повествования. 3. Может помочь людям лучше ориентироваться в содержании произведения и понимать его структуру.

мир
Вдохновление для оформления проекта я черпала из сериала Сергея Бондарчука «Война и мир» 1965 года. Так же в проекте я использую шрифт стилизованный под печатную машинку, для передачи исторического настроения.

любовь
В качестве исходных данных я использовала текст книги в формате txt, который скачала в интернете.
Для графиков я выбрала линейные и круговые диаграммы, так как они оказались наиболее удобными для отображения результатов исследования.
Использование библиотек
В коде использованы библиотека re для работы с регулярными выражениями, pandas для обработки и анализа табличных данных, matplotlib.pyplot для основной визуализации данных, matplotlib.font_manager для работы со шрифтами.
Обработка данных
Код открывает файл book.txt, читает его построчно и ищет заголовки томов, частей и глав. Когда код встречает новый заголовок, он сохраняет текст предыдущей главы в список records и переходит к следующему разделу.
Код использует регулярные выражения для поиска слов в тексте каждой главы. Ищет слова «война», «мир», «любовь» и их вариации. Считает, сколько раз слово встречается в тексте главы. Записывает результат в таблицу df.
Код собирает всю информацию в DataFrame, чтобы затем её визуализировать. Оставляет нужные колонки: Том, Часть, Глава, количество слов. Создаёт новый столбец Section, чтобы удобнее было строить графики.
Визуализация
Круговая диаграмма показывает, что слово война является самым употребляемым в произведении. Это указывает на то что Лев Толстой уделяет больше всего внимание именно этой теме, так как она является наиболее важной в этой книге. Война становится трагедией, на фоне которой развиваются жизни главных героев.
С помощью этих графиков можно проследить, что первый и четвертый том являются наиболее отстраненными от основных тем. Второй том больше затрагиввает описание обычной бытовой жизни, отношений между людьми, в нем наибольшее количество раз упоминаются слова «любовь» и «мир». В третьем томе наибольшее количество раз упоминается слово «война», мы можем понять, что именно в нем разворачиваюся самые большие батальные сцены.
С помощью общего графика можно проследить общую композицию произведения. Это может помочь людям лучше ориентироваться в романе. Также, например, писатели или сценаристы с помощью этих данных могут лучше понимать, как построено данное произведение.