Показать сообщение отдельно
ozon671games
теперь тоже сми...
Аватар для ozon671games
Сообщения: 2,104
Регистрация: 23.06.2009
Старый пост, нажмите что бы добавить к себе блог 10 мая 2020, 15:14
  #1 (ПС)
Исследовательская работа по теме: "Сравнение российской рэп сцены, используя Text Mining. Noize Mc, Каста vs Pharaoh, Morgenshtern"
Для анализа я отобрал все студийные официальные альбомы вышедшие у исполнителей:

1. Kasta: «Громче воды, выше травы»; «Быль в глаза»; «Четырёхглавый Орёт»; «Об изъяне понятно» — 74 трека.
2. Noize Mc: «The Greatest Hits Vol. 1»; «Последний альбом»; «Новый альбом»; «Protivo Gunz»; «Неразбериха»; «Hard Reboot 3.0»; «Царь горы»; «Хипхопера: Орфей & Эвридика» — 160 треков.
3. Pharaoh: «Уаджет»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «Правило» — 95 треков.
4. Morgenshtern: «До того как стал известен»; «Улыбнись, дурак!»; «Легендарная пыль» — 30 треков.

Для сбора самих слов я использовал сайт genius.com и их API. К счастью, разработчики сервиса предоставляют открытый интерфейс программирования приложений (API) позволяющий достаточно легко извлекать тексты песен (по артистам, альбомам) из базы данных для их последующего анализа.

Весь анализ был произведён с использованием языка программирования R. Для стемминга был использован python.

На рисунке 1 показано, сколько различных слов было использовано исполнителями в перечисленных выше альбомах


Рисунок 1


Интересно, что Фараон и Нойз имеют практически одинаковое количество альбомов, но, как видно из графика, качество альбомов сильно отличается

Для того, чтобы сделать сравнение более корректным и правильным, было подсчитано сколько в среднем слов использует тот или иной артист в одной своей песне:

Noize Mc — 362 слова.
Каста — 388 слов.
Фараон — 254 слова.
Моргенштерн — 273 слова

На рисунке 2 приведен топ 10 слов у каждого из артистов, а также количество упоминаний этих слов:


Рисунок 2

Без специальной обработки «топ-словами» являются предлоги, местоимения и союзы, которые не отражают никаких результатов и не несут особой смысловой нагрузки.

Следующим этапом была обработка и подготовка текстов для анализа. Процесс стеммизации был произведён с помощью программы mystem от Yandex в Python. Данный шаг был проделан для того, чтобы понять сколько уникальных слов используют артисты и насколько широко они задействуют русский язык в своих текстах. Также для того, чтобы получить более репрезентативный результат необходимо избавиться от стоп-слов, которые не несут эмоциональной и смысловой нагрузки (предлоги, местоимения, частицы и др.).

Как видно из рисунка 3, количество слов значительно уменьшилось после стемминга и удаления стоп-слов.


Рисунок 3


Очень важная и интересная информация — это количество уникальных слов у каждого из артистов. У Нойза это 8891 слово, у Касты 5307, у Фараона 3899 и у Моргенштерна 1242. Кто хочет немного расширить свой словарный запас, но не хочет читать книги, может слушать Noize Mc и Касту.

На рисунке 4 приведена информация о наиболее часто используемых словах в исследованных текстах песен



Рисунок 4


Так как артисты для написания своих песен используют один язык, будет интересно посмотреть, какие слова чаще всего встречаются в текстах песен всех 4 исполнителей. Для данного графика (Рисунок 5) была использована функция commonality.cloud из пакета «wordcloud». Размер шрифта соответствует частоте упоминаний слова в текстах.


Рисунок 5


Сентиментальный анализ текста


У каждого фильма, книги или песни есть своё настроение, которое передаётся зрителям или слушателям и воздействует на них. Интересно увидеть какое настроение транслируют своим слушателям исполнители старой и новой школы. Узнать это можно проанализировав, слова из какой категории: «Негативные», «Позитивные», «Нейтральные», преобладают в песнях музыкантов.

Моргенштерн. На рисунке 6 представлены слова с частотой повторения более 10 раз.


Рисунок 6

Довольно сильно выделяется обильное количество красных столбцов, а если разобраться что это за слова, то становится вдвойне печально от того, какой посыл этот исполнитель несет своей аудитории.

Фараон. Лексикон также оставляет желать лучшего. На рисунке 7 представлены слова с частотой повторения более 20 раз.


Рисунок 7


Каста. Яркое преобладание слов с позитивным оттенком. Да и негативные слова не шокируют своей безнравственностью. Частота >= 25


Рисунок 8

Ну и напоследок, мастер рифмы и слова Noize Mc (частота >= 30).


Рисунок 9

Обилие негативно окрашенной лексики, которую используют в своих песнях Моргенштерн и Фараон, сказывается на восприятии их песен и на том настроении, которое они транслируют. Сложно получать приятные эмоции от музыки, когда она изо всех сил навязывает тебе обратное.
Так как используемый словарь с сентиментальным разбором содержит в себе далеко не все слова, трудно сделать стопроцентный и уверенный вывод о настроении песен у артистов, так как многое зависит также и от контекста. Однако, я покажу вам сколько и каких слов используют артисты (из того, что удалось присоединить).


Рисунок 10

Очевидно, что большинство слов у всех артистов имеют нейтральный оттенок, который практически никак не влияет на слушателя. Но, что интересно, Фараон и Моргенштерн используют больше слов с негативным оттенком чем с позитивным. И это, несмотря на неполноценность словаря и отсутствие там множества нецензурных слов и их вариаций


Рисунок 11


У Касты и Нойз Мс также лидируют нейтральные слова, но на втором месте находятся позитивные, которые не вызывают у нас отрицательных эмоций.

Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать. Но взгляните еще раз на графики и подумайте, чем вы хотите наполнить свои будни. Музыка сопровождает нас везде и часто очень сильно влияет на наше настроение, так зачем осознанно каждый день делать его хуже?

Учите языки программирования, развивайтесь и слушайте качественную музыку на написание которой уходит более семи дней онлайн времени на ютубе. Для тех кто не в курсе, альбом Моргенштерна «Легендарная Пыль» записывался 6 дней во время онлайн трансляций на ютубе и в итоге стал самым успешным в карьере Моргенштерна, набрав ВКонтакте миллион прослушиваний за первые полчаса релиза и пять миллионов прослушиваний за одиннадцать часов. За первые два дня после релиза альбом прослушали ВКонтакте более 21 миллиона раз, что является рекордом для социальной сети.

Источник https://habr.com/ru/post/501162/

offline
Ответить с цитированием