Hip-Hop.Ru

Hip-Hop.Ru (https://www.hip-hop.ru/forum/)
-   Разговоры (https://www.hip-hop.ru/forum/razgovory-f6)
-   -   Исследовательская работа по теме: "Сравнение российской рэп сцены, используя Text Mining. Noize Mc, Каста vs Pharaoh, Morgenshtern" (https://www.hip-hop.ru/forum/issledovatelskaya-rabota-po-teme-sravnenie-rossiiskoi-rap-sceny-550854/)

ozon671games 10 мая 2020 15:14

Исследовательская работа по теме: "Сравнение российской рэп сцены, используя Text Mining. Noize Mc, Каста vs Pharaoh, Morgenshtern"
 
Для анализа я отобрал все студийные официальные альбомы вышедшие у исполнителей:

1. Kasta: «Громче воды, выше травы»; «Быль в глаза»; «Четырёхглавый Орёт»; «Об изъяне понятно» — 74 трека.
2. Noize Mc: «The Greatest Hits Vol. 1»; «Последний альбом»; «Новый альбом»; «Protivo Gunz»; «Неразбериха»; «Hard Reboot 3.0»; «Царь горы»; «Хипхопера: Орфей & Эвридика» — 160 треков.
3. Pharaoh: «Уаджет»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «Правило» — 95 треков.
4. Morgenshtern: «До того как стал известен»; «Улыбнись, дурак!»; «Легендарная пыль» — 30 треков.

Для сбора самих слов я использовал сайт genius.com и их API. К счастью, разработчики сервиса предоставляют открытый интерфейс программирования приложений (API) позволяющий достаточно легко извлекать тексты песен (по артистам, альбомам) из базы данных для их последующего анализа.

Весь анализ был произведён с использованием языка программирования R. Для стемминга был использован python.

На рисунке 1 показано, сколько различных слов было использовано исполнителями в перечисленных выше альбомах

https://hsto.org/webt/1t/y3/al/1ty3alh-0epjabibxofs6mknnua.png
Рисунок 1


Интересно, что Фараон и Нойз имеют практически одинаковое количество альбомов, но, как видно из графика, качество альбомов сильно отличается

Для того, чтобы сделать сравнение более корректным и правильным, было подсчитано сколько в среднем слов использует тот или иной артист в одной своей песне:

Noize Mc — 362 слова.
Каста — 388 слов.
Фараон — 254 слова.
Моргенштерн — 273 слова

На рисунке 2 приведен топ 10 слов у каждого из артистов, а также количество упоминаний этих слов:

https://hsto.org/webt/pe/ge/jo/pegejoisntohgpxoobeqfblugpo.png
Рисунок 2

Без специальной обработки «топ-словами» являются предлоги, местоимения и союзы, которые не отражают никаких результатов и не несут особой смысловой нагрузки.

Следующим этапом была обработка и подготовка текстов для анализа. Процесс стеммизации был произведён с помощью программы mystem от Yandex в Python. Данный шаг был проделан для того, чтобы понять сколько уникальных слов используют артисты и насколько широко они задействуют русский язык в своих текстах. Также для того, чтобы получить более репрезентативный результат необходимо избавиться от стоп-слов, которые не несут эмоциональной и смысловой нагрузки (предлоги, местоимения, частицы и др.).

Как видно из рисунка 3, количество слов значительно уменьшилось после стемминга и удаления стоп-слов.

https://hsto.org/webt/mb/2_/ez/mb2_ezlrkhffyciyuvka2_z2_l0.png
Рисунок 3


Очень важная и интересная информация — это количество уникальных слов у каждого из артистов. У Нойза это 8891 слово, у Касты 5307, у Фараона 3899 и у Моргенштерна 1242. Кто хочет немного расширить свой словарный запас, но не хочет читать книги, может слушать Noize Mc и Касту.

На рисунке 4 приведена информация о наиболее часто используемых словах в исследованных текстах песен

https://hsto.org/webt/lo/ie/i-/loiei-faaqshktl8ubc7bjghy24.png
https://hsto.org/webt/-d/de/g1/-ddeg1cq-omh6m35uvxomf_gkrm.png
Рисунок 4


Так как артисты для написания своих песен используют один язык, будет интересно посмотреть, какие слова чаще всего встречаются в текстах песен всех 4 исполнителей. Для данного графика (Рисунок 5) была использована функция commonality.cloud из пакета «wordcloud». Размер шрифта соответствует частоте упоминаний слова в текстах.

https://hsto.org/webt/y2/hz/9c/y2hz9cp1-7l9c_lxjyaadf4gggw.png
Рисунок 5


Сентиментальный анализ текста


У каждого фильма, книги или песни есть своё настроение, которое передаётся зрителям или слушателям и воздействует на них. Интересно увидеть какое настроение транслируют своим слушателям исполнители старой и новой школы. Узнать это можно проанализировав, слова из какой категории: «Негативные», «Позитивные», «Нейтральные», преобладают в песнях музыкантов.

Моргенштерн. На рисунке 6 представлены слова с частотой повторения более 10 раз.

https://hsto.org/webt/qt/_e/y1/qt_ey1umud_z-zn2znjyrhvdwji.png
Рисунок 6

Довольно сильно выделяется обильное количество красных столбцов, а если разобраться что это за слова, то становится вдвойне печально от того, какой посыл этот исполнитель несет своей аудитории.

Фараон. Лексикон также оставляет желать лучшего. На рисунке 7 представлены слова с частотой повторения более 20 раз.

https://hsto.org/webt/dj/nk/xr/djnkxr6i2bgnuwkqms2b49giqh4.png
Рисунок 7


Каста. Яркое преобладание слов с позитивным оттенком. Да и негативные слова не шокируют своей безнравственностью. Частота >= 25

https://hsto.org/webt/ww/wz/pe/wwwzpes--ubtdgv2gjnbeix_foi.png
Рисунок 8

Ну и напоследок, мастер рифмы и слова Noize Mc (частота >= 30).

https://hsto.org/webt/et/vm/5o/etvm5ojqpcpgpmsvhvhretikqx4.png
Рисунок 9

Обилие негативно окрашенной лексики, которую используют в своих песнях Моргенштерн и Фараон, сказывается на восприятии их песен и на том настроении, которое они транслируют. Сложно получать приятные эмоции от музыки, когда она изо всех сил навязывает тебе обратное.
Так как используемый словарь с сентиментальным разбором содержит в себе далеко не все слова, трудно сделать стопроцентный и уверенный вывод о настроении песен у артистов, так как многое зависит также и от контекста. Однако, я покажу вам сколько и каких слов используют артисты (из того, что удалось присоединить).

https://hsto.org/webt/c8/sx/gm/c8sxgmbgegdpongmzk6apgxfzmw.png
Рисунок 10

Очевидно, что большинство слов у всех артистов имеют нейтральный оттенок, который практически никак не влияет на слушателя. Но, что интересно, Фараон и Моргенштерн используют больше слов с негативным оттенком чем с позитивным. И это, несмотря на неполноценность словаря и отсутствие там множества нецензурных слов и их вариаций

https://hsto.org/webt/uq/l1/ji/uql1jic_q84eaqv1vvomohbzbqi.png
Рисунок 11


У Касты и Нойз Мс также лидируют нейтральные слова, но на втором месте находятся позитивные, которые не вызывают у нас отрицательных эмоций.

Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать. Но взгляните еще раз на графики и подумайте, чем вы хотите наполнить свои будни. Музыка сопровождает нас везде и часто очень сильно влияет на наше настроение, так зачем осознанно каждый день делать его хуже?

Учите языки программирования, развивайтесь и слушайте качественную музыку на написание которой уходит более семи дней онлайн времени на ютубе. Для тех кто не в курсе, альбом Моргенштерна «Легендарная Пыль» записывался 6 дней во время онлайн трансляций на ютубе и в итоге стал самым успешным в карьере Моргенштерна, набрав ВКонтакте миллион прослушиваний за первые полчаса релиза и пять миллионов прослушиваний за одиннадцать часов. За первые два дня после релиза альбом прослушали ВКонтакте более 21 миллиона раз, что является рекордом для социальной сети.

Источник https://habr.com/ru/post/501162/

Февраль 10 мая 2020 15:26

Вроде и нехилая статистика собрана, но она не говорит вообще ни о чем, имхо.

тупой урод 10 мая 2020 15:36

орфей 106 раз ну да нос у нас ниебаца эксперт по античности, наверное илиаду на языке оригинала в мозгу у себя носит.
статья охуенная хотелось бы анализ треков участников семнашки или хотя бы оксимироновны вс боб вс дж вс макулатура/нг
всем чича и суки:cool:

Шломо Шекельштейн 10 мая 2020 15:39

Цитата:

Цитата от Февраль (Сообщение 1080381972)
Вроде и нехилая статистика собрана, но она не говорит вообще ни о чем, имхо.

потому что она собрана от балды
у Носа возьмем 160 треков, а у Фараона в два раза меньше
еще сравним с Кастой, которая вообще-то группа (и в которой изменения происходили)
к тому же непонятно были ли выброшены гостевые куплеты

делал подобную хуйня для треков с семнашки, но забросил:boyara:

Февраль 10 мая 2020 15:40

Цитата:

Цитата от тупой урод (Сообщение 1080381978)
орфей 106 раз ну да нос у нас ниебаца эксперт по античности

«Хипхопера: Орфей & Эвридика» - целый альбомчик про него

Цитата:

Цитата от dimethylmercury (Сообщение 1080381986)
потому что она собрана от балды
у Носа возьмем 160 треков, а у Фараона в два раза меньше
еще сравним с Кастой, которая вообще-то группа (и в которой изменения происходили)
к тому же непонятно были ли выброшены гостевые куплеты

делал подобную хуйня для треков с семнашки, но забросил:boyara:

Да дело не только в этом. Сам анализ поверхностный очень. Негатив\позитив - что это вообще может сказать о музыке артиста? А количество разных слов? На ютубе видел как литературовед какой-то по часу ролики выпускал и обсуждал в них треки того же оксича например. Вот там да, нихуевенький разбор был.

мадлу 10 мая 2020 15:52

ебануться, первая хорошая бакалавровская работа за всю историю университетов

kartisha 10 мая 2020 15:55

респект за то труды,но читать не буду..делать нехуй чтоли:)

fly4supadupa 10 мая 2020 16:03

Хочу стату по Мастеру Шеффу и Паше Технику

Eva Kief 10 мая 2020 16:26

хе, идея прикольная, интересно было бы почитать результаты добротного семантического анализа, но здесь интерпретация, к сожалению, выполнена на очень слабом уровне.

весь мат у автора отнесен к негативным словам, например. хотя «бухать» и «ебать» вполне позитивный смысл могут иметь, ничуть не хуже, чем слова «видеть» и «спать» (Например: не хочу это больше видеть; не могу теперь спать). «никогда» - вполне нейтральное слово, а не негативное ну и так далее.

Добавлено через 3 минуты 28 секунд
Цитата:

Цитата от dimethylmercury (Сообщение 1080381986)
Цитата:

Цитата от Февраль (Сообщение 1080381972)
Вроде и нехилая статистика собрана, но она не говорит вообще ни о чем, имхо.

потому что она собрана от балды
у Носа возьмем 160 треков, а у Фараона в два раза меньше
еще сравним с Кастой, которая вообще-то группа (и в которой изменения происходили)
к тому же непонятно были ли выброшены гостевые куплеты

делал подобную хуйня для треков с семнашки, но забросил:boyara:

количество треков может быть разным, можно взвешивать данные относительно количества всех слов каждого артиста. здесь на мой взгляд нужно добавить к количественному качественный анализ текстов. нужно бы вначале кодировать вручную смысловые куски текста, а уже потом их подсчитывать статистически

Вовка 10 мая 2020 16:39

вот тебе делать нехуй

Любопытный Мужик 10 мая 2020 16:46

знать - , походу ни разу в жизни это слово не использовал в треках :horosho:

Рукажоп 10 мая 2020 16:57

ну хз, статистика ради статистики
автор показал, что нойз умнее фараона и моргенштерна и использует больше разных слов в треках
кто-то в этом сомневался до прочтения этой темы:confused:

PostAnonist 10 мая 2020 18:32

ЭТО HUSTLE, УЁБКИ :seva::guinda::guinda::morkovka:

Гость из Краснодара 10 мая 2020 19:50

автор - хуесос, кто будет читать столько воды про реперов по типу парапоха или эмси квадратная голова :facepalm:

Манга с Руанды 10 мая 2020 22:24

Сфоткай типа я исследователь

KAJF 10 мая 2020 22:32

Башкир хоть "хуй" 35 раз сказал как нормальный пацан:D

ПлавлюМозги 10 мая 2020 22:38

Я как понял мы должны были всех уличить в глагол ной рифмовке знать-давать

LuciusPictorPopenius 10 мая 2020 22:42

все эти реперы довольно близко стоят в плане своей культурной ценности
надо было еще окси сделать, чтобы показать, насколько он графоман

vadik_kot 10 мая 2020 23:18

включите меня в статистику, только количество треков и слов в них одинаковое берите, а то хуйня анализ получается :nuttkase:

seRvak 11 мая 2020 02:32

Цитата:

Цитата от Февраль (Сообщение 1080381972)
Вроде и нехилая статистика собрана, но она не говорит вообще ни о чем, имхо.

Я тоже не догнал. Нахуя она нужна.

rae 11 мая 2020 03:12

ЧИЧА

Драгобыщенский Цыган 11 мая 2020 03:56

ну теперь понятно
нос умный
а моргенштерн тупой

приключения Шурика 11 мая 2020 15:25

Исследовательская работа по теме: без темы.

1. Нос ебаный отрицала, 1707 раз отнекивался
2. Нос дает только друзьям
3. у Носа нет друзей и хочет знать почему
4. Нос бездомный

Не учите языки программирования, не развивайтесь и не слушайте музыку.

сплат 11 мая 2020 17:44

Статистика, которую мы заслужили.

Паринь Палехче 11 мая 2020 17:55

это
всё
плохие
реп
певцы
с**а
г***о
е***ое
тырить


Часовой пояс GMT +3, время: 19:01.

Powered by vBulletin® Version 3.8.11
Copyright ©2000 - 2024, vBulletin Solutions Inc.

vBulletin Optimisation provided by vB Optimise (Pro) - vBulletin Mods & Addons Copyright © 2024 DragonByte Technologies Ltd.