Исследовательская работа по теме: "Сравнение российской рэп сцены, используя Text Mining. Noize Mc, Каста vs Pharaoh, Morgenshtern" Для анализа я отобрал все студийные официальные альбомы вышедшие у исполнителей: 1. Kasta: «Громче воды, выше травы»; «Быль в глаза»; «Четырёхглавый Орёт»; «Об изъяне понятно» — 74 трека. 2. Noize Mc: «The Greatest Hits Vol. 1»; «Последний альбом»; «Новый альбом»; «Protivo Gunz»; «Неразбериха»; «Hard Reboot 3.0»; «Царь горы»; «Хипхопера: Орфей & Эвридика» — 160 треков. 3. Pharaoh: «Уаджет»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «Правило» — 95 треков. 4. Morgenshtern: «До того как стал известен»; «Улыбнись, дурак!»; «Легендарная пыль» — 30 треков. Для сбора самих слов я использовал сайт genius.com и их API. К счастью, разработчики сервиса предоставляют открытый интерфейс программирования приложений (API) позволяющий достаточно легко извлекать тексты песен (по артистам, альбомам) из базы данных для их последующего анализа. Весь анализ был произведён с использованием языка программирования R. Для стемминга был использован python. На рисунке 1 показано, сколько различных слов было использовано исполнителями в перечисленных выше альбомах https://hsto.org/webt/1t/y3/al/1ty3alh-0epjabibxofs6mknnua.png Рисунок 1 Интересно, что Фараон и Нойз имеют практически одинаковое количество альбомов, но, как видно из графика, качество альбомов сильно отличается Для того, чтобы сделать сравнение более корректным и правильным, было подсчитано сколько в среднем слов использует тот или иной артист в одной своей песне: Noize Mc — 362 слова. Каста — 388 слов. Фараон — 254 слова. Моргенштерн — 273 слова На рисунке 2 приведен топ 10 слов у каждого из артистов, а также количество упоминаний этих слов: https://hsto.org/webt/pe/ge/jo/pegejoisntohgpxoobeqfblugpo.png Рисунок 2 Без специальной обработки «топ-словами» являются предлоги, местоимения и союзы, которые не отражают никаких результатов и не несут особой смысловой нагрузки. Следующим этапом была обработка и подготовка текстов для анализа. Процесс стеммизации был произведён с помощью программы mystem от Yandex в Python. Данный шаг был проделан для того, чтобы понять сколько уникальных слов используют артисты и насколько широко они задействуют русский язык в своих текстах. Также для того, чтобы получить более репрезентативный результат необходимо избавиться от стоп-слов, которые не несут эмоциональной и смысловой нагрузки (предлоги, местоимения, частицы и др.). Как видно из рисунка 3, количество слов значительно уменьшилось после стемминга и удаления стоп-слов. https://hsto.org/webt/mb/2_/ez/mb2_ezlrkhffyciyuvka2_z2_l0.png Рисунок 3 Очень важная и интересная информация — это количество уникальных слов у каждого из артистов. У Нойза это 8891 слово, у Касты 5307, у Фараона 3899 и у Моргенштерна 1242. Кто хочет немного расширить свой словарный запас, но не хочет читать книги, может слушать Noize Mc и Касту. На рисунке 4 приведена информация о наиболее часто используемых словах в исследованных текстах песен https://hsto.org/webt/lo/ie/i-/loiei-faaqshktl8ubc7bjghy24.png https://hsto.org/webt/-d/de/g1/-ddeg1cq-omh6m35uvxomf_gkrm.png Рисунок 4 Так как артисты для написания своих песен используют один язык, будет интересно посмотреть, какие слова чаще всего встречаются в текстах песен всех 4 исполнителей. Для данного графика (Рисунок 5) была использована функция commonality.cloud из пакета «wordcloud». Размер шрифта соответствует частоте упоминаний слова в текстах. https://hsto.org/webt/y2/hz/9c/y2hz9cp1-7l9c_lxjyaadf4gggw.png Рисунок 5 Сентиментальный анализ текста У каждого фильма, книги или песни есть своё настроение, которое передаётся зрителям или слушателям и воздействует на них. Интересно увидеть какое настроение транслируют своим слушателям исполнители старой и новой школы. Узнать это можно проанализировав, слова из какой категории: «Негативные», «Позитивные», «Нейтральные», преобладают в песнях музыкантов. Моргенштерн. На рисунке 6 представлены слова с частотой повторения более 10 раз. https://hsto.org/webt/qt/_e/y1/qt_ey1umud_z-zn2znjyrhvdwji.png Рисунок 6 Довольно сильно выделяется обильное количество красных столбцов, а если разобраться что это за слова, то становится вдвойне печально от того, какой посыл этот исполнитель несет своей аудитории. Фараон. Лексикон также оставляет желать лучшего. На рисунке 7 представлены слова с частотой повторения более 20 раз. https://hsto.org/webt/dj/nk/xr/djnkxr6i2bgnuwkqms2b49giqh4.png Рисунок 7 Каста. Яркое преобладание слов с позитивным оттенком. Да и негативные слова не шокируют своей безнравственностью. Частота >= 25 https://hsto.org/webt/ww/wz/pe/wwwzpes--ubtdgv2gjnbeix_foi.png Рисунок 8 Ну и напоследок, мастер рифмы и слова Noize Mc (частота >= 30). https://hsto.org/webt/et/vm/5o/etvm5ojqpcpgpmsvhvhretikqx4.png Рисунок 9 Обилие негативно окрашенной лексики, которую используют в своих песнях Моргенштерн и Фараон, сказывается на восприятии их песен и на том настроении, которое они транслируют. Сложно получать приятные эмоции от музыки, когда она изо всех сил навязывает тебе обратное. Так как используемый словарь с сентиментальным разбором содержит в себе далеко не все слова, трудно сделать стопроцентный и уверенный вывод о настроении песен у артистов, так как многое зависит также и от контекста. Однако, я покажу вам сколько и каких слов используют артисты (из того, что удалось присоединить). https://hsto.org/webt/c8/sx/gm/c8sxgmbgegdpongmzk6apgxfzmw.png Рисунок 10 Очевидно, что большинство слов у всех артистов имеют нейтральный оттенок, который практически никак не влияет на слушателя. Но, что интересно, Фараон и Моргенштерн используют больше слов с негативным оттенком чем с позитивным. И это, несмотря на неполноценность словаря и отсутствие там множества нецензурных слов и их вариаций https://hsto.org/webt/uq/l1/ji/uql1jic_q84eaqv1vvomohbzbqi.png Рисунок 11 У Касты и Нойз Мс также лидируют нейтральные слова, но на втором месте находятся позитивные, которые не вызывают у нас отрицательных эмоций. Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать. Но взгляните еще раз на графики и подумайте, чем вы хотите наполнить свои будни. Музыка сопровождает нас везде и часто очень сильно влияет на наше настроение, так зачем осознанно каждый день делать его хуже? Учите языки программирования, развивайтесь и слушайте качественную музыку на написание которой уходит более семи дней онлайн времени на ютубе. Для тех кто не в курсе, альбом Моргенштерна «Легендарная Пыль» записывался 6 дней во время онлайн трансляций на ютубе и в итоге стал самым успешным в карьере Моргенштерна, набрав ВКонтакте миллион прослушиваний за первые полчаса релиза и пять миллионов прослушиваний за одиннадцать часов. За первые два дня после релиза альбом прослушали ВКонтакте более 21 миллиона раз, что является рекордом для социальной сети. Источник https://habr.com/ru/post/501162/ |
Вроде и нехилая статистика собрана, но она не говорит вообще ни о чем, имхо. |
орфей 106 раз ну да нос у нас ниебаца эксперт по античности, наверное илиаду на языке оригинала в мозгу у себя носит. статья охуенная хотелось бы анализ треков участников семнашки или хотя бы оксимироновны вс боб вс дж вс макулатура/нг всем чича и суки:cool: |
Цитата:
у Носа возьмем 160 треков, а у Фараона в два раза меньше еще сравним с Кастой, которая вообще-то группа (и в которой изменения происходили) к тому же непонятно были ли выброшены гостевые куплеты делал подобную хуйня для треков с семнашки, но забросил:boyara: |
Цитата:
Цитата:
|
ебануться, первая хорошая бакалавровская работа за всю историю университетов |
респект за то труды,но читать не буду..делать нехуй чтоли:) |
Хочу стату по Мастеру Шеффу и Паше Технику |
хе, идея прикольная, интересно было бы почитать результаты добротного семантического анализа, но здесь интерпретация, к сожалению, выполнена на очень слабом уровне. весь мат у автора отнесен к негативным словам, например. хотя «бухать» и «ебать» вполне позитивный смысл могут иметь, ничуть не хуже, чем слова «видеть» и «спать» (Например: не хочу это больше видеть; не могу теперь спать). «никогда» - вполне нейтральное слово, а не негативное ну и так далее. Добавлено через 3 минуты 28 секунд Цитата:
|
вот тебе делать нехуй |
знать - , походу ни разу в жизни это слово не использовал в треках :horosho: |
ну хз, статистика ради статистики автор показал, что нойз умнее фараона и моргенштерна и использует больше разных слов в треках кто-то в этом сомневался до прочтения этой темы:confused: |
ЭТО HUSTLE, УЁБКИ :seva::guinda::guinda::morkovka: |
автор - хуесос, кто будет читать столько воды про реперов по типу парапоха или эмси квадратная голова :facepalm: |
Сфоткай типа я исследователь |
Башкир хоть "хуй" 35 раз сказал как нормальный пацан:D |
Я как понял мы должны были всех уличить в глагол ной рифмовке знать-давать |
все эти реперы довольно близко стоят в плане своей культурной ценности надо было еще окси сделать, чтобы показать, насколько он графоман |
включите меня в статистику, только количество треков и слов в них одинаковое берите, а то хуйня анализ получается :nuttkase: |
Цитата:
|
ЧИЧА |
ну теперь понятно нос умный а моргенштерн тупой |
Исследовательская работа по теме: без темы. 1. Нос ебаный отрицала, 1707 раз отнекивался 2. Нос дает только друзьям 3. у Носа нет друзей и хочет знать почему 4. Нос бездомный Не учите языки программирования, не развивайтесь и не слушайте музыку. |
Статистика, которую мы заслужили. |
это всё плохие реп певцы с**а г***о е***ое тырить |
Часовой пояс GMT +3, время: 19:01. |
Powered by vBulletin® Version 3.8.11
Copyright ©2000 - 2024, vBulletin Solutions Inc.
vBulletin Optimisation provided by
vB Optimise (Pro) -
vBulletin Mods & Addons Copyright © 2024 DragonByte Technologies Ltd.