推荐
作者:猫弟Azz
来源:摩登天空杂志(ID:ModernskyMag)
编辑:
大冰洁
社长说
网友按:猫弟你太叼,数据分析少不了,嘻哈也能分析这样搞,教教我好不好。yo yo……
● 
我们分析了六百万字歌词,告诉你中国的Rapper唱的都是什么嘻哈
当“你有freestyle吗”火遍全网之后,一个个你从来没听过的 rapper 像加拿大土拨鼠播报春天一样冒出洞口——你突然感觉到,HipHop还真要成主流了?我努力努力改天还能靠这个吃饭吗?
然后,你作为一个对HipHop,尤其是中国HipHop毫无了解的吃瓜群众,你自然会好奇以下三个问题:
· HipHop到底在唱些什么?
· 各个国家和地区的 Rapper 们想要说的聊的唱的都有哪些特色?
· 如果想当一个Rapper,我应该怎样写词才能紧跟潮流又不会离题太远?
所以我们用 Python 抓取了中国大陆、台湾、香港、美国、英国五个国家和地区,总共六千万的歌词,其中包括大陆600万的歌词,做了一些数据分析的工作,目的就是给你想要的答案。
我们的数据源选了虾米音乐,因为虾米有详细的嘻哈音乐分类,其它的如网易云音乐、Spotify、iTunes、StreetVoice,要么欠缺对歌手音乐风格的分类,要么分类粗糙,没法当做数据源。
选定虾米音乐之后,写了好一会代码,抓取歌词的爬虫开始蹭蹭工作了 
爬虫一般会面对两个问题——
1.代理问题
频繁地抓取网站的页面,IP 很容易被封。于是写了个抓免费代理的爬虫,抓了八百多个代理 IP,够用了。
2.效率问题
10万首歌,即使是1秒一个请求,那得27个小时,我可等不了27个小时。于是我决定开10个线程,三小时程序就能跑完。
……
然后在三小时之后,我收获一个约100M,49419首歌的数据库。
看着这满满的记录,感受到蜜蜂辛勤搬运后看着蜂蜜的喜悦,我相信,关于HipHop歌词的秘密全部都包含在里边了。
接下来,就是一些数据清洗、处理、分析的工作。
虾米的歌词都是用户编辑上传的,格式不适用数据分析,所以我得把无用的符号、编曲、作词之类的信息除去,然后中英文各自分词。英文需要去停词(对数据分析无用的词,一般没有实际含义,如 is、on、at、which),大小写变换,以及词形变换。英语中词汇有单复数、各种时态,为了易于分析,需要还原为词干。另外不管是中文还是英文都需要词性标注,一般来说分析也就分析名词和形容词,这些现成的开源库使用。
总之,我都搞定了,以下就是分析结果。
歌词中的关键字
我们先看看大陆的 rapper 歌词里有都写啥关键词 
“世界”和“时间”占据首位,“老子”、“兄弟”、“baby”、“money”、“hiphop”、“real” 等词倒是让 rapper 的形象呼之欲出。rapper 的歌词里频繁提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对自己的音乐非常在乎。嘻哈音乐由于有 freestyle 的文化,对亲自写词有要求,否则就不 “ real ” ,从节目中他们对偶像 rapper 的 diss 也能看出来。
接着,我们来看看与其他几个国家和地区的关键词对比↓
看起来 rapper 的生活差不多,无论大陆还是台湾,都喜欢喊 “baby”,身边都有一群“兄弟”和“朋友”,有“梦想”,平时都在唱 “hip hop” ,有“烦恼”了就骂骂街。
亮点是美国的关键字 top1 是 “nigga”,这个和带有种族歧视意味的 “nigger” 还不是一个词。关于这个Tupac 有过一个有意思的定义。
nigger : a black man with a slavery chain around his neck. 
nigga : a black man with a gold chain on his neck.
歌词中的汽车
接下来,为了了解 rapper 的生活状况,我开始分析一些常见词汇在歌词中出现的频率。饶舌歌手们的生活想必少不了豪车,出门骑摩拜可能有被开除 rap 籍的风险。
感谢维基提供汽车品牌页面,并且很贴心的分了英语名称、中国大陆译名,于是我又写了个爬虫把品牌名称抓下来,然后统计数据库中每个品牌出现的频率。 
这是各汽车品牌在国内16284首嘻哈歌曲中出现的情况,在一首歌的歌词中出现算一次,总共约有400多首歌中出现至少一次汽车的品牌名字。可以看出,饶舌歌手喜欢宝马和奔驰的很多,特点只有一个,就是贵!其实夏利、桑塔纳等车也有不少歌提到,但一般表达的是消极情绪。
Rapper们的“饮料”
然后我又统计了一下 rapper 们都喝什么 
红色是国内饶舌歌手的数据,黄色是总数据
看来饶舌歌手不那么喜欢喝威士忌,排在威士忌前面的还分别有龙舌兰、白兰地、朗姆酒,限于图表大小我们没将这几个列入图表。香槟作为富有的象征,遥遥领先,不过国内的饶舌歌手似乎处于消费尚未升级的水平,啤酒排在首位。外国人比较喜欢金酒,国内的饶舌歌手几乎没提到,虽然金酒一般用来调鸡尾酒,但是鸡尾酒提到的次数也是少得可怜。
绝对伏特加在《中国有嘻哈》做广告确实是找对地方了,rapper 们对伏特加有高于常人的偏好。
所以 rapper 们都怎么喝金酒?我看了看歌词:
“Sippin’ gin and juice Layin' underneath the palm trees”
gin&juice 是最常见的组合,由于著名 rapper  Snoop Dogg 发过同名单曲,rapper 们特别喜欢。
“Think we a joke? I'll put three in your throa Drunk off gin and C&C; coke then we flee in a boat”,
金酒兑可乐,听起来不错。
“Swimmin’ under water like I'm aquaman. I used to drink gin now it's vodka man”
这个 rapper 喝腻了,从金酒转到伏特加阵营......
Rapper与管制药物
然后,我们来看一下管制药物的情况 
果然rapper们还是喜欢叶子。
Rapper与脏话
饶舌歌手喜欢互相 diss,所以他们 diss 时会骂些啥?让我们来看看他们都骂了什么脏话。
左边是所有数据的出现次数,右边是大陆说唱的出现次数
大陆16284首歌有2496首出现脏话,脏话率约为15%,而非大陆的数据中,33134首歌有13217首出现脏话,脏话率约为40%。
总的来看,我国歌手比较符合社会主义核心价值观。我试着把 “damn” 和 “shit” 这两个不那么“脏”并且口语常见的词在国外的统计中去掉,最后脏话率还有33%,比例远远高于大陆。一个推测是,英文脏话词汇在歌词中更容易押韵,或者唱起来 flow 更好把握。另一个可能是审查原因,早有“in3” 这样的乐队因为英文歌词原因被禁,国内的 rapper 创作起来可不能太奔放。
歌词中的押韵
最后我们来探讨一下 rap 里的押韵。
在《中国有嘻哈》中我们看到有单押、双押、三押,各种层出不穷的押韵。旋律、押韵、节奏是说唱歌曲三个很重要的评判标准,一个好的押韵,能让歌曲的 flow 更加流畅。 
那么我们怎么才能唱出酷酷的押韵呢?我从歌词库中取出所有歌词,分词,然后根据韵母、声调分类,然后得到了一个押韵词汇文件。
韵脚的分布挺有趣的,我统计了一下出现前十的两字词语韵脚 
可以看出,i i 这个韵脚是最容易押韵的。下图是这个韵脚的部分词汇。“势利”,“世纪”,“日志”,“秘密”……
看着这些词汇,我就情不自禁 rap 起来了,drop the beat!
双押x9 达成!
歌词分析暂时到此为止,以上应该能告诉你中国到底有什么样的嘻哈了吧。
摩登天空杂志(ModernskyMag):
中国音乐杂志界拖刊纪录最久保持者(2000-2016)
社会学了没
泛社会兴趣社区
理解社会 探索自我
微信 ID: socialor
合作请加微信:isocialor
继续阅读
阅读原文