Python爬虫进阶:如何爬取网易云两百万热歌 3000+人都想要的干货

本教程完全基于Python3版本,主要使用Chrome浏览器调试网页、Scrapy框架爬取数据、MongoDB数据库存储数据,选择这个组合的理由是成熟、稳定、快速、通行,此外可能会涉及Requests+BeautifulSoup解析、Redis数据库、Djiango/Flask框架等,适合已有一定爬虫基础的朋友学习爬取主流网站数据。

Python爬虫进阶:如何爬取网易云两百万热歌 3000+人都想要的干货

完全没有爬虫基础的朋友,亦可借由本系列文章,大致了解一下爬虫的流程与应用。

如果有想要学习Python的朋友,可以关注,转发。后台私信小编“01”获取学习视频资料。

网易云音乐作为时下最流行的一款音乐软件,其红色的UI、唱碟的背景、走心的用户评论凝聚成一个文化标志,虽然网易不比BAT的雄厚资金基础,作为一款走心的音乐软件还不能拿下很多流行歌手的版权,但是这不妨碍我们继续使用它,在这里,总有无数种可能,有时,它就是你的一天。

但是,现在的歌曲越来越多,我们已经不可能听完所有的歌(无论你是网易云音乐满级用户还是黑胶用户),甚至有很多好歌、符合自己口味的小众歌也无法被我们所发现所珍藏,因此通过爬取其相关数据,能够满足我们的一些需求。

本期目标,得到网易云音乐所有歌曲的评论量,基于评论量排序得到一个数据支撑的TOP歌单。虽然目前已经有很多用户自己创建了年度热歌、10万加等歌单,但是作为数据爱好者,我们希望能亲眼看到一个完全准确的动态排序结果。

01

工作流程

根据前期查询、分析、总结,得到一条实现本项目的路径:

Python爬虫进阶:如何爬取网易云两百万热歌 3000+人都想要的干货

爬取网易云200万热歌的流程

在网易云,每位歌手、每张专辑、每首歌、每个歌单、每位用户等等,都对应着1个ID,初期的时候我有设想将ID从0迭代到100亿,因为网易云歌曲现在的ID已经达到10位数,后来发现是自己太天真了,Scrapy的爬取速度在每分钟500-1500页,视网速、配置、是否多进程、是否采用分布式爬取等性能有关,假设每分钟1千页,每小时就是6万,一天才只能爬100万页而已,100亿需要的时间我已经无法想象。

尽管歌曲的ID已经达到了10位数,但实际的歌曲数量应该只在千万级别,我们通过15个分区、27个索引,每页爬取给出的82位歌手能得到33210位歌手,再爬取他们的专辑以及专辑下的单曲,最后能得到接近200万首歌,再访问200万首歌曲对应的评论页面得到评论数,即可得到我们想要的数据与数据量。

整体的项目强度为:15*27(分区数) + 15*27*82(歌手数) + 15*27*82*50(歌曲数) 接近200万页,之前我们算了一小时6万页,最终耗时在1-2天,实际不到。 其中在爬取网易云页面时由于强度过大IP会被封禁,一小时大概需要30个IP左右;在爬取评论时由于用的是API接口,所以被BAN率低很多,整理爬下来要耗费200个IP,成本在10-20元左右。

Python爬虫进阶:如何爬取网易云两百万热歌 3000+人都想要的干货

02

反爬分析

  • UA

访问网易云只需要User-Agent是正常的即可,直接通过F12把自己的浏览器UI存入程序中。

  • IP

网易云对于爬取过快的单击将会拉黑IP,根据使用校园网被拉黑的经历来看,网易云封IP的时间还是挺长的,可能接近1天,比新浪微博返回418要残忍很多,所以千万不要用校园网爬取网易云,不然被ban了你连正常的网易云都访问不了了。我自己使用的是芝麻代理,已经写成了DOWNLOAD_MIDDLEWARE,结合MongoDB数据库Scrapy在爬取中会自动切换、重新获得可用的代理IP。网上也有很多免费代理IP的网站,比如西刺等,Github上也有现成开源的动态爬取免费IP的项目,有些有点问题,但因为工程量的问题,我一直没用。

  • iFrame

网易云的所有歌曲信息、评论等等,都是嵌在iFrame框架里的,这个要特别特别注意。具体的表现为,当你在程序中使用Requests或者Scrapy访问李荣浩的热门歌曲页面:https://music.163.com/#/artist?id=4292时,你会得不到任何你想要的歌曲信息,但你把这个#号去掉,就可以得到了,即:https://music.163.com/artist?id=4292。但是当你用正常浏览器访问这两个网址时,都会跳转到第一个,因为浏览器对其进行了JavaScript渲染。这点非常重要,具体的直观测试方法,就是在浏览器页面内右键,可以看到有两个选项,一个是查看网页源代码(View Page Source),一个是查看框架源代码(View Frame Source),自己点点看就能明显地知道区别了。如果你是用Selenium等自动化程序访问的,不要忘了切换Frame才能得到自己想要的数据。

  • API

网易云的很多数据其实是有API的,只是不去研究不知道,或者说没有公开开放,但你在知乎、简书、Github上能找到一些,本次项目里面的爬取评论部分就是用的知乎里面一位用户给出的VIP的API,帮了我非常大的忙,因为如果不是有这个VIP的API,我们就要走前端JavaScript解密,去破解网易云的Aes和RSA加密过程,这个代价就巨高了,而且爬取速度也绝非直接用API能比的。用代理IP爬取网易云主站信息大概每1000页就要死一个,但是爬评论的API,每十万页死一个差不多了,甚至也许都不会死(我的IP都是短期生存5-25分钟的,所以可能是自己死掉了)。下面给出我整理的大部分API:

1# 歌手分类页
 2HOST_ARTISTS = 'https://music.163.com/discover/artist/cat?id={cat}&initial={initial}'
 3
 4# 歌手的热门歌曲、专辑、MV、个人资料页
 5HOST_SINGER_HOT_SONGS = 'https://music.163.com/artist?id={singer_id}'
 6HOST_SINGER_ALBUMS = 'https://music.163.com/artist/album?id={singer_id}'
 7HOST_SINGER_MVS = 'https://music.163.com/artist/mv?id={singer_id}'
 8HOST_SINGER_DESC = 'https://music.163.com/artist/desc?id={singer_id}'
 9
10# 专辑页
11HOST_ALBUM = 'https://music.163.com/album?id={album_id}'
12
13# 单曲页
14HOST_SONG = 'https://music.163.com/song?id={song_id}'
15
16# 歌曲的评论API高级版
17VIP_HOST_SONG_COMMENTS = 'http://music.163.com/api/v1/resource/comments/R_SO_4_{song_id}'
18
19# 专辑的评论API高级版
20VIP_HOST_ALBUM_COMMENTS = 'http://music.163.com/api/v1/resource/comments/R_AL_3_{album_id}'

03

核心代码

以下是Scrapy中从歌手分类页到歌手专辑页再到专辑内的单曲页爬取链。

其中最值得注意的是,无论是在歌手的热门歌曲页还是专辑内的歌曲页,框架源代码里都有一段 textarea的节点,里面存放着每首歌的详细json数据,但是由于网页的解析问题,无论是用Scrapy还是BeautifulSoup的html5都不能完全将其所有歌曲的Json数据解析出来,因此我使用了Try…Except…语句,如果能解析就把textarea里面的信息都提取出来,不能的话就提取每首歌的ID、链接和歌曲名。好在126万条(写文时)歌曲里只有151条歌曲没有解析出来,也就大概是10个专辑10页的数据没有解析出来,还是很令人欣慰的。


def start_requests(self):
 for area in self._seq_area:
 for kind in self._seq_kind:
 for initial in self._seq_cat_initial:
 cat = f'{area}00{kind}'
 artists_url = self.settings['HOST_ARTISTS'].format(cat=cat, initial=initial)
 yield Request(artists_url, callback=self.parse_artists)
def parse_artists(self, response):
 for singer_node in response.css('#m-artist-box li'):
 response.meta['item'] = singer_item = SingerItem()
 singer_item['_id'] = singer_item['singer_id'] = singer_id = 
 int(singer_node.css('a.nm::attr(href)').re_first('d+'))
 singer_item['crawl_time'] = datetime.now()
 singer_item['singer_name'] = singer_node.css('a.nm::text').get()
 singer_item['singer_desc_url'] = self.get_singer_desc(singer_id)
 singer_item['singer_hot_songs'] = response.urljoin(singer_node.css('a.nm::attr(href)').re_first('S+'))
 singer_item['cat_name'] = response.css('.z-slt::text').get()
 singer_item['cat_id'] = int(response.css('.z-slt::attr(href)').re_first('d+'))
 singer_item['cat_url'] = response.urljoin(response.css('.z-slt::attr(href)').re_first('S+'))
 yield singer_item
 yield Request(self.get_singer_albums(singer_id), callback=self.parse_albums)
def parse_albums(self, response):
 for li in response.css('#m-song-module li'):
 yield response.follow(li.css('a.msk::attr(href)').get(), callback=self.parse_songs)
 next_page = response.css('div.u-page a.znxt::attr(href)').get()
 if next_page:
 yield response.follow(next_page, callback=self.parse_albums)
def parse_songs(self, response):
 album_item = AlbumItem()
 album_item['_id'] = album_item['album_id'] = int(re.search('id=(d+)', response.url).group(1))
 album_item['album_name'] = response.css('h2::text').get()
 album_item['album_author'] = response.css('a.u-btni::attr(data-res-author)').get()
 album_item['album_author_id'] = int(response.css('p.intr:nth-child(2) a::attr(href)').re_first('d+'))
 album_item['album_authors'] =[{'name': a.css('::text').get(), 'href': a.css('::attr(href)').get()}
 for a in response.css('p.intr:nth-child(2) a')]
 album_item['album_time'] = response.css('p.intr:nth-child(3)::text').get()
 album_item['album_url'] = response.url
 album_item['album_img'] = response.css('.cover img::attr(src)').get()
 album_item['album_company'] = response.css('p.intr:nth-child(4)::text').re_first('w+')
 album_item['album_desc'] = response.xpath('string(//div[@id="album-desc-more"])').get() if 
 response.css('#album-desc-more') else response.xpath('string(.//div[@class="n-albdesc"]/p)').get()
 # 用这个 'span#cnt_comment_count::text' 有些没有评论的会出问题,会变成“评论”
 album_item['album_comments_cnt'] = int(response.css('#comment-box::attr(data-count)').get())
 album_item['album_songs'] = response.css('#song-list-pre-cache li a::text').getall()
 album_item['album_appid'] = int(json.loads(response.css('script[type="application/ld+json"]::text').get())['appid'])
 yield album_item
 for li in response.css('#song-list-pre-cache li'):
 song_item = SongItem()
 song_item['crawl_time'] = datetime.now()
 song_item['song_name'] = li.css('a::text').get()
 song_item['_id'] = song_item['song_id'] = int(li.css('a::attr(href)').re_first('d+'))
 song_item['song_url'] = response.urljoin(li.css('a::attr(href)').re_first('S+'))
 yield song_item
 try:
 # 热歌信息在<div id="hotsong-list">节点下,可以通过div#hotsong-list li a 得到歌曲的Id, href, name
 # 但是,可以通过下面的textarea节点得到更为详细的data,这个不能通过正则匹配[],不然会被一些歌曲名给套住
 # 有些歌手没有热门歌曲,比如: https://music.163.com/#/artist?id=13226806, <textarea>返回的是一个'',无法json解析,因此用.strip()过滤
 # 在解析韩国歌手页面的时候出现问题,比如: https://music.163.com/artist?id=1038327, 有时用BeautifulSoup的html5解析能解决问题
 # 但提升效果有限,此处为了代码简介就不展开了
 json_data = json.loads(response.xpath('.//textarea/text()').get())
 for item in json_data:
 song_item = SongItem()
 song_item.update(item)
 song_item['_id'] = item['id']
 song_item['crawl_time'] = datetime.now()
 yield song_item
 except JSONDecodeError:
 with open('Failed Textarea Collection.txt', 'a', encoding='utf-8') as f:
 f.write(response.url + '')

当接近200万首歌的数据爬取完毕之后,我们启动评论爬虫,主要工作就是遍历数据库中还没有更新“评论数”这个字段的歌曲id,然后访问对应的评论api,得到我们想要的评论数据。

这里面,有两个有意思的参数:一个是limit,就是每次返回的最大评论数,上限100,我们这个项目只需要获得评论数即可,所以我把它设置成0可以显著提升爬取速度;另外一个参数是offset,即偏移量,当设为0时,会返回热门评论(10条以内),否则不返回,这就是你在手机或者PC端刷评论时,第一页有热评,之后就没有的操作。我的项目默认设为0,也就是说获取热评并且存储到数据库,原因与二,一是因为这个数据量不大,最多10条嘛,网页都访问了,总不能只带个评论数就走;二是因为这些热评恰恰也反应了歌曲的二级热度,即热评的点赞数,此外还可以将点赞最高的热评拎出来,他们便是热评中的热评了。

核心代码如下:


def start_requests(self):
 cursor = self.coll_song.find({'comments_cnt': {'$exists': False}}, no_cursor_timeout=True)
 for song_item in cursor:
 if self.settings.get('PARSE_ALL_COMMENTS'):
 limit, offset = 100, 0
 elif self.settings.get('PARSE_HOT_COMMENTS'):
 limit, offset = 0, 0
 else:
 limit, offset = 0, 1
 comment_url = self.get_comment_page_url(song_item['song_id'], limit=limit, offset=offset)
 yield Request(comment_url, dont_filter=False, callback=self.parse,
 meta={'song_item': song_item, 'limit': limit, 'offset': offset})
 cursor.close()
def parse(self, response):
 json_data = json.loads(response.text)
 comment_item = CommentItem()
 comment_item['comment_url'] = response.url.split('?')[0]
 comment_item['crawl_time'] = datetime.now()
 comment_item['isMusician'] = json_data['isMusician']
 comment_item['comments_cnt'] = comments_cnt = json_data['total']
 comment_item['song_name'] = response.meta['song_item']['song_name']
 comment_item['singer_name'] = response.meta['song_item']['singer_name']
 comment_item['song_id'] = song_id = response.meta['song_item']['song_id']
 for comment_info in json_data.get('comments'):
 comment_item.update(comment_info)
 comment_item['_id'] = comment_info['commentId']
 yield comment_item
 for comment_info in json_data.get('hotComments'):
 comment_item.update(comment_info)
 comment_item['_id'] = comment_info['commentId']
 yield comment_item
 if self.settings.get("PARSE_ALL_COMMENTS") and json_data['more']:
 response.meta['offset'] = new_offset = response.meta['offset'] + 10
 yield Request(self.get_comment_page_url(song_id, offset=new_offset),
 callback=self.parse, dont_filter=False, meta=response.meta)
 else:
 song_item = SongItem()
 song_item['_id'] = response.meta['song_item']['song_id']
 song_item['comments_cnt'] = comments_cnt
 yield song_item

04

应用拓展

本项目提供了一个爬取网易云音乐的可行路径,即歌手分类 → 歌手 → 歌手的专辑 → 专辑内的单曲 → 单曲的评论,是一个非常广度的路径,如果全程爬完能得到3万歌手、20万专辑、200万首单曲的必要信息,可根据这些信息做歌手、专辑、单曲排序,制作歌单、热点追踪等等,很有意义。

本项目未来将发布在Github,如果你想要可以关注、转发。后台私信小编“01”领取爬虫学习资料。

相关推荐