网易云音乐评论爬虫：全部热门歌曲及其 id号（文末附赠教程）

hoochon

2019-03-03

今天我给大家介绍一下用Python爬取网易云音乐全部歌手的热门歌曲.由于歌手个人主页的网页源代码中还嵌入了一个子网页(框架源代码里面包含了我们需要的信息),因此我们不能使用requests库来爬取,而使用selenium,接下来,让我详细讲解整个爬取过程.

一,构造歌手个人主页的URL

前段时间我们获取了网易云音乐全部歌手的id号,今天我们就利用全部歌手的id号来构造歌手个人主页的URL,从而实现用爬取全部歌手的热门歌曲及其id号的目的.以歌手薛之谦的个人主页为例,来看一下他的主页的URL为:

网易云音乐评论爬虫：全部热门歌曲及其 id号（文末附赠教程）

因此只需要根据歌手对应的id就可以构造出歌手的个人主页,在歌手的个人主页我们能看到热门作品这一栏.网易云音乐全部歌手id号点击获取(csv文件)

二,分析网页源代码

现在我们就要用Python爬虫去爬取这些内容.如果你用requests库去爬取的话,返回的网页源代码中根本就没有这些信息.这时我们打开薛之谦的个人主页鼠标右键分别查看网页的源代码和查看框架的源代码.你会发现网页源代码和用requests库请求返回的源代码一摸一样(里面没有我们要爬取的信息),而在框架源代码中有我们要爬取的热门作品的信息,因此我们只需要将框架源代码爬取下来,然后再解析即可得到我们需要的歌手的热门作品的信息.

三,网页源代码和框架源代码的区别

网页源代码是指父级网页的源代码.另外网页中还有一种节点叫iframe，也就是子Frame，相当于网页的子页面，它的结构和外部网页的结构完全一致，框架源代码就是这个子网页的源代码.

四,获取框架源代码

这里我们使用selenium库来爬取,在selenium打开页面后，默认是在父级frame里面进行操作，而此时页面中还有子frame，它是不能获取到子frame里面的节点的，因此这时我们需要使用swith_to.frame()方法来切换到子frame中去，这时请求得到的代码就从网页源代码切换到了框架源代码，于是我们便能够提取我们需要的热门作品的信息了.通过歌手的个人主页的URL来爬取其框架源代码,具体爬取框架源代码的函数:

网易云音乐评论爬虫：全部热门歌曲及其 id号（文末附赠教程）

返回结果为歌手个人主页的框架源代码,里面包含了我们需要的信息.

网易云音乐评论爬虫：全部热门歌曲及其 id号（文末附赠教程）

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

网易云音乐评论爬虫：全部热门歌曲及其 id号（文末附赠教程）

pytyhon学习资料

网易云音乐评论爬虫：全部热门歌曲及其 id号（文末附赠教程）

python学习资料

网易评论 python爬虫源代码音乐云教程

安科网

网易云音乐评论爬虫：全部热门歌曲及其 id号（文末附赠教程）

hoochon

一,构造歌手个人主页的URL

二,分析网页源代码

三,网页源代码和框架源代码的区别

四,获取框架源代码

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

hoochon

相关推荐

网易云音乐的消息队列改造之路

网易云音乐推荐算法: 让单身狗犹如过情人节的日推

网易云与腾讯音乐的“虚假式恩爱”

网易云音乐评论可视化分析（爬取评论都LOW爆了）

Python3实战之爬虫抓取网易云音乐的热门评论

广告分成、现金激励……网易云音乐推出“云梯计划”扶持内容创作者

网易云音乐突然下架周杰伦歌曲版权之争硝烟再起

网易云下架周杰伦：1%独家才是精华版权战未曾远去

不是愚人节玩笑网易云音乐下架全部周杰伦单曲

从乐评笔记书火爆看网易云音乐为何独树一帜？

网易云音乐5.0版本重磅上线全新视频页看你想看

网易云音乐与华研国际战略合作 SHE等人歌曲上线

网易云音乐灰了的歌曲，或许未来还是灰的

卖时间或是伪命题，网易蜗牛能否成为网易下一个云音乐？

腾讯音乐和网易云版权和解，但他们都留了一手

快手多首热曲入围网易云音乐2017年热歌榜你听过几首？

从网易云音乐的评论和bilibili弹幕，谈用户对认同的需求

阿里、腾讯破冰音乐版权合作方便了用户冷落了网易

融资后的网易云音乐，能形成新的平衡吗？

Python爬虫44万条数据揭秘：如何成为网易音乐评论区的网红段子手

hoochon