我是如何分析CNKI上所有关于“齿轮”文章的?(一)CNKI爬虫记
作为一个二流大学的不会搞科研的二流穷逼博士,科研还是要搞一点,专业是齿轮,所以就想看看CNKI上关于“齿轮”的文章信息。有点python小基础,写个python 爬虫小工具,共享在Github上,各位需要自取,地址:https://github.com/spartajet/...
首先感谢这位大神的博客http://www.qiuqingyu.cn/2017/...,我是参照着大神代码写的,读了大神的代码,我自己写了一个,主要改进如下:
- 改为面向对象
- 改进了比如作者,年份,杂志,摘要的算法
- 数据存储在mysql中,用的批量插入,有利于后期的统计分析
- fix some bugs
做爬虫,首先要找个好的API,学校订购了CNKI的服务,但是从正常的页面,我没有发现好用的API,所以用的还是上面大神的API,地址:http://search.cnki.com.cn/def...
搜索页面如下图:
这个页面可以查到文章标题,部分摘要(不使用),文章来源,时间,文章类型(期刊、会议、硕士、博士)等
文章详情页面如下图:
这个页面可以获取到完整的摘要,但是没有关键字(比较遗憾)
相关推荐
咻pur慢 2019-12-10
burning 2012-06-10
BraveWangDev 2015-01-23
明亮的技术 2013-05-29
大数据实战派 2019-06-28
hanniuniu 2019-06-28
aaJamesJones 2017-11-01