爬虫有风险,爬取须谨慎
作者 | CDA数据分析研究院,转载需授权
有人说,中国电商事业的红火发展,离不开疯狂剁手的中国女人.然而手剁的多了,就算是千手观音也会被剁成维纳斯啊!所以很多妹子在剁手的时候,发现有一些可以进行价格对比的软件,帮助自己一键货比三家,日积月累能省下不少银子!可能很多人会有疑问,剁手和爬虫有半毛钱关系吗?还别说,真的有,还不止是半毛钱的关系.因为用来对比各个电商平台同类产品价格的软件,应用到的技术就是今天我们要探讨的主题--爬虫!
首先,做个简单的科普,解释一下爬虫技术是个怎样的东东:简单来说就是敲一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。比如说开头提到的货比三家的软件,就是去各大电商网站爬取信息汇总到自己的软件中,供消费者参考,自己心仪的宝贝都在哪些电商平台有售,而又是哪家电商平台卖的最便宜.这样的软件对于消费者而言再美好不过,然而电商平台的内心其实是拒绝的,价格完全透明被对比,是个卖家都会拒绝的吧!可能也会有童鞋有疑问,这些比价平台不也是可以给电商平台导入流量的么,是这样,没错!但是我们大家转动自己聪明的小脑瓜想一想,首先,作为一家大型的电商平台,这些引流重要吗?其次,把自己想象成手握各家电商平台信息的第三方软件,你会怎么做来赚点钱呢?如果没想明白也没关系,参考下百度的广告竞价就一清二楚了.
OK,简单的科普到此结束,我们来探讨下风险问题.像上文中提到的爬虫,电商平台虽然不开心,但是目前的法律也没有说不允许.为了研究爬虫的合法问题,我专门去研读了一下《中华人民共和国网络安全法》,这算是中国网络安全第一大法了,来来回回看了好几遍,并没有发现有哪条法条说"爬取网页公开数据是违法"这一说!然而我没有就此止步,又继续搜索,发现了这样一段司法解释:未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的。按照这段解释,涉及到的数据全部都为不公开的涉及隐私的数据,如果只是爬取一些网页的公开数据,好像也没什么不妥.比如上边提到的各个电商平台的商品价格信息,都是公开的,比价软件只是把他们汇总到了一起而已,所以没有人去起诉比价软件.
然而,比价软件没有被起诉,不代表其他爬了别人家数据的公司没有被起诉!比如说,曾经轰动一时的曾经被李开复旗下的创新工场投资的巧达科技被一警方锅端了,所有员工被带走.不了解这个案件也没关系,课代表来帮大家补补课.这家公司曾经号称是中国最大的简历大数据公司 ,中国最大的用户画像关键数据服务提供商,专注于大数据及人工智能领域前瞻性产品研发……等等,想象一下,最大的简历大数据公司,如果不是求职者自己在他家网站上上传了简历,那么大概率是爬取的其他平台的建立数据,而用户画像关键数据服务提供商,关键数据又是从哪里来的呢?如果这些数据全部都是未经来源平台或者用户授权,那么这些数据的来源就是违法的.
刚才还说在《中华人民共和国网络安全法》中没有说爬取公开数据违法来着,那么这里的违法从何说起呢,别急,我们除了这本网络安全法还有一本刑法,下边是刑法的第285条: 第二百八十五条 【非法侵入计算机信息系统罪;非法获取计算机信息系统数据、非法控制计算机信息系统罪;提供侵入、非法控制计算机信息系统程序、工具罪】违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。 违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。 提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。 单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。 而且,像简历这种数据信息并不是网络公开数据,并不是如商品价格一般人人可见的,简历信息是一种个人隐私!也是招聘平台的财富!爬取这样的数据,既是侵犯个人隐私也是侵犯其他公司商业秘密,显然是违法的.
称为全国首例“爬虫”技术侵入计算机系统案,涉及到的是上海晟品网络科技有限公司爬取今日头条的数据,下图是从中国裁判文书网的判决截图:
还有曾经的"数据堂"公司案,大家都知道现在是数据为王的时代,但是爬虫的不当使用,非法获取数据是真的会被关进去的! 当然,看了这些大家也不用谈爬虫色变,个人认为,爬虫技术本身是不违法的,违法的行为在于用这项技术来做了什么!去爬取大量用户隐私数据并作为商业用途显然是违法的.而且我也注意到,目前爬虫的职位需求也很旺盛,随手在一家招聘网站搜了下爬虫相关职位:
大多数薪酬诱人,平台规模大,各位小伙伴在做爬虫工作时,可以要留神.可能会有人认为,这是公司的行为,出了事儿也是公司层面的,这可真的是个误会,前边的发条明确说了:单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚.所以才有巧达科技被警方一锅端的事情发生.所以,如果需要帮公司爬数据,一定要好好擦擦眼镜,看清楚数据的来由,是不是用户隐私数据,是不是人家没有公开的数据.要是领导非让你爬一些不该爬的数据怎么办呢?不妨把刑法第二百八十五条先念给领导听听,还不行就把案例讲解给上司听听,而领导坚持让你在违法的路上狂奔,那兄弟,考虑下换个公司吧,毕竟失业也比进去强不是?
最后,再普及一点爬虫的其他知识.世间万物相生相克,有肆意爬取数据的爬虫,就也有反爬虫.被爬虫钟爱的第一名当属12306,这特别好理解,买火车票的地方就这一家别无分号啊.最开始上线的图片验证被网友各种吐槽,其实12306也是用心良苦,设计那么难的验证图,就是为了反爬虫的.虽然爬虫可以模仿浏览器的行为对服务器发出请求,但是它还没有智能到分辨图片.还有那种滑块拼成完成图片的验证,拼的过程超级简单无脑,但是这也能分辨发起访问请求的是人还是爬虫,人的速度一定不是匀速的,而大多数爬虫的拼图速度是匀速且迅速的,这也是反爬虫的手段.然而交战双发往往都是道高一尺魔高一丈,你有爬虫技术,我又反爬虫技术,你有反爬虫技术我就又有了反反爬虫技术,各种手段层出不穷.
就拿上边的图片验证来说,有个东西叫做打码平台可以了解一下.当你的爬虫遇到这些反爬虫手段时,把这些需要人类操作的程序发给打码平台,分分钟解决这个问题,爬虫就又可以把自己伪装成正常的浏览请求接入被爬取网页的服务器了. 爬虫和反爬虫的争斗这么厉害,是为什么呢?因为爬虫只会往有利益的地方爬啊.比如说,大家在出门旅游之前或者下馆子之前,都会去刷一下目的地的评论,而这些评论就一定是真的去过这些地方的用户留下的 真实评论嘛?不一定呢,也可以用爬虫模留言点赞收藏之类的操作来刷高自己的信誉值,使自己排名靠前.而那些神坑的虚假广告,冲榜刷量,背后空爬也都少不了爬虫的影子,这波操作是不是相当于欺骗? 所以,还是那句话,技术本身是无罪的,要看使用技术的人做了什么,爬虫有风险,爬取须谨慎.