js反爬：请开启JavaScript并刷新该页

angqiuli

2020-02-20

中国人民银行网站中的这个栏目为例：http://www.pbc.gov.cn/zhengcehuobisi/125207/125217/125925/17105/index1.html

如果直接用request.get(url)，就会得到下图的JavaScript并刷新该页，跟着一堆乱七八糟代码。

js反爬：请开启JavaScript并刷新该页

简单来说，就是这个网页用了js设置cookie然后重定向到另一个网页，所以只是get这个url是不行的。

同理，如果清除cookie，在浏览器中f12，然后按f1禁用js

js反爬：请开启JavaScript并刷新该页

刷新页面，就会出现下图乱码，其实就是之前跑代码得到的 “请开启JavaScript并刷新该页” 提示。

js反爬：请开启JavaScript并刷新该页

因此，要爬取这个网站的关键问题有两个，一个是用js重定向，一个是保存cookie。

先看看返回的网页的js代码。

js反爬：请开启JavaScript并刷新该页

这就很乱了，随便用个js代码格式化网站，比如 https://tool.oschina.net/codeformat/js/

这样就可以比较清晰的看到js代码。

一顿分析之后，实现抓取的过程如下：

先get之前能得到的带有js的html。

将其中的js代码正则提取出来。

将里面的atob替换为window["atob"]，增加window对象，函数getURL()返回window["location"]，即跳转的链接尾缀。

将这个修改后js代码执行，得到尾缀，与原URL链接，得到重定向的URL。

还有就是cookie问题，直接用requests的session处理就好。

def getPage(URL):
    sess = requests.session()
    jsPage = sess.get(URL).text
    js = re.findall(r‘<script type="text/javascript">([\w\W]*)</script>‘, jsPage)[0]
    js = re.sub(r‘atob\(‘, ‘window["atob"](‘, js)
    js2 = ‘function getURL(){ var window = {};‘ + js + ‘return window["location"];}‘
    ctx = execjs.compile(js2)
    tail = ctx.call(‘getURL‘)
    URL2 = urljoin(URL, tail)
    page = sess.get(URL2)
    page.encoding = ‘UTF-8‘
    return page

最后，在连续抓取页面时有时会报错，加了一两秒延迟就好了。还是会偶尔报错，用异常抛出让它重试即可。

angqiuli

0 关注 0 粉丝 0 动态

相关推荐

WebAssembly及其 API 的完整介绍

自从引入计算机以来，本地应用程序的性能有了巨大的提高。相比之下，web 应用程序相当慢，因为 JS 一开始并不是为了速度而构建的。但是由于浏览器之间的激烈竞争以及JS 引擎如V8的快速开发，使得 JS 能够在机器上快速运行。但是它仍然不能超过本机应用程

88274956 2020-11-03

通过构建自己的JavaScript测试框架来了解JS测试

测试是编程中非常重要的一部分。在当今的软件开发中，单元/功能测试已成为软件开发的组成部分。随着Nodejs的出现，我们已经看到了许多超级JS测试框架的发布：Jasmine，Jest等。这有时也称为隔离测试，它是测试独立的小段代码的实践。如果你的测试使用某些

runner 2020-09-01

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

在之前的一系列文章中，我们讲解了很多关于正则表达式的知识。那么作为一个前端工程师，如果想要把这些知识应用到我们平时的开发中去的话，就需要知道在JavaScript中，能够使用正则的函数有哪些？然后它们各自的功能是什么？有哪些需要注意的地方？只有掌握好了每一

梦的天空 2020-08-25

js实现表格单列按字母排序

本文实例为大家分享了js实现表格单列按字母排序的具体代码，供大家参考，具体内容如下。<link href="../css/表格数据搜索.css" rel="stylesheet">. <input

移动开发与培训 2020-08-16

js实现表格数据搜索

<input type="text" placeholder="搜索..." id="myInput" onkeyup="myFunction()">

ReunionIsland 2020-08-16

浅谈AjaxPro.dll,asp.net 前台js调用后台方法

Ajax是异步Javascript和XML的英文缩写。"Ajax"这个名词的发明人是Jesse James Garrett,而大力推广并且使Ajax技术炙手可热的是Google。Ajax的核心理念在于使用XMLHttpRequest对象

lyqdanang 2020-08-16

前端 HTMLTestRunner中JS的用法

--...--> 注释标签用来在源文档中插入注释。这些信息对用户是不可见的，但是对程序来说是可用的。这样就可避免不支持脚本或样式的老浏览器把它们显示为纯文本。命令行最后的两个正斜杠（//）是 JavaScript 注释符号。这确保了 JavaScri

MyNameIsXiaoLai 2020-07-08

gulp 构建 demo

var cleanCss = require; // 压缩 css. var livereload = require;//自动编译。gulp.task("server", [‘default‘],function(){//配置热更新服

星辰的笔记 2020-07-04

SpringBoot入门二十五,默认的404错误页面引入css和js文件

Springboot默认的404,500等页面的位置在static的error中,可以直接访问,无需单独编写映射器。如果我们想美化一下这些错误提示页面,那么static下面css中的文件是不能直接饮用的,因为根据错误发生时路径的层级不同,错误页面的层级也会

csstpeixun 2020-06-28

selenium键盘操作，执行JS，上传文件

selenium内置了执行js代码的api。# ----------------------------通过js代码修改元素的属性--------------------. return ‘操作完了‘;# -----------------------通过

letheashura 2020-06-26

JS事件、Bom对象和Dom对象（1）（乐字节架构）

如需要跟多资料请点击右侧 → 这是一条不归路，有秃头风险，请慎重选择！事件是 JavaScript 应用跳动的心脏，进行交互，使网页动起来。事件还可能是 Web 浏览器中发生的事情，比如说某个 Web 页面加载完成，或者是用户滚动窗口或改变窗口大小。

liaoxuewu 2020-06-26

python 爬虫遇到 Cloudflare 邮箱加密

最近写一个小爬虫，需要拿到邮箱信息，发现拿不到，也不是ajax接口。最后查资料发现是被Cloudflare加密起来了，有加密肯定有解密。for e += ‘%’ + .slice;前面的 2 位数字转化成 16 进制之后就是秘钥, 接下来的每两位字符跟秘

sunzhihaofuture 2020-06-21

ES6-Babel-Browserify模块化教程

备注：第一步操作后Babel将es6的模块化语法，转换成了CommonJS模块化语法，所以需要第二步用Browserify再次编译。ES6的模块化分为导出与导入两个模块。在ES6中每一个模块即是一个文件，在文件中定义的变量，函数，对象在外部是无法获取的。如

FEvivi 2020-06-16

【AJAX】Asynchronous JavaScript And XML （非同步的JS & XML）

AJAX 即“Asynchronous Javascript And XML”。是指一种创建交互式网页应用的网页开发技术。ajax 是一种浏览器通过 js 异步发起请求，局部更新页面的技术。网页不刷新的情况下，从服务器中获取数据的解决方案。-　url ，你

坚持着执着 2020-06-16

原生JavaScript(JS)修改添加CSS样式表（更好的性能）

所以样式排序稍微麻烦点，但你可以很轻松地想出办法定位的。更多用法，自己把 css0 打印出来就知道了，我只是搞后端的，你问我我也不懂。

waterv 2020-06-14

JS原型对象操作实例分析

本文实例讲述了JS原型对象操作。分享给大家供大家参考，具体如下：。打开浏览器，输入fn，会发现fn有一个prototype(原型)属性，这个属性是一个指针，指向原型对象，这个对象包括了特定类型所有共享的属性和方法。换句话说，prototype对象包含了函数

xiaoge00 2020-06-14

js实现mp3录音通过websocket实时传送+简易波形图效果

废话不多说下面讲一下需求。需求：公司要求实现web端的录音并通过websocket实时上传至java后台，而且能通过vlc实时播放，简单一点讲就是我用网页在那一边讲话，一个大喇叭就能实时把我的话播出去，这样是不是通俗易懂呀，而且呢公司要求用mp3格式。后半

firejq 2020-06-14

详解用js代码触发dom事件的实现方案

前端编写测试用例时，在测试界面上的一些效果时，通常都希望能够模拟一些用户操作，而模拟用户操作最主要的方式就是用代码触发指定事件。通常一些元素上会自带一些触发事件的方法，例如click、focus等，但是如果是其他的事件，例如mousedown、mouseu

firstboy0 2020-06-14

uglifyjs 合并压缩 js, clean-css 合并压缩css

本文主要介绍如何通过CLI命令行实现 js和css的合并压缩。这一步就不多说了，下载node自行安装。上面的命令表示把common.js和example.js合并成为common.min.js。这里面的路径请根据你项目的实际情况更改。

e度空间 2020-06-12

gulp js文件压缩 es6 代码转换

// 暂时用下面这个 npm install gulp-babel @babel/core @babel/preset-env. gulp jsmin-------------------------------------- // 代码压缩npm ins

zhongweinan 2020-06-10

webpack 之压缩js代码和html文件

2.压缩html文件，html文件不需要处理兼容问题，压缩文件只需要在plugins中的HtmlWebpackPlugin中配置minify即可

gufudhn 2020-06-06

angqiuli

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号