python爬虫--cookie反爬处理

xiaoxiaoniaoer

2020-01-12

Cookies的处理

作用

保存客户端的相关状态

在爬虫中如果遇到了cookie的反爬如何处理?

手动处理
    在抓包工具中捕获cookie,将其封装在headers中
    应用场景:cookie没有有效时长且不是动态变化
    
自动处理
    使用session机制
    使用场景:动态变化的cookie
    session对象:该对象和requests模块用法几乎一致.如果在请求的过程中产生了cookie,如果该请求使用session发起的,则cookie会被自动存储到session中.

案例

爬取雪球网中的新闻资讯数据:https://xueqiu.com/

#获取一个session对象
import requests
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
session = requests.Session()
main_url = 'https://xueqiu.com' #推测对该url发起请求会产生cookie
session.get(main_url,headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json'
params = {
    'since_id': '-1',
    'max_id': '20346152',
    'count': '15',
    'category': '-1',
}
page_text = session.get(url,headers=headers,params=params).json()
page_text

cookie python爬虫 session python

xiaoxiaoniaoer

0 关注 0 粉丝 0 动态

相关推荐

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 2020-10-26

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

session是在cookie的基础上，服务端设置session时会向浏览器发送设置一个设置cookie的请求，这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session. 到此这篇关

houmenghu 2020-11-17

上网如何保存记录？你要知道Session和Cookie的关系

为什么要用Session和Cookie?简单一句话，因为Session和Cookie可以记录用户状态信息。嘶..这到底啥意思呢?HTTP协议对事务处理是没有记忆能力，也就是说服务器不知道客户端是什么状态。只需要在下次请求时携带这些Cookie，服务器就能通

jincheng 2020-09-01

前端登录，这一篇就够了

登录是每个网站中都经常用到的一个功能，在页面上我们输入账号密码，敲一下回车键，就登录了，但这背后的登录原理你是否清楚呢？今天我们就来介绍几种常用的登录方式。为了解决 HTTP 无状态的问题，Lou Montulli 在 1994 年的时候，推出了 Cook

阳光之吻 2020-08-03

Flask之session

session是建立在Cookies基础上的技术，用于flask中存储不同请求间用户的信息，要使用session你必须设置一个secret_key，用于对Cookies进行密钥签名。from flask import Flask, render_templ

hzyuhz 2020-07-04

Session和Cookie的区别

协议，是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则，超文本传输协议是一种通信协议，它允许将超文本标记语言文档从Web服务器。HTTP协议是无状态的协议。服务器检查该Cookie，以此来辨认用户状态。若不设置过期时间，则表示这个coo

服务器端攻城师 2020-06-26

golang之JWT实现的示例代码

JSON Web Token是一个开放标准，它定义了一种紧凑且自包含的方式，用于在各方之间以JSON方式安全地传输信息。由于此信息是经过数字签名的，因此可以被验证和信任。可以使用秘密或使用RSA或ECDSA的公钥/私钥对对JWT进行签名。直白的讲jwt就是

xuanwenchao 2020-06-14

Requests 设置cookies方式

cookies_value = {‘name1‘: ‘value1‘,　　path表示cookie所在的目录，asp.net默认为/，就是根目录。这是因为cookie能让其path路径下的页面访问。　　浏览器会将domain和path都相同的cookie保

Lophole 2020-06-13

Django框架11

# 校验字段和钩子函数的执行。# 报错提示其实可以有两种方式。python源码里面使用最频繁的其实就是反射。cookie与session（非常重要！！！！！！！！# 由于http协议是无状态的。cookie虽然是服务端设置的但是浏览器可以选择不保存。存储

明瞳 2020-06-08

Django Session管理

Session是存储在服务器端的用户凭证，安全性比Cookie要高，Django是将Session信息存放在Cookie里面。用户一旦禁用Cookie，就不能用了。Session不光可以存储在Cookie里面，如果前端将其存储在页面中，作为全局变量，每次发

Dreamya 2020-06-03

Shiro+JWT 实现权限管理(二)--JWT

上篇文章提及到了JWT,以及为什么使用Token,这篇文章就围绕JWT展开论述吧.服务端验证登录信息是否正确，如果正确就在服务器端为这个用户创建一个 Session，并把 Session 存入数据库。客户端接收到服务器端发来的请求之后，看见响应头中的 Se

SoarFly00 2020-06-03

19.负载均衡健康检查模块与源码安装Nginx

你们公司的会话保持怎么做的？# 开发没有做会话保持，我们通过运维的方式做会话保持，nginx的upstream模块中的ip_hash调度算法，保证用户的请求一直发送到同一台机器。cookie是后端服务器，传给浏览器的一段字符串，作用是用来记录用户登录的状态

咻咻ing 2020-06-01

2019-2020-2 网络对抗技术 20175213吕正宏 Exp9 Web安全基础

本实践的目标理解常用网络攻击技术的基本原理，做不少于7个题目，共3.5分。Webgoat实践下相关实验。应用程序会将输入带入后台的SQL查询语句，后台数据库将其认作正常SQL指令后正常执行，可能实现对后台数据库进行各种操作，甚至造成破坏后台数据库等严重后果

三动 2020-05-29

ajax请求添加自定义header参数代码

我就废话不多说了，大家还是直接看代码吧~并且不会因为增加自定义请求头header，而引起预检查请求;Access-Control-Allow-Headers 表示能接受的http头部，别忘了加入你自己发明创造的头部。如果是OPTION返回空，设置返回码为2

kentrl 2020-11-10

python-spider 第七关

:return: a dict the contains cookies from the domain.

书虫媛 2020-08-18

PHP如何获取Cookie并实现模拟登录

$cookie_jar = dirname(__FILE__)."/pic.cookie";$url = "http://1.2.3.4/";$ch = curl_init();curl_setopt($ch, CU

Blueberry 2020-08-15

Apache Shiro 反序列化(CVE-2016-4437)复现

shiro默认使用CookieRememberMeManager，对rememberMe的cookie做了加密处理，在CookieRememberMeManaer类中将cookie中rememberMe字段内容先后进行序列化、AES加密、Base64编码操

xclxcl 2020-08-03

Apache Shiro 反序列化(CVE-2016-4437)复现

shiro默认使用CookieRememberMeManager，对rememberMe的cookie做了加密处理，在CookieRememberMeManaer类中将cookie中rememberMe字段内容先后进行序列化、AES加密、Base64编码操

zmzmmf 2020-08-03

一文梳理Web存储，从cookie，WebStorage到IndexedDB

HTTP是无状态的协议，网络早期最大的问题之一是如何管理状态。cookie应运而生，开始出现在各大网站，然而随着前端应用复杂度的提高，Cookie 也渐渐演化为了一个“存储多面手”，承载了自身仅有的4KB 内存所不能承受的压力。但web Storage也

PkJY 2020-07-08

Golang保存PostgreSQL数据至结构

db, err := sql.Open("postgres", "user=admin password=123456 dbname=test sslmode=disable"). if err != nil {.

89407707 2020-06-27

xiaoxiaoniaoer

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号