对python抓取需要登录网站数据的方法详解

Allen0

2018-05-21

scrapy.FormRequest

login.py

class LoginSpider(scrapy.Spider):
 name = 'login_spider'
 start_urls = ['http://www.login.com']
 def parse(self, response):
  return [
   scrapy.FormRequest.from_response(
     response,
     # username和password要根据实际页面的表单的name字段进行修改
     formdata={'username': 'your_username', 'password': 'your_password'},
     callback=self.after_login)]
 def after_login(self, response):
  # 登录后的代码
  pass

selenium登录获取cookie

get_cookie_by_selenium.py

import pickle
import time
from selenium import webdriver
def get_cookies():
 url = 'https://www.test.com'
 web_driver = webdriver.Chrome()
 web_driver.get(url)
 username = web_driver.find_element_by_id('login-email')
 username.send_keys('username')
 password = web_driver.find_element_by_id('login-password')
 password.send_keys('password')
 login_button = web_driver.find_element_by_id('login-submit')
 login_button.click()
 time.sleep(3)
 cookies = web_driver.get_cookies()
 web_driver.close()
 return cookies
if __name__ == '__main__':
 cookies = get_cookies()
 pickle.dump(cookies, open('cookies.pkl', 'wb'))

获取浏览器cookie(以Ubuntu的Firefox为例)

get_cookie_by_firefox.py

import sqlite3
import pickle
def get_cookie_by_firefox():
 cookie_path = '/home/name/.mozilla/firefox/bqtvfe08.default/cookies.sqlite'
 with sqlite3.connect(cookie_path) as conn:
  sql = 'select name,value from moz_cookies where baseDomain="test.com"'
  cur = conn.cursor()
  cookies = [{'name': name, 'value': value} for name, value in cur.execute(sql).fetchall()]
  return cookies
if __name__ == '__main__':
 cookies = get_cookie_from_firefox()
 pickle.dump(cookies, open('cookies.pkl', 'wb'))

scrapy使用获取后的cookie

cookies = pickle.load(open('cookies.pkl', 'rb'))
yield scrapy.Request(url, cookies=cookies, callback=self.parse)

requests使用获取后的cookie

cookies = pickle.load(open('cookies.pkl', 'rb'))
s = requests.Session()
for cookie in cookies:
 s.cookies.set(cookie['name'], cookie['value'])

selenium使用获取后的cookie

from selenium import webdriver
cookies = pickle.load(open('cookies.pkl', 'rb'))
w = webdriver.Chrome()
# 直接添加cookie会报错，下面是一种解决方案，可能有更好的
# -- start --
w.get('http://www.test.com')
w.delete_all_cookies()
# -- end --
for cookie in cookies:
 w.add_cookie(cookie)

Allen0

0 关注 0 粉丝 0 动态

相关推荐

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

session是在cookie的基础上，服务端设置session时会向浏览器发送设置一个设置cookie的请求，这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session. 到此这篇关

houmenghu 2020-11-17

ajax请求添加自定义header参数代码

我就废话不多说了，大家还是直接看代码吧~并且不会因为增加自定义请求头header，而引起预检查请求;Access-Control-Allow-Headers 表示能接受的http头部，别忘了加入你自己发明创造的头部。如果是OPTION返回空，设置返回码为2

kentrl 2020-11-10

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 2020-10-26

上网如何保存记录？你要知道Session和Cookie的关系

为什么要用Session和Cookie?简单一句话，因为Session和Cookie可以记录用户状态信息。嘶..这到底啥意思呢?HTTP协议对事务处理是没有记忆能力，也就是说服务器不知道客户端是什么状态。只需要在下次请求时携带这些Cookie，服务器就能通

jincheng 2020-09-01

python-spider 第七关

:return: a dict the contains cookies from the domain.

书虫媛 2020-08-18

PHP如何获取Cookie并实现模拟登录

$cookie_jar = dirname(__FILE__)."/pic.cookie";$url = "http://1.2.3.4/";$ch = curl_init();curl_setopt($ch, CU

Blueberry 2020-08-15

Apache Shiro 反序列化(CVE-2016-4437)复现

shiro默认使用CookieRememberMeManager，对rememberMe的cookie做了加密处理，在CookieRememberMeManaer类中将cookie中rememberMe字段内容先后进行序列化、AES加密、Base64编码操

xclxcl 2020-08-03

Apache Shiro 反序列化(CVE-2016-4437)复现

shiro默认使用CookieRememberMeManager，对rememberMe的cookie做了加密处理，在CookieRememberMeManaer类中将cookie中rememberMe字段内容先后进行序列化、AES加密、Base64编码操

zmzmmf 2020-08-03

前端登录，这一篇就够了

登录是每个网站中都经常用到的一个功能，在页面上我们输入账号密码，敲一下回车键，就登录了，但这背后的登录原理你是否清楚呢？今天我们就来介绍几种常用的登录方式。为了解决 HTTP 无状态的问题，Lou Montulli 在 1994 年的时候，推出了 Cook

阳光之吻 2020-08-03

一文梳理Web存储，从cookie，WebStorage到IndexedDB

HTTP是无状态的协议，网络早期最大的问题之一是如何管理状态。cookie应运而生，开始出现在各大网站，然而随着前端应用复杂度的提高，Cookie 也渐渐演化为了一个“存储多面手”，承载了自身仅有的4KB 内存所不能承受的压力。但web Storage也

PkJY 2020-07-08

Flask之session

session是建立在Cookies基础上的技术，用于flask中存储不同请求间用户的信息，要使用session你必须设置一个secret_key，用于对Cookies进行密钥签名。from flask import Flask, render_templ

hzyuhz 2020-07-04

Golang保存PostgreSQL数据至结构

db, err := sql.Open("postgres", "user=admin password=123456 dbname=test sslmode=disable"). if err != nil {.

89407707 2020-06-27

Session和Cookie的区别

协议，是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则，超文本传输协议是一种通信协议，它允许将超文本标记语言文档从Web服务器。HTTP协议是无状态的协议。服务器检查该Cookie，以此来辨认用户状态。若不设置过期时间，则表示这个coo

服务器端攻城师 2020-06-26

curl 的用法指南

curl 是常用的命令行工具，用来请求 Web 服务器。它的名字就是客户端的 URL 工具的意思。它的功能非常强大，命令行参数多达几十种。如果熟练的话，完全可以取代 Postman 这一类的图形界面工具。本文介绍它的主要命令行参数，作为日常的参考，方便查阅

阳光岛主 2020-06-25

Redis遇到（大数据量）百亿级Key存储需求及解决方案介绍

public static byte [] getBucketId(byte [] key, Integer bit) {

笨重的蜗牛 2020-06-20

golang之JWT实现的示例代码

JSON Web Token是一个开放标准，它定义了一种紧凑且自包含的方式，用于在各方之间以JSON方式安全地传输信息。由于此信息是经过数字签名的，因此可以被验证和信任。可以使用秘密或使用RSA或ECDSA的公钥/私钥对对JWT进行签名。直白的讲jwt就是

xuanwenchao 2020-06-14

Requests 设置cookies方式

cookies_value = {‘name1‘: ‘value1‘,　　path表示cookie所在的目录，asp.net默认为/，就是根目录。这是因为cookie能让其path路径下的页面访问。　　浏览器会将domain和path都相同的cookie保

Lophole 2020-06-13

django设置cookie

path=‘/‘, Cookie生效的路径，/ 表示根路径，特殊的：根路径的cookie可以被任何url的页面访问。httponly=False 只能http协议传输，无法被JavaScript获取。rep.delete_cookie # 删除用户浏览器

明瞳 2020-06-12

爬虫之selenium和webdriver—基础（三）：操作cookie和显式等待与隐式等待

# 1、获取所有的cookie，get_cookies; 获取一个cookie，get_cookie. 为了解决这个问题，所以selenium提供了两种等待方式：显式等待和隐式等待。# 最大等待时间为10s，如果5s时id为sdfsdf被找到，就直接返回，

songerxing 2020-06-11

Django框架11

# 校验字段和钩子函数的执行。# 报错提示其实可以有两种方式。python源码里面使用最频繁的其实就是反射。cookie与session（非常重要！！！！！！！！# 由于http协议是无状态的。cookie虽然是服务端设置的但是浏览器可以选择不保存。存储

明瞳 2020-06-08

Allen0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号