python使用urllib模块和pyquery实现阿里巴巴排名查询

pythoncream

2014-01-16

urllib基础模块的应用，通过该类获取到url中的html文档信息，内部可以重写代理的获取方法

代码如下：

class ProxyScrapy(object):
    def __init__(self):
        self.proxy_robot = ProxyRobot()
        self.current_proxy = None
        self.cookie = cookielib.CookieJar()

    def __builder_proxy_cookie_opener(self):        
        cookie_handler = urllib2.HTTPCookieProcessor(self.cookie)        
        handlers = [cookie_handler]

        if PROXY_ENABLE:
            self.current_proxy = ip_port = self.proxy_robot.get_random_proxy()
            proxy_handler = urllib2.ProxyHandler({'http': ip_port[7:]})
            handlers.append(proxy_handler)

        opener = urllib2.build_opener(*handlers)
        urllib2.install_opener(opener)
        return opener


    def get_html_body(self,url):
        opener = self.__builder_proxy_cookie_opener()


        request=urllib2.Request(url)
        #request.add_header("Accept-Encoding", "gzip,deflate,sdch")
        #request.add_header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
        #request.add_header("Cache-Control", "no-cache")
        #request.add_header("Connection", "keep-alive")


        try:
            response = opener.open(request,timeout=2)


            http_code = response.getcode()
            if http_code == 200:
                if PROXY_ENABLE:
                    self.proxy_robot.handle_success_proxy(self.current_proxy)
                html = response.read()
                return html
            else:
                if PROXY_ENABLE:
                    self.proxy_robot.handle_double_proxy(self.current_proxy)
                return self.get_html_body(url)
        except Exception as inst:
            print inst,self.current_proxy
            self.proxy_robot.handle_double_proxy(self.current_proxy)
            return self.get_html_body(url)

url pyquery python

pythoncream

0 关注 1 粉丝 0 动态

相关推荐

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 2020-11-17

详解golang开发中http请求redirect的问题

后来就看了下源码，了解下请求跳转的机制。可是我只想获取第一跳的的response 的状态码。只要设置checkRedirect返回error，理论上就能实现只请求一次的目的。如果返回，则不发送下一个请求，并且返回最近的响应且其主体未关闭。

86193952 2020-10-27

nginx配置proxy_pass中url末尾带/与不带/的区别详解

proxy_pass配置中url末尾带/时，nginx转发时，会将原uri去除location匹配表达式后的内容拼接在proxy_pass中url之后。到此这篇关于nginx配置proxy_pass中url末尾带/与不带/的区别详解的文章就介绍到这了,更多

小木兮子 2020-11-11

Node 使用express-http-proxy 做api网关的实现

let { systemName, masterName, powers } = req.tokenDecode;

seanzed 2020-10-15

Webhooks与API的区别在哪里？

Webhooks起初看起来像是API，但它们略有不同。它们之间的主要区别在于，webhooks不需要发出请求即可获得响应，而API则需要发送请求才能获得响应。使用Webhooks可以接收，而API需要您检索。正确设置了Webhook之后，无论何时更新Git

huangliuyu00 2020-09-24

Nginx Rewrite使用场景及配置方法解析

redirect 返回302临时重定向，浏览器地址栏会显示跳转后的URL地址，爬虫不会更新自己的URL数据库

nginxs 2020-09-08

python 如何调用远程接口

在python中我们可以使用requests模块来实现调用远程接口。get方法常见的参数有url,params和headers. headers表示get传参的headers参数信息。# 接口返回的状态码。# #将字符串转字典型。# 接口返回的json格式

libaoshan 2020-09-11

python 自动提交到百度，利用百度API自动提交

sitemapUrls = re.findall('<loc>(.*?self.urls = re.findall('<loc>(.*?print("postBaidu:==========================

zhangpan 2020-09-10

ajax实现excel报表导出

项目中遇到一个场景，要导出一个excel报表。由于需要token验证，所以不能用a标签；由于页面复杂，所以不能使用表单提交。初步考虑前端使用ajax，后端返回流，定义指定的header。alert('导出失败，导出的内容为空！excel能正常导出，但下载下

chongxiaocheng 2020-08-16

ctf | php

一道难得可以看的懂的ctf题。id=1）把其中的id=1给取出来等等...下面是他的内部函数：。当我们判断s = /或者s+1 =/的时候就会仍未这是相对的url然后就取，而后认为 url 的部件从 url+2 开始。取不到应该去的值，所以导致过滤没啥用。

xcguoyu 2020-08-15

swagger报错No operations defined in spec!解决

swagger报错No operations defined in spec!一般有2个原因：。其中第2个path错误，path要是全匹配url，url是完整的，包含方法的url，本人因为path只写controller上的url，没写方法上的url，找了

Qizonghui 2020-08-02

mysql URL

characterEncoding=utf8&useUnicode=true. characterEncoding=utf8&useSSL=false&serverTimezone=UTC

ldcwang 2020-07-26

【Nginx】还不会使用Nginx解决跨域问题？肝这一篇就够了！！

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。而且大部分后端服务并不会只部署一套服务，而是会采用Ng

mqfcu 2020-07-21

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 2020-07-20

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 2020-07-19

一个菜鸟前端的自我提升：有关http请求中的get和post请求

在http/1.0中共定义了三种请求方式：get、post、head。在http/1.1中新增了五种请求方式：options、put、delete、trace、connect。在这八种方法中get、post这两种是最常见的请求方法。而post方法数据不会显

knightwatch 2020-07-19

从零开始手写 mybatis （三）jdbc pool 从零实现数据库连接池

第一节从零开始手写 mybatis（一）MVP 版本中我们实现了一个最基本的可以运行的 mybatis。本节我们一起来看一下如何实现一个数据库连接池。为什么需要连接池？数据库连接的创建是非常耗时的一个操作，在高并发的场景，如果每次对于数据库的访问都重新

点滴技术生活 2020-07-19

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

记得索引位置，有部分车次的索引位置完全相反！！！我晕，暂时没想到怎么搞。此处headers 和cookies 自己获取，记得加！‘_jc_save_toDate‘: ‘2020-07-06‘,‘_jc_save_wfdc_flag‘: ‘dc‘,‘_jc_

Reiki 2020-07-06

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

Python github

def get_search_github(keyword, language, pageIndex):. "q" : keyword,"type": "Repositories","l

zluxingzhe 2020-07-04

pythoncream

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号