python网络爬虫与信息提取mooc------爬取实例

宿舍

2020-03-06

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
  r=requests.get(url)
  r.raise_for_status()
  r.encoding=r.apparent_encoding
  print(r.text[:1000])
except:
  print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
   kv={‘user-agent‘:‘Mozilla/5.0‘}
   r=requests.get(url,headers=kv)
   r.raise_for_status()
   r.encoding=r.apparent_encoding
   print(r.text[1000:2000])
except:
   print("爬取失败")

对访问用户名有限制，模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口：http://www.baidu.com/s?wd=keyword
#360的关键词接口：http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
    kv={‘wd‘:keyword}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")--------------------------------------------------
import requestskeyword="python"try:    kv={‘q‘:keyword}    r=requests.get("http://www.so.com/s",params=kv)    print(r.request.url)    r.raise_for_status()    print(len(r.text))except:    print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split(‘/‘)[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,‘wb‘) as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已经存在")
except:
    print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询：

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
    r=requests.get(url+‘202.204.80.112‘+‘&action=2‘)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[-500:])
except:
    print("爬取失败")

有反爬了

python实例网络爬虫 url python

宿舍

0 关注 0 粉丝 0 动态

相关推荐

大数据获取案例：Python网络爬虫实例

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。用来获取新冠肺炎的实时数据。使用的工具PyCharm新建Python文件，命名为get_data使用爬虫最常用的request模

fengling 2020-08-15

Python初学者请注意！别这样直接运行python命令，否则电脑等于“裸奔”

Python已经成为全球最受欢迎的编程语言之一。原因当然是Python简明易用的脚本语法，只需把一段程序放入.py文件中，就能快速运行。而且Python语言很容易上手模块。这样设计的好处是，初学者能够非常方便地执行命令。但是对攻击者来说，这等于是为恶意程序

FlySky 15评论 2020-11-02

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 11评论 2020-10-26

让我们来谈谈python中的prettyprint和pprint

当你开始学习python编程的时候，你做的第一件事是什么?相信我们都已经通过“Hello World”程序开始了我们的python之旅。在python中，它可以在一行中完成：。但是，在使用print()函数打印字典、列表或任何其他复杂数据类型时，您是否遇到

taiyangshenniao 2020-10-05

Python中的高阶概念属性：五个你应该搞明白的知识点

在现代编程世界中，面向对象编程语言在改变软件开发中的设计和实现模式方面发挥了进化作用。作为OOP家族的重要成员，Python在过去10年左右逐渐流行起来。与其他OOP语言一样，Python围绕大量不同的对象操作其数据，包括模块、类和函数。在Python中，

flycony 2020-09-23

Python进阶版：定义类时应用的9种最佳做法

本文转载自公众号“读芯术”。作为一种OOP语言，Python通过支持以对象为主的各种功能来处理数据和功能。尽管可以使用内置数据类型，而且无需创建任何自定义类就能编写一组函数，但随着项目范围的扩大，代码可能会越来越难维护。这些单独代码部分的主题并不相同，尽管

jacktangj 2020-09-18

逐步展开Python详细教学—共享Python经验

在我们开始正文之前，我想知道您为什么学习Python。通过评论来分享你的学习经验和学习过程。我们会在内容中逐步针对读者进行Python讲解。Python编程语言是一种面向对象的语言，这意味着它可以模拟真实世界的实体。Python编程语言诞生于20世纪80年

YENCSDN 2020-09-15

通过代码实例了解Python sys模块

# fetch sys.argv[1] but without the first two characters. This program prints files to the standard output.这个程序用来模仿linux中的cat命令。

lsjweiyi 2020-09-14

基于python实现简单C/S模式代码实例

C/S模式就是指客bai户端/服务器模式，du是计算机软件协同工作的一种模式。由于Web浏览器的兴起，B/S模式逐步取代了daoC/S模式，被更广泛地应用。PC机的资源没有大型、中型甚至小型主机丰富，但将多台PC机联成网，必然会增加资源含量，各个用户都在网

digwtx 2020-09-14

基于python实现简单网页服务器代码实例

# create server, ip is empty, port is 8000, handle function is application. 它实现了wsgi接口，我们只需要定一个wsgi处理函数来处理得到的请求就可以了。用python来实现这些

拾毅者 2020-09-14

python输入中文的实例方法

方法二：unicode()转码，声明是gbk，对文字打印指明是utf-8即可，不强调是gbk编码。

AwesomeCyber 2020-09-14

python文件排序的方法总结

在python环境中提供两种排序方案：用库函数sorted()对字符串排序，它的对象是字符；用函数sort()对数字排序，它的对象是数字，如果读取文件的话，需要进行处理。从图片可以清晰的看出，文件名是按字符排序的。可以看出，文件名是按数字排序的；顺便提下，

zlxcsdn 2020-09-13

三分钟看懂Python和Java的区别

随着人工智能的火爆，Python和Java一直在各种流行编程语言中名列前茅。其实Java和Python有些相似，因为很多编程语言之间是互通的。Java现在还是第一，不知道Python未来会不会超越Java，但是现在有些人不明白Python和Java的区别。

weiiron 2020-08-17

Python代码注释规范代码实例解析

注释就是对代码的解释和说明，其目的是让人们能够更加轻松地了解代码。注释是编写程序时，写程序的人给一个语句、程序段、函数等的解释或提示，能提高程序代码的可读性。在有处理逻辑的代码中，源程序有效注释量必须在20％以上。单行注释可以作为单独的一行放在被注释代码行

amazingbo 2020-08-16

Python编写memcached启动脚本代码实例

memcached是一套分布式的高速缓存系统，由LiveJournal的Brad Fitzpatrick开发，但被许多网站使用。这是一套开放源代码软件，以BSD license授权发布。memcached缺乏认证以及安全管制，这代表应该将memcached

郗瑞强 2020-08-16

Python读取xlsx数据生成图标代码实例

labels=[item[0] for item in lst_total] #使用列表生成式，得到饼图的标签。pit.rcParams['font.family']=['SimHei'] #单独的表格乱码的处理方式

lispython 2020-08-16

盘点 Python 10 大常用数据结构（上篇）

如果你还处于Python入门阶段，通常只需掌握list、tuple、set、dict这类数据结构，做到灵活使用即可。因为相比于list, tuple实例更加节省内存，这点尤其重要。并且set内允许增删元素，且效率很高。但是值得注意，dict占用字节数是li

xiesheng 2020-08-02

python 类与对象

实例变量就是对象个体特有的“数据”。在定义_init_() 方法时，它的第一个参数应该是self，之后的参数用来初始化实例变量。调用构造方法是不需要传入self参数。类方法可以访问类变量和其他类方法，但不能访问其他实例方法和实例变量。在上面例子中，cls.

葫芦小金刚 2020-07-28

Python staticmethod() 函数

python staticmethod 返回函数的静态方法。/usr/bin/python # -*- coding: UTF-8 -*- class C: @staticmethod def f(): print; C.f(); # 静态方法无需实例化

StevenSun空间 2020-07-26

python中的类

它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。class Person:#object 是python中的基类，所有自定义的类都是基于object，可写可不写。2 name=‘zhangsan‘ # name 就是Person

Jonderwu 2020-07-19

宿舍

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号