python re正则匹配网页中图片url地址的方法

echoright晓戈

2018-12-20

最近写了个python抓取必应搜索首页http://cn.bing.com/的背景图片并将此图片更换为我的电脑桌面的程序，在正则匹配图片url时遇到了匹配失败问题。

要抓取的图片地址如图所示：

python re正则匹配网页中图片url地址的方法

首先，使用这个pattern

reg = re.compile('.*g_img={url: "(http.*?jpg)"')

无论怎么匹配都匹配不到，后来把网页源码抓下来放在notepad++中查看，并用notepad++的正则匹配查找，很轻易就匹配到了，如图：

python re正则匹配网页中图片url地址的方法

后来我写了个测试代码，把图片地址在的那一行保存在一个字符串中，很快就匹配到了，如下面代码所示，data是匹配不到的，然而line是可以匹配到的。

# -*-coding:utf-8-*-
import os
import re
 
f = open('bing.html','r')
 
line = r'''Bnp.Internal.Close(0,0,60056); } });;g_img={url: "https://az12410.vo.msecnd.net/homepage/app/2016hw/BingHalloween_BkgImg.jpg",id:'bgDiv',d:'200',cN'''
data = f.read().decode('utf-8','ignore').encode('gbk','ignore')
 
print " "
 
reg = re.compile('.*g_img={url: "(http.*?jpg)"')
 
if re.match(reg, data):
  m1 = reg.findall(data)
  print m1[0]
else:
  print("data Not match .")
  
print 20*'-'
#print line
if re.match(reg, line):
  m2 = reg.findall(line)
  print m2[0]
else:
  print("line Not match .")

由此可见line和data是有区别的，什么区别呢？那就是data是多行的，包含换行符，而line是单行的，没有换行符。我有在字符串line中加了换行符，结果line没有匹配到。

到这了原因就清楚了。原因就在这句话

re.compile('.*g_img={url: "(http.*?jpg)"')。

后来翻阅python文档，发现re.compile()这个函数的第二个可选参数flags。这个参数是re中定义的常量，有如下常量

re.DEBUG Display debug information about compiled expression.
re.I 
re.IGNORECASE Perform case-insensitive matching; expressions like [A-Z] will match lowercase letters, too. This is not affected by the current locale.

re.L 


re.LOCALE Make \w, \W, \b, \B, \s and \S dependent on the current locale.

re.M 


re.MULTILINE When specified, the pattern character '^' matches at the beginning of the string and at the beginning of each line (immediately following each newline); and the pattern character '$' matches at the end of the string and at the end of each line (immediately preceding each newline). By default, '^' matches only at the beginning of the string, and '$' only at the end of the string and immediately before the newline (if any) at the end of the string.

re.S 


re.DOTALL Make the '.' special character match any character at all, including a newline; without this flag, '.' will match anything except a newline.re.U re.UNICODE Make \w, \W, \b, \B, \d, \D, \s and \S dependent on the Unicode character properties database.New in version 2.0.

re.X 


re.VERBOSE This flag allows you to write regular expressions that look nicer and are more readable by allowing you to visually separate logical sections of the pattern and add comments. Whitespace within the pattern is ignored, except when in a character class or when preceded by an unescaped backslash. When a line contains a # that is not in a character class and is not preceded by an unescaped backslash, all characters from the leftmost such # through the end of the line are ignored.

这里我们需要的就是re.S 让'.'匹配所有字符，包括换行符。修改正则表达式为

reg = re.compile('.*g_img={url: "(http.*?jpg)"', re.S)

即可完美解决问题。

正则 python url

echoright晓戈

0 关注 0 粉丝 0 动态

关注关注

MySQL全面瓦解之查询的正则匹配详解

上一章查询的过滤条件，我们了解了MySQL可以通过 like % 通配符来进行模糊匹配。同样的，它也支持其他正则表达式的匹配，我们在MySQL中使用 REGEXP 操作符来进行正则表达式匹配。似，但又强大很多，能够实现一些很特殊的、复杂的规则匹配。如果

杨德龙 2020-11-11

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

MongoDB查询文档使用find()方法，同时find()方法以非结构化的方式来显示所有查询到的文档。db.collection.find -- 返回所有符合查询条件的文档。$type操作符是基于BSON类型来检索集合中匹配的数据类型，MongoDB中可

不要皱眉 5评论 2020-10-14

ASP删除img标签的style属性只保留src的正则函数

'功能:将IMG代码格式化为<img src="XXX" />格式,只保留SRC属性，去掉IMG标签的其他属性。

满地星辰 2020-09-16

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

在之前的一系列文章中，我们讲解了很多关于正则表达式的知识。那么作为一个前端工程师，如果想要把这些知识应用到我们平时的开发中去的话，就需要知道在JavaScript中，能够使用正则的函数有哪些？然后它们各自的功能是什么？有哪些需要注意的地方？只有掌握好了每一

梦的天空 2020-08-25

liunx正则危险符号“*”星号

sed符号是一个替换符号，用于文件替换，现在我们像grep一样，把b替换成z，按照我最开始的写法，只要有b的都替换成z，所以写法是。sed “s/b*/z/g” 含义sed "s/查找字符/替换字符/全局替换"，但是下面的结果另外们大吃

lrjnlp 2020-07-19

正则 : 模式

贪婪模式和懒惰模式都会进行回溯；匹配两次相关的字符时，匹配到不符合要求的字符后，这个字符才算匹配完，然后继续匹配下一个字符；默认模式就是贪婪模式，正则会在满足要求的情况下尽可能多的匹配字符知道匹配到不符合要求的字符为止；模式符号)来表示正则的匹配模式，使用

qidu 2020-07-05

CTF-字符？正则？

通过读代码可以看出只要我们构造出符合正则表达式的字符串通过GET传参传过去就可以看到 key 即 flag. . （一个点）：表示可以匹配任何字符；{n,m} ：前面的字符重复4~7次；\ （反斜线）：后面的字符被转义；至此，我们可以对这道题的正则表达式进

flyingssky 2020-07-05

10、正则

pat = re.compile ## 此处的AA是正则表达式，用来取验证其他字符串是否符合AA. m = pat.search ## search字符串是被校验的内容，若不匹配，则返回None. print ## 找出至少一个或多个

flyingssky 2020-06-27

形式语言与自动机五正则语言的三个性质

自动机理论非常完美！！自动机的表述有纯数学形式的五元组形式、状态转移图、状态转移表。接下来以研究正则语言（3型）的性质为主。但是也要知道即使是更强的上下文无关文法，其描述能力也是受限的。上面的B、C找不到正则表达式，也就找不到有限自动机。DFA中的F指的是

RuoShangM 2020-06-17

[javascript] 获取正则子表达式里的内容

js中每一个括号匹配的内容可以被RegExp对象捕获到，存储在RegExp.$1…

jyj00 2020-06-16

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

简单问题简单做，今天的题目来自leetcode771. 宝石与石头，字符串相关的一道题，题目描述如下：。J 中的字母不重复，J 和 S中的所有字符都是字母。字母区分大小写，因此"a"和"A"是不同类型的石头。S 和

天高任鸟飞 2020-06-13

什么？你还不会身份证号码验证？最全的身份证正则验证js

var city={11:"北京",12:"天津",13:"河北",14:"山西",15:"内蒙古",21:"辽宁",22:"

Darklovy 2020-06-11

用它匹配大数据长文本，让你的处理效率提升 100 倍！

原来文本匹配的方式一直是用中规中矩的正则来做，最近在实际生产中由于数据量骤升，现有数据量提高了大约 3-4 倍，原本使用正则处理已经到了瓶颈，这次又有增量对生产来说可谓雪上加霜，而且随着正则词越加越多，匹配效率也越来越差，数据量的激增再加上正则词越加越多，

qidu 2020-06-08

linux正则应用场景

sed 本身也是一个管线命令，可以分析 standard input 的啦！而且 sed还可以将数据进行取代、删除、新增、撷取特定行等等的功能呢。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后，则只有

Darklovy 2020-06-07

模块-re模块

findall ：会匹配字符串中所有符合规则的项并返回一个列表，如果没有匹配到返回一个空列表。search ：会从头到尾从带匹配匹配字符串中取出第一个符合条件的项，后面即使有也不再继续

jyj00 2020-06-06

前端常用正则校验

非零开头的最多带两位小数的数字：^+?正数、负数、和小数：^?有1~3位小数的正实数：^[0-9]+?中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{

flyingssky 2020-06-04

node环境下console语句对非空数组输出时，会清空正则捕获组。

如代码所示，当我在console输出语句中对正则捕获RegExp.$X进行split分割,，结果后续的任何语句均无法读取到正则捕获组RegExp.$X的值。const args = RegExp.$1.split(‘,‘).map;console.log;

山水沐光 2020-05-26

正则注意事项

1， -o 仅显示匹配的内容，默认情况下grep显示对应的整行,如果要做统计的话,需要sed去除不要的部分, 但grep提供了仅显示需要的部分, 使sed脚本更简单.注意，grep 只支持匹配而不能替换匹配到的内容。grep 支持不同的匹配模式，比如默认

山水沐光 2020-05-25

mongodb正则$regex命令行简单使用

{ <field>: { $regex: /pattern/, $options: ‘<options>‘ } }

Buerzhu 2020-05-17

JavaScript正则表达式匹配字符串字面量

第一次遇到这个问题, 是大概两年前写代码高亮, 从当时的解决方案到现在一共有三代, 嘎嘎. 觉得还是算越来越好的.//那个时候自己正则还不算很精通, 也没有(?//比如像字面量 "abc\\\"", 则会匹配为 "a

zjcheerup 2020-05-14

安科网

python re正则匹配网页中图片url地址的方法

echoright晓戈

echoright晓戈

相关推荐

MySQL全面瓦解之查询的正则匹配详解

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

ASP删除img标签的style属性只保留src的正则函数

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

liunx正则危险符号“*”星号

正则 : 模式

CTF-字符？正则？

10、正则

形式语言与自动机五正则语言的三个性质

[javascript] 获取正则子表达式里的内容

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

什么？你还不会身份证号码验证？最全的身份证正则验证js

用它匹配大数据长文本，让你的处理效率提升 100 倍！

linux正则应用场景

模块-re模块

前端常用正则校验

node环境下console语句对非空数组输出时，会清空正则捕获组。

正则注意事项

mongodb正则$regex命令行简单使用

JavaScript正则表达式匹配字符串字面量

echoright晓戈