实例练习:正则表达式爬取百度贴吧照片

代码出自小甲鱼,复盘,省略了图片的下载部分

正则真的太好用了,不过关键在你想不想的到最高效的正则表达式

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib.request
import re

url = "https://tieba.baidu.com/p/6512141636"

def web(url):
    response = urllib.request.urlopen(url)
    html = response.read().decode(‘UTF-8‘,‘ignore‘)
    test = r‘<img class="BDE_Image" src="([^"]+\.jpg)"‘
    out = re.findall(test,html)
    print(out)
web(url)

相关推荐