python项目实战:爬取youku视频播放链接
前言
相信大家都做过很多的爬虫把?比如爬取各种各样的图片,爬取许多视频啥的,还是模拟登陆,用字典暴力破解各种加密文件等等,总之Python居有非常都应用,可谓是丰富的很
接下来为大家介绍Python爬取youku视频的播放链接,直接放在网页就可以看了,废话不多说,直接上代码吧

首先导入库
import random import re import requests
发起请求
def get_request(url, user_agent):
'''参数引入及头信息'''
if len(user_agent) < 10:
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20100101 Firefox/39.0'
# 此处修改头字段,
headers = {
'Host': "v.youku.com",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8",
'Cache-Control': 'no-cache',
"Connection": "keep-alive",
"User-Agent": user_agent,
'Referer': 'http://www.youku.com/'
}
try:
html = requests.get(url, headers=headers, timeout=20).text
# print html
return html
except Exception, e:
print(Exception, e)
return -1学习从来不是一个人的事情,要有个相互监督的伙伴,工作需要学习python或者有兴趣学习python的伙伴可以私信回复小编“学习” 领取全套免费python学习资料、视频()安装包

主函数执行
if __name__ == '__main__':
# 此url为任意一个具有某视频播放窗口的页面
url = "http://v.youku.com/v_show/id_XMTgzNDI0MjkzNg==.html?from=y1.3-movie-grid-1095-9921.86985-107667.1-1&spm=a2hmv.20009921.yk-slide-107667.5~5~5~5!2~A#paction"
# 导入数据集并随机获取一个User-Agent
user_agent_list = []
f = open('user_agent.txt', 'r')
for date_line in f:
user_agent_list.append(date_line.replace('
', ''))
user_agent = random.choice(user_agent_list)
# 发起请求
html_body = get_request(url, user_agent)
print(re.findall('http://player.youku.com/player.php/sid/[A-Za-z0-9=]*/v.swf', html_body))将此链接放在浏览器中可以直接播放,虽然有广告...但是还是能实现的,欢迎大家一起学习,共同交流
