python来获取网页中的所有链接
注意:使用前要装selenium第三方的库才可以使用
版本:python3
from bs4 import BeautifulSoup from urllib import request # 要请求的网络地址 url = ‘https://www.hao123.com/‘ # 请求网络地址得到html网页代码 html = request.urlopen(url) # 整理代码 soup = BeautifulSoup(html, ‘html.parser‘) # 找出所有的 a 标签, 因为所有的链接都在 a 标签内 data = soup.find_all(‘a‘) # 打开文件对象做持久化操作 file = open(‘D:/link.txt‘, mode=‘w‘, encoding=‘utf-8‘) # 遍历所有的 a 标签, 获取它们的 href 属性的值和它们的 text for item in data: if item.string is not None and item[‘href‘] != ‘javascript:;‘ and item[‘href‘] != ‘#‘: print(item.string, item.get(‘href‘)) file.write(str.__add__(item.string, ‘ ‘)) file.write(str.__add__(item[‘href‘], ‘\n‘)) file.close()
相关推荐
lupeng 2020-11-14
sjcheck 2020-11-10
sjcheck 2020-11-03
meylovezn 2020-08-28
owhile 2020-08-18
Francismingren 2020-08-17
pythonclass 2020-07-29
sunzhihaofuture 2020-07-19
爱读书的旅行者 2020-07-07
行吟阁 2020-07-05
tianqi 2020-07-05
行吟阁 2020-07-04
冰蝶 2020-07-04
lyg0 2020-07-04
owhile 2020-07-04
opspider 2020-06-28
lengyu0 2020-06-28
tianqi 2020-06-21
dadaooxx 2020-06-16