网络爬虫百度新闻标题及链接爬取

hilary0

2020-05-03

1.主题：百度新闻爬取

python代码：

　　import requests
　　　　from bs4 import BeautifulSoup
　　　　def getHTMLText(url):
　　　　　　try:
　　　　　　　　r = requests.get(url,timeout=30)
　　　　　　　　r.raise_for_status()
　　　　　　　　r.encoding = r.apparent_encoding
　　　　　　　　return r.text
　　　　　　except:
　　　　　　　　return ""
　　　　def filllist(demo):
　　　　　　soup=BeautifulSoup(demo,"html.parser")
　　　　　　for i in soup.find_all("a"):
　　　　　　　　list1=i.attrs
　　　　　　　　print(i.text,end=‘ ‘)
　　　　　　　　print(list1[‘href‘])
　　　　def main():
　　　　　　url="http://news.baidu.com/"
　　　　　　demo=getHTMLText(url)
　　　　　　getHTMLText(url)
　　　　　　filllist(demo)
　　　　main()

代码完成之后就是这个样子

网络爬虫百度新闻标题及链接爬取

3.问题：在代码编写过程中，我遇到了很多问题，比如一开始用find函数总是出现错误，我也是看大家的代码才找到正确的打开方式。

　　　　另外开始是这样的，一下子所有的属性都打出

　　　　网络爬虫百度新闻标题及链接爬取

　　我的本意是只要链接的那部分属性，经过反复看视频和多次的实验终于解决了这个难题，形成了开头那个样子。很开心！

　　但是开头和结尾还是有多余的部分不知道怎么解决，求助！

　　　　网络爬虫百度新闻标题及链接爬取

网络爬虫

安科网

网络爬虫百度新闻标题及链接爬取

hilary0

hilary0

相关推荐

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

用Python网络爬虫来看看最近电影院都有哪些上映的电影

大数据获取案例：Python网络爬虫实例

python网络爬虫——requests模块（第二章）

企业级Python开发大佬利用网络爬虫技术实现自动发送天气预告邮件

1、网络爬虫

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

python系列整理---爬虫

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

《肖申克的救赎》百度百科网络爬虫

理解网络爬虫

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

python网络爬虫与信息提取mooc------爬取实例

Python——网络爬虫，一个简单的通用代码框架

网络爬虫（二）

网络爬虫（一）- 基本使用

python网络爬虫（二）requests库的基本介绍和使用

网络爬虫学习——抓取猫眼电影排行

Requests库网络爬虫实战

[Python] 网络爬虫

hilary0