利用Python爬取博客园有关爬虫的文章

Alexantao

2018-10-09

爬取博客园有关爬虫的文章

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】，感兴趣者可以关注小编后私信学习资料（是关注后私信哦）反正闲着也是闲着呢，不如学点东西啦

# coding: utf-8
import requests
from bs4 import BeautifulSoup
# 定义变量，这里可以用一个
d = 1
p = 0
k = 0
Reptilian_url = []
Reptilian_title = []
# 打开session
s = requests.session()
# 伪装头部
h = {
 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4094.1 Safari/537.36',
 'accept-encoding':'gzip, deflate, br'
}
# 从第1页到最大页数的url，总共有200页，这个数值也可以从页面读取
while d in range(200):
 url = 'https://www.cnblogs.com/cate/python/%d'% d
 r = s.get(url, headers=h)
 t = r.text
 soup = BeautifulSoup(t, 'lxml')
 list = soup.select('div.post_item_body h3')
 list2 = soup.find_all(attrs={'class':"titlelnk"})
 while p &lt; d:
 # 把标题写入空列表
 for z1 in list:
 Reptilian_title.append(z1.string)
 # 把url写入空列表
 for u1 in list2:
 Reptilian_url.append(u1['href'])
 p += 1
 d += 1
# 打印爬取的总数据量
print(len(Reptilian_title))
# 加入筛选条件，包含爬虫字段的帖子
while k &lt; len(Reptilian_title):
 if '爬虫' in Reptilian_title[k]:
 print(k+1,'%s'%Reptilian_title[k],'','%s'%Reptilian_url[k])
 print('===============================')
 k += 1

可以给中间加一小段，写到文档里，保存下来偷偷看。

Reptilian = open('1.txt', 'a')
Reptilian.writelines(['标题：',Reptilian_title,' ','url：',Reptilian_url])
Reptilian.close()

博客园 python python爬虫

Alexantao

0 关注 0 粉丝 0 动态

关注关注

博客园添加markdown文章导航栏

我正在翻译Spring Framework文档，发布到博客园之后发现文章太密集，猛一看到比较懵，由于看到博客园支持自定义页面，我觉得添加一个导航栏，结构上会更加清晰一些。所以在网上搜了搜关于添加导航栏的文章，搜到一个试了试，有些问题，所以就自己写了一个，实

tenvainvi 2019-12-21

测试博客园的MarkDown性能

用以下三种符号+-*都可以。有序列表与无序列表都可以嵌套使用。还有一种不是很常用的任务列表。第一种是斜体，第二种是粗体。第三种，斜体与粗体综合起作用。MarkDown原生语法中,不存在下划线的语法。我们可以用html代码达到下划线的效果。开始一行作为标准，

Kingcxx 2019-12-21

修改博客园markdown编辑器代码高亮风格的方法

作为一个工程师，追求极致与艺术也应当成为我们生活中的一部分，作为自己的心爱之物——博客，当然也得装扮一下，我对代码高亮有自己所喜欢的风格~还好程序员的世界总是共通的，已经有前辈开发了一些代码高亮的样式可供我们开箱即用。Highlightjs就是这样一款产品

James0 2019-12-15

python简单模拟博客园系统

# b.用户名要求：不能有特殊字符并且确保用户名唯一。# c.密码要求：长度要在6~14个字符之间。## 2.登录功能要求：# a.用户输入用户名、密码进行登录验证。# b.登录成功之后，才可以访问3 - 7选项，如果没有登录或者登录不成功时访问3 - 7

pengkunstone 2019-12-14

selenium登录博客园

# 图像处理标准库。# 等待时间产生随机数。# 单位时间为0.3s来统计轨迹，轨迹即0.3s内的位移。# 位移/轨迹列表。# 到达mid值开始减速。# 加速度越小，单位时间内的位移越小，模拟的轨迹就越多越详细。s = v0 * t + 0.5 * a *

xiangxiaojun 2019-12-11

自己写了一套博客园主题合集

index.js是入口文件，它将用户配置和默认配置合并然后将它放到window对象下，根据用户所选主题加载主题入口文件theme.js. 所有主题都放在 theme 文件夹下，至少包含一个 js 文件和一个 css 文件, 下面以已存在的主题 acg 为

somboy 2019-12-06

自己写了一套博客园主题合集

index.js是入口文件，它将用户配置和默认配置合并然后将它放到window对象下，根据用户所选主题加载主题入口文件theme.js. 欢迎啊欢迎啊欢迎啊代码地址点我?如果你已经自己定义了很多你的博客园样式，你只需要将你的博客代码稍作修改，加入进来！

福叔 2019-12-05

一键发布本地文章到【博客园、CSDN、掘金】等平台的Markdown编辑器

一款定位于Markdown文章排版与一键发布本地文章到等平台的Markdown编辑器。你可以尝试用JustWrite写作，因为JustWrite可以帮你排版，帮你美化，帮你处理本地图片，帮你一键发布！新项目难免有Bug，我也只是在Mac平台使用，Win平台

Hesland 2019-11-12

修改博客园css样式

看到一款博客园主题，感觉很好看，只是有些css样式不怎么满意，所以自己修改了下，修改的方法在这里记录了下。F12查看元素,就可以看到css样式的标签，在这里调试好后，拷贝出来就可以了。

sdbxpjzq 2019-11-04

GShang博客园主题高级版本适配教程详解

页面定制CSS代码引用的是基础版的，为了不影响网页加载，建议直接将代码复制进页面定制CSS代码，而不是引用CSS文件。页脚一般用来引入js文件，并且在页脚的最先加载。内容见下面的代码。这里面主要涉及到念诗的脚本、复制代码块的脚本、以及我制作的主题需要调用的

sdbxpjzq 2019-10-27

博客园右侧魔方代码

--部署内外层图片-->

安得情怀似旧时 2019-10-27

前端小白也能快速学会的博客园博客美化全攻略

前端小白也能快速学会的博客园博客美化全攻略A呦V，博客园er的自我修养是什么？第一条，别只顾收藏和偷师呀，记得点"推荐"或关注本人喔~美化方法论简介一般而言，需要选一个默认的skin，然后在该基础上调整。准备工作首先你得有个cnblog

Xhj 2019-06-30

Python抓取博客园首页最新文章信息并将数据存储到MongoDB

ITxiaobaibai 2019-03-20

python3实现暴力穷举博客园密码

我之前想写路由器的密码暴力破解器，我手上只有极路由，发现极路由有安全限制，只能允许连续10密码错误，所以我改拿博客园练手。博客园的博客有个功能是给博文设置一个密码，输入正确的密码才能看到文章的内容。经过测试发现这个密码验证功能，既没有验证码也没有提交频率的

CloudXli 2016-06-19

基于JQuery的抓取博客园首页RSS的代码

<tr bgcolor="#FFFFFF"><td align="center" width="70%">标题</td><td align="c

Moswen 2011-12-01

PHP仿博客园个人博客（1）数据库与界面设计

我能看懂大部分英语文档，人不蠢，爱学习，有兴趣地可以联系下！qq:240382473 我会分3-5次发布所有关键代码和文档说明，博客后台所有的样式均套用博客园!说明： 1. 不完全采用MVC架构，但是理念就是这样的。因为还不能写出很稳定的MVC架构。

sandyhmily 2013-07-05

利用正则表达式抓取博客园列表数据

鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据，我自己输入太累，所以我就抓取了博客园的部分列表数据，还请dudu不要见怪。在抓取博客园数据的时候采用了正则表达式，所以有不熟悉正则表达式的朋友可以参考相关资料，其实很容易掌握，就

lancanfei 2015-09-28

将博客园(cnblogs.com)数据导入到wordpress的代码

我将这个分享出来，如果以后有谁需要可以直接下载下面插件使用方法：在cnblogs选择备份数据，导出一个XML到本地；下载附件中的插件，安装至\wp-content\plugins目录；后台开启插件后，可以在“工具”中找到“Cnblogs数据转换”，

85510394 2013-01-06

用ajax自动加载blogjava和博客园的rss

80417606 2007-03-06

自定义简洁博客园布局样式

自定义主体样式参数在皮肤里先挑一个现成的模板开始我们的定制之旅，这里我选了SimpleMemory，我还是喜欢这种朴素的风格。

图月志 2018-05-28

安科网

利用Python爬取博客园有关爬虫的文章

Alexantao

Alexantao

相关推荐

博客园添加markdown文章导航栏

测试博客园的MarkDown性能

修改博客园markdown编辑器代码高亮风格的方法

python简单模拟博客园系统

selenium登录博客园

自己写了一套博客园主题合集

自己写了一套博客园主题合集

一键发布本地文章到【博客园、CSDN、掘金】等平台的Markdown编辑器

修改博客园css样式

GShang博客园主题高级版本适配教程详解

博客园右侧魔方代码

前端小白也能快速学会的博客园博客美化全攻略

Python抓取博客园首页最新文章信息并将数据存储到MongoDB

python3实现暴力穷举博客园密码

基于JQuery的抓取博客园首页RSS的代码

PHP仿博客园个人博客（1）数据库与界面设计

利用正则表达式抓取博客园列表数据

将博客园(cnblogs.com)数据导入到wordpress的代码

用ajax自动加载blogjava和博客园的rss

自定义简洁博客园布局样式

Alexantao