用Python爬取QQ空间数据，一天400W条数还是比较简单的

Stephenzsky

2018-09-07

关注关注

爬虫是偏后台型的任务，以抓取效率为主，并没有很好的用户界面，并且需要不断地维护。所以对于完全没有编程基础的人来说，可能会遇到各种各样的问题。

用Python爬取QQ空间数据，一天400W条数还是比较简单的

环境、架构：

开发语言：Python2.7
开发环境：Windows
数据库：MongoDB 3.2.0

启动前配置：

需要安装的软件：

python
Redis
MongoDB

（Redis和MongoDB都是NoSQL，服务启动后能连接上就行，不需要建表什么的）。

需要安装的Python模块：

requests
BeautifulSoup
multiprocessing
selenium
itertools
redis
pymongo

用Python爬取QQ空间数据，一天400W条数还是比较简单的

先看看效果图

用Python爬取QQ空间数据，一天400W条数还是比较简单的

说说的数据

用Python爬取QQ空间数据，一天400W条数还是比较简单的

代码比较多，发出来也看不清楚，如果需要源代码的朋友可以关注小编后私信

【QQ空间】就可以了。

那小编这里先给大家说一下代码吧，到时候拿到代码后可以回头过来看看，代码说明哈。

用Python爬取QQ空间数据，一天400W条数还是比较简单的

有什么问题请尽量留言，方便后来遇到同样问题的朋友查看。

空间数据 qq空间 qq python mongodb

Stephenzsky

0 关注 0 粉丝 0 动态

关注关注

没吃透Netty 缓冲区，还能算得上Java老司机？

Java NIO 需要理解的主要有缓冲区，通道，选择器，这三个主要的部分。操作系统为了提供稳定性，把虚拟地址空间分为用户空间和内核空间，其中用户进程只能操作用户空间的内容，而内核空间的内容可以操作用户空间的内容以及用户空间的内容。总结数据流向是：磁盘 -

fengshantao 2020-10-29

一篇读懂Linux 是如何管理内存的

每个 Linux 进程都会有地址空间，这些地址空间由三个段区域组成：text 段、data 段、stack 段。数据段分为两部分，已经初始化的数据和尚未初始化的数据。所有 BSS 部分中的变量在加载后被初始化为 0 。和代码段不一样，data segme

bluecarrot 2020-09-17

（数据科学学习手札88）基于geopandas的空间数据分析——空间计算篇（下）

　　在基于geopandas的空间数据分析系列文章第8篇中，我们对geopandas开展空间计算的部分内容进行了介绍，涉及到缓冲区分析、矢量数据简化、仿射变换、叠加分析与空间融合等常见空间计算操作，而本文就将针对geopandas中剩余的其他常用空间计算操

Norsaa 2020-06-25

Java高并发教程：高并发IO的底层原理

　　程序进行IO读写依赖于操作系统底层的IO读写，主要为read、write两大系统调用。在不同的操作系统中，IO读写的系统调用的名称可能不完全一样，但是基本功能是一样的。上层应用无论时调用操作系统的read，还是write都会涉及缓存区。　　所以，程序的

huangzonggui 2020-06-04

公安系统可视化管理平台设计方案

虽然三维GIS有二维GIS不能类比的优点，可是在相当长时间内还没法彻底取代二维GIS。为了最大限度地运用二维资源，使二维GIS与三维GIS展开集成并完成联动，进而完成在同一架构管理体系下使二者互利共赢。

Leonwey 2020-06-01

汇编语言-06包含多个段的程序

在操作系统的环境中，合法地通过操作系统取得的空间都是安全的，因为操作系统不会让一个程序所用的空间和其他程序以及系统自己的空间相冲突。在操作系统允许的情况下，程序可以取得任意容量的空间。若要一个程序在被加载的时候取得所需的空间，则必须要在源程序中做出说明。通

风月无古今 2020-05-15

第一章：GIS的基本概念

　　1.GIS是一门集计算机科学、信息学、地理学等多门学科为一体的学科，是在计算机软件和硬件支持下，运用系统工程和信息科学的理论，科学管理和综合分析具有空间内涵的地理数据，以提供对规划、管理、决策和研究所需信息的空间信息系统。　　2.GIS通常被认为是一种

freedomfanye 2020-05-14

（数据科学学习手札82）基于geopandas的空间数据分析——geoplot篇(上)

　　在前面的基于geopandas的空间数据分析系列文章中，我们已经对geopandas的基础知识、基础可视化，以及如何科学绘制分层设色地图展开了深入的学习，而利用geopandas+matplotlib进行地理可视化固然能实现常见的地图可视化，且提供了操

一次次尝试 2020-05-02

8.基本数据结构-顺序表和链表

首先我们需要知道我们目前使用的计算机都是二进制的计算机，就以为着计算机只可以存储和运算二进制的数据。例如下载好的一部电影，该电影可以存储到计算机中，计算机中存储的是基于二进制的电影数据，然后我们可以通过相关的视频播放软件结合相关的硬件对电影的二进制数据进行

niushao 2020-01-12

Linux常见系统故障：文件已删除但空间不释放的原因

运维的监控系统发来通知，报告一台服务器空间满了，登录服务器查看，根分区确实没有空间了，如图1所示。既然找到了问题，那么删除/tmp目录下一些占空间较大的数据文件即可，检查/tmp下最大的三个数据文件，如图2所示。到这里问题就基本排查清楚了，解决这一类问题的

自由天地 2019-12-31

Linux文件删除，但是df之后磁盘空间没有释放

Linux 磁盘空间总是报警，查到到大文件，删除之后，df看到磁盘空间并没有释放。查找了下发现系统对rm进行了alias ，因为Linux对删除操作没有回收站机制，对rm操作进行了自定义，对删除文件进行移动到/tmp 目录里面。这里首先说明一下服务器的一

huangzonggui 2019-12-19

IO五种模型和select与epoll工作原理（引入nginx）

有很多研究都表明，性能对用户的行为有很大的影响：。79%的用户表示不太可能再次打开一个缓慢的网站。47%的用户期望网页能在2秒钟以内加载。40%的用户表示如果加载时间超过三秒钟，就会放弃这个网站。页面加载时间延迟一秒可能导致转换损失7%，页面浏览量减少11

byourb 2019-12-12

【转】Linux教程:df命令不更新数据空间占用信息的解决办法

今天一个朋友的服务器空间满了,检查后发现服务器apache的日志占用了3.6G的空间,将日志清理后发现df -h依然显示 / 占用空间为100%. 因为有些被运行中程序控制linux文件在删除后并不会立即腾出空间, 而他删除正好就是在运行中的apache的

zhangskd 2015-09-15

SQL Server 2008空间数据应用系列二：空间索引（Spatial Index）基础

　　在前一篇博文中我们学习到了一些关于地理信息的基础知识，也学习了空间参照系统，既地球椭球体、基准、本初子午线、计量单位、投影等相关理论知识，我们可以使用这些空间参照系统组件来定义一系列应用于地球空间上的几何图像来表示地理空间中的特定功能，表示着地球上一个

Unfinishcode 2014-06-03

Cesium中级教程1 - 空间数据可视化（一）

本教程将教读者如何使用Cesium的实体API绘制空间数据，如点、标记、标签、线、模型、形状和物体。不需要Cesium的先验知识，但是如果读者完全没有这方面的经验，那么读者可能希望从“新手入门中文教程（原创）”开始学习。Cesium具有丰富的用于空间数据的

Leonwey 2019-11-04

AO——将函数栅格数据集保存到磁盘

// 创建栅格工作空间.// 打开指向输入文件夹的工作空间.// 使用SaveAs方法保存为指定格式的栅格数据集.

swazerz 2019-10-22

[转帖]运维必读：Linux 的内存分页管理

内存是计算机的主存储器。内存为进程开辟出进程空间，让进程在其中保存数据。我将从内存的物理特性出发，深入到内存管理的细节，特别是了解虚拟内存和内存分页的概念。用十六进制表示，32位地址空间就是从0x00000000 到0xFFFFFFFF。所谓的“随机读取”

jiangtie 2019-10-20

win7与Oracle VM VirtualBox 中ubuntu文件共享

虚拟机工具栏显示快捷键右ctrl+c 记录下....

小七飞天 2011-08-09

Win10使用存储空间保存数据以防止数据丢失

　　我们的电脑上有时候会存放一些重要的数据，但是一旦发生磁盘损坏，就会造成数据的丢失。Win10系统中准备了一个存储空间的功能，可以帮助用户保存数据，防止数据丢失。　　以上就是Win10使用存储空间保存数据的方法步骤了，把数据保存在存储空间中，就算硬件发生

大数据文摘 2015-06-30

Swap分区

硬盘分区为主分区+扩展分区所有的逻辑分区都在扩展分区内;swap肯定是要的分区。最基本的分区为根分区和swap分区！这样，系统总是在物理内存不够时，才进行Swap交换。通过调整Swap，有时可以越过系统性能瓶颈，节省系统升级费用。　　如果系统的物理内存用光

kvikon 2011-07-02

安科网

用Python爬取QQ空间数据，一天400W条数还是比较简单的

Stephenzsky

环境、架构：

启动前配置：

先看看效果图

说说的数据

Stephenzsky

相关推荐

没吃透Netty 缓冲区，还能算得上Java老司机？

一篇读懂Linux 是如何管理内存的

（数据科学学习手札88）基于geopandas的空间数据分析——空间计算篇（下）

Java高并发教程：高并发IO的底层原理

公安系统可视化管理平台设计方案

汇编语言-06包含多个段的程序

第一章：GIS的基本概念

（数据科学学习手札82）基于geopandas的空间数据分析——geoplot篇(上)

8.基本数据结构-顺序表和链表

Linux常见系统故障：文件已删除但空间不释放的原因

Linux文件删除，但是df之后磁盘空间没有释放

IO五种模型和select与epoll工作原理（引入nginx）

【转】Linux教程:df命令不更新数据空间占用信息的解决办法

SQL Server 2008空间数据应用系列二：空间索引（Spatial Index）基础

Cesium中级教程1 - 空间数据可视化（一）

AO——将函数栅格数据集保存到磁盘

[转帖]运维必读：Linux 的内存分页管理

win7与Oracle VM VirtualBox 中ubuntu文件共享

Win10使用存储空间保存数据以防止数据丢失

Swap分区

Stephenzsky