IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

dhissy

2018-07-29

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

什么是爬虫？

百度百科：网络爬虫（又被称为网页，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取信息的程序或者脚本。

最近很多朋友问我，学习爬虫，学到什么程度可以去找工作呢？

这篇文章会说说我自己的心得体验，关于爬虫、关于工作，仅供参考

为什么那么多人选择学习爬虫？

爬虫入门简单
薪资客观
求职门槛不高

一线城市（北京为例）

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

96.1%薪资是在10K以上，88.1%的人薪资是在10-30K，所以为什么说薪资非常客观了。

二线城市（成都为例）

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

学到哪种程度可以就业

暂且把目标定位初级爬虫工程师，简单列一下吧：

（必要部分）

语言选择：一般是Python
熟悉多线程编程、网络编程、HTTP协议相关
开发过完整爬虫项目（最好有全站爬虫经验，这个下面会说到）
反爬相关，cookie、ip池、验证码等等
熟练使用分布式

（非必要，建议）

了解消息队列，如RabbitMQ、Kafka、Redis等
具有数据挖掘、自然语言处理、信息检索、机器学习经验
熟悉APP数据采集、中间人代理
大数据处理（Hive/MR/Spark/Storm）
数据库Mysql，redis，mongdb
熟悉Git操作、linux环境开发
读懂js代码，这个真的很重要

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

如何提升

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

随便看看知乎上的教程就可以入门了，就Python而言，会requests当然是不够的，还需要了解scrapy和pyspider这两个框架，scrapy_redis也是需要理解原理的。

分布式如何搭建、
如何解决其中遇到内存、速度问题。

什么叫全站爬取

最简单的拿拉钩来举例，搜索关键词，有30页，不要以为把这30页爬完就是全站爬取了，你应该想方法把所有数据全部爬下来。

什么办法，通过筛选缩小范围，慢慢来就OK了。

同时，每个职位还会有推荐职位，再写一个采集推荐的爬虫。

这个过程需要注意的是如何去重，Mongo可以、redis也可以

实际项目经验

这个面试中肯定会被人问道，如：

你爬过哪些网站
日均最大采集量是多少
你遇到哪些棘手问题，如何解决
等等

那么怎么找项目呢？比如我要爬微博数据，去Github中搜索下，项目还算少吗？

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

关于反爬

常见的 UA、Refer等需要了解是什么东西，有些验证的ID如何产生的，是否必要；关于IP池这块我不了解，不多说，需要注意的是如何设计拉黑机制；模拟登陆也是必要的，可以研究下代码，或者提PR。

模拟登陆其实就是一步步的请求，保存cookie会话

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

如何判断能力足够

很简单，给个任务，爬取知乎上所有问题。

你会如何思考并设计这个项目？

欢迎留言指出

IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

程序员 python爬虫 it行业

dhissy

0 关注 0 粉丝 0 动态

相关推荐

只听说过用Python做爬虫，Java程序员笑了！

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。网络爬虫技术，早在万维网诞生的时候，就已经出现了，今天我们就一起来揭开它神秘的面纱!的确，pyhton 在处理网页方面，有着开发简单、便捷、性能高效的优势!但是我们 java 也不赖，在处理复杂的网

snakeson 2020-10-09

程序员用AI算法生成了3000个新的宝可梦

所以多数幻想作品中的怪物、外星人也只是根据已有生物进行的简单拼接。那如果把这个问题抛给AI呢?冰冷的程序能否创造出一些让人类都大跌眼镜的作品?最近，国外一名资深程序员就在GitHub以及社交平台上公布了自己最新的研究成果——“宝可梦AI自动生成器”。这位名

湾区人工智能 2020-11-20

如何运行/调试你的PHP代码

没有任何一名程序员可以一气呵成、完美无缺的在不用调试的情况下完成一个功能或模块。调试实际分很多种情况。本篇文章我分享下自己在实际开发工作中的经验，我个人理解,调试分三种,注意我所讲的是调试并非测试。这种方式简单粗暴,一般PHP程序员都会用，那就是浏览器调试

diskingchuan 2020-10-23

低代码的兴起，程序猿要拒绝还是拥抱

低代码是一种近些年兴起的企业软件快速开发技术和工具。借助低代码使用者无需编码即可完成企业应用的常用功能，少量编码扩展出更多功能。低代码凭借低门槛、高效率和易集成等特性，被越来越多的软件开发团队青睐。Gartner预测，到2024年四分之三的大企业将会使用至

amicablehj 2020-11-16

程序员必懂的Redis技术实战

Redis是现在很受欢迎的NoSQL数据库之一，目前广泛用于缓存系统、分布式锁、计数器、消息队列系统、排行榜、社交网络等场景中，本篇文章成哥为大家带来redis日常使用实践，及通过代码实现redis的分布式锁。Redis通过IO多路复用解决单线程下并发客户

smartbaby 2020-11-11

聊聊几个程序员经常用的作图软件

程序员除了要写代码之外还经常需要画一些图，这其中包括流程图、软件架构图和一些说明文档的插图等等。目前大家用得比较多的可能是微软的Visio、IBM的Rose或者亿图等软件。这些软件的功能确实非常强大，也完全够我们使用了，但是需要收费的。今天我就给大家介绍一

teamvx 2020-11-11

自定义注解！绝对是程序员装逼的利器！！

相信很多人对Java中的注解都很熟悉，比如我们经常会用到的一些如@Override、@Autowired、@Service等，这些都是JDK或者诸如Spring这类框架给我们提供的。所以，在我看来，会使用自定义注解 ≈ 好的程序员。那么，本文，就来介绍几个

啊兵 2020-11-10

程序员也需了解的主流云计算网络架构

当前越来越多的企业将自己的业务迁移至云端，云计算的发展势头不可阻挡，身边好多朋友也纷纷购买云主机用来学习测试。有那么一波小伙伴们肯定好奇这么多的云主机是通过怎样的网络架构来承载的呢，本篇文章就为大家带来一一揭晓主流的云计算网络架构。随着企业业务的快速扩展，

ruancw 2020-11-10

打破刻板印象：“我不够聪明，做不了程序员？”

很多人觉得自己不够聪明，因而对编程望而生畏。事实上，如果能看懂一篇中等水平的文章，那说明你足够聪明了。比起聪不聪明，是否掌握英语是更为重要的因素之一，因为几乎所有的文件语言都是英语。许多孩子都可以学习编程，甚至有专门为他们设计的编程语言。这取决于你的目标。

Elyn 2020-11-08

Python曾是程序员的“瑞士军刀”，而如今正被慢慢取代

上世纪90年代初，Python面世了。近30年来，关于它的“炒作”一直没有少过。当然，编程界花了至少20年的时间才认识到它，但自那以后，它的流行程度远远超过了C、C#、Java甚至Javascript。尽管Python目前在数据科学和机器学习领域，以及某些

susmote 2020-11-07

10张图让你彻底理解回调函数

不知你是不是也有这样的疑惑，我们为什么需要回调函数这个概念呢?直接调用函数不就可以了?程序员到底该如何理解回调函数?这篇文章就来为你解答这些问题，读完这篇文章后你的武器库将新增一件功能强大的利器。其中有一个核心模块由A小组开发然后供B小组调用，这个核心模块

lipin 2020-11-03

对程序员来说，看透生死远远没有操作0和1那么简单

这是本公众号第241篇文章之后，第一次在手机上进行写作。如果说之前本公众号发布的SAP技术文章能够在技术的角度上给大家有帮助的话，那么这个号接下来的文章，如果能够提醒到大家多关爱自己的身体，提早发现健康隐患，那么我觉得我一样没有白白患病。我是Jerry W

kinglomei 2020-10-27

36岁的博士程序员找不到工作？大厂的「年龄歧视」从来都不是秘密

36岁的博士程序员，还能在硅谷找到工作吗？在「码农」聚集的Reddit上，一个关于大龄程序员就业的提问引发了网友们热议。发帖人称：自己打算攻读机器学习博士学位，毕业时可能已经36岁，比较担心因年龄大而找不到工作，不知道硅谷存不存在年龄歧视？这个担忧不无道理

bucai 2020-10-26

程序员必知的几种软件架构模式

架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。最常见的架构模式就是分层架构或者称为 n 层架构。层将一组软件作为一个完整的分区，每个分区暴露一个公开接口。例如，展现层负责处理所有的用户界面。请求不能跳过任何层。分层会导致性能下降。

JAVA飘香 2020-10-26

10个适合程序员逛的在线社区

网络资源是学习的重要工具，网上的社区氛围浓厚、分享全面，InfoQ提供新闻、文章、视频演讲和采访等资讯服务。InfoQ有各种语言版本，最重要的是有中文版的，内容相当有深度，非常有益于把握最新的技术动态。

重剑无锋 2020-10-25

你的脱发是否值得？知乎热议中国程序员市场已饱和

近日，一则中国的程序员数量是否已经过剩的话题引发了热议，转行程序员的同学越来越多，低端的码农找不到工作，高端的岗位却一直空缺，程序员们该如何摆脱「高不成低不就」的困境？因为互联网行业的高薪资，很多小伙伴都去转行写代码了。不管是不是计算机相关专业都蜂拥而至。

adentheima 2020-10-25

程序员生存观察：为什么非要谈理想？我就想挣点钱

1024是2的十次方，也是二进制计数的基本计量单位之一。资料显示，中国程序员节的诞生是由于从业人员经常周末加班与工作日熬夜，因此部分互联网机构倡议每年10月24日为程序员节，并在这一天建议程序员拒绝加班。

zhaoyinghuan 2020-10-25

听得见的代码？滴滴程序员这次玩得有点高级

普通人很难看懂代码，却有机会听懂代码。这5段台前可感知的音乐，是由滴滴的5个常用功能映射而来。此外，滴滴还在全国300多个城市陆续上线“遗失物品送回”功能。新冠肺炎疫情汹涌，1 月20 日，官方确认新冠肺炎可人传人，滴滴1月22日便紧急组织十多人投入技术开

Elyn 2020-10-24

从程序员到管理千人团队的CTO

一个从业18年的老程序员的成长经验，肯定对大家有价值！我是TGO 鲲鹏会非常受欢迎的导师之一、彩食鲜 CTO、前苏宁科技集团副总裁——乔新亮。前些天，有 TGO 鲲鹏会的同学找到我，邀请我围绕「技术领袖养成之路」这个主题做一场分享。其实我有些害怕这个题目，

lipin 2020-10-22

Java程序员不能错过的7个基本框架

现在IT开发人员面对的较大挑战就是复杂性，构建的应用越来越复杂。今天给大家列出Java程序员不能错过的7个基本框架，或许会对你有帮助哦。Hibernate是优秀的Java持久性框架，是一个开放源代码的对象关系映射框架，它对 JDBC 进行轻量级的对象封装，

feinifi 2020-10-14

dhissy

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号