阿里巴巴2W+薪资!Python开发工程师高频面试真题!(建议收藏)
1 遇到过得反爬虫策略以及解决方法?
1.通过headers反爬虫
2.基于用户行为的发爬虫:(同一IP短时间内访问的频率)
3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成)
4.对部分数据进行加密处理的(数据是乱码)
解决方法:
对于基本网页的抓取可以自定义headers,添加headers的数据
使用多个代理ip进行抓取或者设置抓取的频率降低一些,
动态网页的可以使用selenium + phantomjs 进行抓取
对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。
2 scrapy分为几个组成部分?分别有什么作用?
分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。
- Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。
- Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。
- Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。
- Download:抓取网页信息提供给engine,进而转发至Spiders。
- Item Pipeline:负责处理Spiders类提取之后的数据。
比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中 - 正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料!
3 简述一下scrapy的基本流程?
scrapy分为9个步骤:
- Spiders需要初始的start_url或则函数stsrt_requests,会在内部生成Requests给Engine;
- Engine将requests发送给Scheduler;
- Engine从Scheduler那获取requests,交给Download下载;
- 在交给Dowmload过程中会经过Downloader Middlewares(经过process_request函数);
- Dowmloader下载页面后生成一个response,这个response会传给Engine,这个过程中又经过了Downloader Middlerwares(经过process_request函数),在传送中出错的话经过process_exception函数;
- Engine将从Downloader那传送过来的response发送给Spiders处理,这个过程经过Spiders Middlerwares(经过process_spider_input函数);
- Spiders处理这个response,返回Requests或者Item两个类型,传给Engine,这个过程又经过Spiders Middlewares(经过porcess_spider_output函数);
- Engine接收返回的信息,如果使Item,将它传给Items Pipeline中;如果是Requests,将它传给Scheduler,继续爬虫;
- 重复第三步,直至没有任何需要爬取的数据
- 正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料!
5 字符串 "123" 转换成 123,不使用内置api,例如 int()
方法一: 利用 str 函数
def atoi(s): num = 0 for v in s: for j in range(10): if v == str(j): num = num * 10 + j return num
方法二: 利用 ord 函数
def atoi(s): num = 0 for v in s: num = num * 10 + ord(v) - ord('0') return num
方法三: 利用 eval 函数
def atoi(s): num = 0 for v in s: t = "%s * 1" % v n = eval(t) num = num * 10 + n return num
方法四: 结合方法二,使用 reduce,一行解决
from functools import reduce def atoi(s): return reduce(lambda num, v: num * 10 + ord(v) - ord('0'), s, 0)
结尾
最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。
相关推荐
YENCSDN 2020-11-17
lsjweiyi 2020-11-17
houmenghu 2020-11-17
Erick 2020-11-17
HeyShHeyou 2020-11-17
以梦为马不负韶华 2020-10-20
lhtzbj 2020-11-17
夜斗不是神 2020-11-17
pythonjw 2020-11-17
dingwun 2020-11-16
lhxxhl 2020-11-16
坚持是一种品质 2020-11-16
染血白衣 2020-11-16
huavhuahua 2020-11-20
meylovezn 2020-11-20
逍遥友 2020-11-20
weiiron 2020-11-16