爬虫架构消息队列应用场景及ActiveMQ、RabbitMQ、RocketMQKafka
前言:在之前的业务中,使用了Kafka和RabbitMQ两种消息队列,这篇文章来做一个总结。
消息队列中间件是分布式系统中重要的组件,主要实现异步消息,应用解耦,流量削峰及消息通讯等功能。
下面举例说明在实际应用中消息队列是如何使用的。
欢迎工作一到五年的Java工程师朋友们加入Java程序员开发: 854393687
群内提供免费的Java架构学习资料(里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料)合理利用自己每一分每一秒的时间来学习提升自己,不要再用"没有时间“来掩饰自己思想上的懒惰!趁年轻,使劲拼,给未来的自己一个交代!
一、消息队列应用场景
1.1、异步处理
以用户注册,并且需要注册邮件和短信为例。
用户注册后,需要发送注册邮件和注册短信。传统的做法有两种:串行和并行方式。如下图所示:
串行和并行方式
1)串行方式:将注册信息写入数据库成功后,发送注册邮件,再发送注册短信。以上三个任务全部完成后,返回给客户端。
2)并行方式:将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成后,返回给客户端。与串行的差别是,并行的方式可以提高处理的时间。
假设三个业务节点每个使用50毫秒钟,不考虑网络等其他开销,则串行方式的时间是150毫秒,并行的时间可能是100毫秒。
因为CPU在单位时间内处理的请求数是一定的,假设CPU1秒内吞吐量是100次。则串行方式1秒内CPU可处理的请求量是7次(1000ms/150ms),并行方式处理的请求量是10次(1000ms/100ms)
小结:如以上案例描述,传统的方式系统的性能(并发量,吞吐量,响应时间)会有瓶颈。如何解决这个问题呢?
引入消息队列,将不是必须的业务逻辑,异步处理。改造后的架构如下:
引入消息队列方式
按照以上约定,用户的响应时间相当于是注册信息写入数据库的时间,也就是50毫秒。注册邮件,发送短信写入消息队列后,直接返回,因此写入消息队列的速度很快,基本可以忽略,因此用户的响应时间可能是50毫秒。因此架构改变后,系统的吞吐量提高到每秒20 QPS。比串行提高了3倍,比并行提高了两倍。
1.2、应用解耦
以用户下单购买业务为例。
用户下单后,订单系统需要通知库存系统。传统的做法是,订单系统调用库存系统的接口。如下图
应用耦和
传统模式的缺点:
1)假如库存系统无法访问,则订单减库存将失败,从而导致订单失败。
2)订单系统与库存系统耦合。
如何解决以上问题呢?引入应用消息队列后的方案,如下图:
应用解耦
1)订单系统:用户下单后,订单系统完成持久化处理,将消息写入消息队列,返回用户订单下单成功。
2)库存系统:订阅下单的消息,采用拉/推的方式,获取下单信息,库存系统根据下单信息,进行库存操作。
假如:在下单时库存系统不能正常使用。也不影响正常下单,因为下单后,订单系统写入消息队列就不再关心其他的后续操作了。实现订单系统与库存系统的应用解耦。
1.3、流量削峰
流量削峰也是消息队列中的常用场景,一般在秒杀或团抢活动中使用广泛。
秒杀活动,一般会因为流量过大,导致流量暴增,应用挂掉。为解决这个问题,需要在应用前端加入消息队列。
1)可以控制活动的人数。
2)可以缓解短时间内高流量压垮应用。
流量削峰
1)用户的请求,服务器接收后,首先写入消息队列。假如消息队列长度超过最大数量,则直接抛弃用户请求或跳转到错误页面。
2)秒杀业务根据消息队列中的请求信息,再做后续处理。
1.4、消息通讯
消息通讯是指,消息队列一般都内置了高效的通信机制,因此也可以用作消息通讯。比如实现点对点消息队列,或者聊天室等。
消息通讯
以上实际是消息队列的两种消息模式,点对点或发布订阅模式。
二、常用消息队列(ActiveMQ、RabbitMQ、RocketMQ、Kafka)比较
- 生产者消费者模式(Producer-Consumer)
- ActiveMQ-支持,RabbitMQ-支持,RocketMQ-支持,Kafka-支持。
- 发布订阅模式(Publish-Subscribe)
- ActiveMQ-支持,RabbitMQ-支持,RocketMQ-支持,Kafka-支持。
- 请求回应模型(Request-Reply)
- ActiveMQ-支持,RabbitMQ-支持,RocketMQ-不支持,Kafka-不支持。
- API完备性
- ActiveMQ-高,RabbitMQ-高,RocketMQ-高,Kafka-高。
- 多语言支持
- ActiveMQ-支持,RabbitMQ-支持,RocketMQ-只支持JAVA,Kafka-支持。
- 单机吞吐量
- ActiveMQ-万级,RabbitMQ-万级,RocketMQ-万级,Kafka-十万级。
- 消息延迟
- ActiveMQ-无,RabbitMQ-微秒级,RocketMQ-毫秒级,Kafka-毫秒级。
- 可用性
- ActiveMQ-高(主从),RabbitMQ-高(主从),RocketMQ-非常高(分布式),Kafka-非常高(分布式)。
- 消息丢失
- ActiveMQ-低,RabbitMQ-低,RocketMQ-理论上不会丢失,Kafka-理论上不会丢失。
- 文档的完备性
- ActiveMQ-高,RabbitMQ-高,RocketMQ-高,Kafka-高。
- 提供快速入门
- ActiveMQ-有,RabbitMQ-有,RocketMQ-有,Kafka-有。
- 社区活跃度
- ActiveMQ-高,RabbitMQ-高,RocketMQ-中,Kafka-高。
- 商业支持
- ActiveMQ-无,RabbitMQ-无,RocketMQ-阿里云,Kafka-阿里云。
总体来说:
- ActiveMQ
- 历史悠久的开源项目,已经在很多产品中得到应用,实现了JMS1.1规范,可以和spring-jms轻松融合,实现了多种协议,不够轻巧(源代码比RocketMQ多),支持持久化到数据库,对队列数较多的情况支持不好。
- RabbitMQ
- 它比Kafka成熟,支持AMQP事务处理,在可靠性上,RabbitMQ超过Kafka,在性能方面超过ActiveMQ。
- RocketMQ
- RocketMQ是阿里开源的消息中间件,目前在Apache孵化,使用纯Java开发,具有高吞吐量、高可用性、适合大规模分布式系统应用的特点。RocketMQ思路起源于Kafka,但并不是简单的复制,它对消息的可靠传输及事务性做了优化,目前在阿里集团被广泛应用于交易、充值、流计算、消息推送、日志流式处理、binglog分发等场景,支撑了阿里多次双十一活动。
- 因为是阿里内部从实践到产品的产物,因此里面很多接口、API并不是很普遍适用。其可靠性毋庸置疑,而且与Kafka一脉相承(甚至更优),性能强劲,支持海量堆积。
- Kafka
- Kafka设计的初衷就是处理日志的,不支持AMQP事务处理,可以看做是一个日志系统,针对性很强,所以它并没有具备一个成熟MQ应该具备的特性。Kafka的性能(吞吐量、tps)比RabbitMQ要强,如果用来做大数据量的快速处理是比RabbitMQ有优势的。
欢迎工作一到五年的Java工程师朋友们加入Java程序员开发: 854393687
群内提供免费的Java架构学习资料(里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料)合理利用自己每一分每一秒的时间来学习提升自己,不要再用"没有时间“来掩饰自己思想上的懒惰!趁年轻,使劲拼,给未来的自己一个交代!