多机房多活架构，究竟怎么玩？

xuedabao

2020-02-12

前情提要：

《当年，我们是怎么平滑上云的?》一文中提到了上云的背景，将所有的系统，从一个机房，迁移到另一个机房。

多机房多活架构，究竟怎么玩？

如上图：

迁移之前，系统部署在机房A(M6)内，是单机房架构。
迁移之后，系统部署在机房B(阿里云)内，换了一个机房。

《当年，我们是怎么平滑上云的?》有三结论：

单机房架构的核心是“全连接”;
机房迁移方案的设计目标是：平滑迁移，不停服务;可以分批迁移;随时可以回滚;
想要平滑的实施机房迁移，临时性的多机房架构不可避免;

【4】核心问题四，临时性多机房架构如何实施?

如前文所述，如果将单机房“全连接”架构复制到多机房，会有大量跨机房调用，极大增加请求时延，是业务无法接受的，要想降低这个时延，必须实施“同机房连接”。

多机房多活架构，什么是理想状态下的“同机房连接”?

多机房多活架构，究竟怎么玩？

如上图所示，多机房多活架构，最理想状态下，除了异步数据同步跨机房通讯，其他所有通讯均为“同机房连接”：

web连业务服务;
业务服务连基础服务;
服务连数据库，主库写，从库读，读写分离;

上述架构，每个机房是一套独立的系统，仅仅通过异步数据同步获取全量数据，当发生机房故障时，将流量切到另一个机房，就能冗余“机房级”故障，实现高可用。

上述多机房架构存在什么问题?

“异步数据同步”存在延时(例如：1min)，这个延时的存在，会使得两个机房的数据不一致，从而导致严重的业务问题。

举个例子，某一个时刻，用户X有余额100元，两个机房都存储有该余额的精准数据，接下来：

余额100，X在北京(就近访问机房A)消费了80元，余额仅剩20元，该数据在1分钟后会同步到机房B;
余额100，X的夫人在广州(就近访问机房B)用X的账号消费了70元，余额剩余30元，该数据在1分钟后也会同步到机房A;

从而导致：

超额消费(100余额，却买了150的东西);
余额异常(余额是20，还是30?);

上述架构适合于什么业务场景?

任何脱离业务的架构设计都是耍流氓。

当每个机房都有很多全局业务数据的访问场景时，上述多机房架构并不适用，会存在大量数据不一致。但当每个机房都访问局部业务数据时，上述多机房架构仍然是可行的。

典型的业务：滴滴，快狗打车。

这些业务具备数据聚集效应：

下单用户在同一个城市;
接单司机在同一个城市;
交易订单在同一个城市;

这类业务非常适合上述多机房多活架构，多个机房之间即使存在1分钟延时的“异步数据同步”，对业务也不会造成太大的影响。

多机房多活架构，做不到理想状态下的“同机房连接”，有没有折中方案?

如果完全避免跨机房调用的理想状态做不到，就尽量做到“最小化”跨机房调用。

多机房多活架构，究竟怎么玩？

如上图所示，在非必须的情况下，优先连接同机房的站点与服务：

站点层只连接同机房的业务服务层;
业务服务层只连接同机房的基础服务层;
服务层只连接同机房的“读”库;
对于写库，没办法，只有跨机房读“写”库了;

该方案没有完全避免跨机房调用，但它做到了“最小化”跨机房调用，只有写请求是跨机房的。

但互联网的业务，绝大部分是读多写少的业务：

百度的搜索100%是读业务;
京东淘宝电商99%的浏览搜索是读业务，只有下单支付是写业务;
58同城99%帖子的列表详情查看是读业务，只有发布帖子是写业务;

写业务比例相对少，只有很少请求会跨机房调用。

该多机房多活架构，并没有做到100%的“同机房连接”，通常称作伪多机房多活架构。

伪多机房多活架构，有“主机房”和“从机房”的差别。

多机房多活架构的初衷是容机房故障，该架构当出现机房故障时，可以把入口处流量切到另一个机房：

如果挂掉的是，不包含主库的从机房，迁移流量后能直接容错;
如果挂掉的是，包含主库的主机房，只迁移流量，系统整体99%的读请求可以容错，但1%的写请求会受到影响，此时需要将从库变为主库，才能完全容错。这个过程需要DBA介入，不需要所有业务线上游修改。

画外音：除非，站点和服务使用内网IP，而不是内网域名连接数据库。架构师之路已经强调过很多次，不要使用内网IP，一定要使用内网域名。

伪多机房多活架构，是一个实践性，落地性很强的架构，它对原有架构体系的冲击非常小，和单机房架构相比，仅仅是：

跨机房主从同步数据，会多10毫秒延时;画外音：主从同步数据，本来就会有延时。
跨机房写，会多10毫秒延时;

小结：

理想多机房多活架构，是纯粹的“同机房连接”，仅有异步数据同步会跨机房;
理想多机房多活架构，会有较严重数据一致性问题，仅适用于具备数据聚集效应的业务场景，例如：滴滴，快狗打车;
伪多机房多活架构，思路是“最小化跨机房连接”，机房区分主次，落地性强，对原有架构冲击较小，强烈推荐;

临时性多机房多活架构，是机房迁移过程中的一个过渡状态，机房迁移步骤又该如何?且听明天分解。

ul 架构 text-align

xuedabao

0 关注 0 粉丝 0 动态

相关推荐

编程语言TOP10！该如何选择适合自己的？

编程领域大约有700种代码语言。理解编程语言的重要性以及其如何影响需要执行的具体任务至关重要。一篇文章穷尽700 种语言不现实，也没有意义。因此，笔者挑选出了时下最热门的原因，在本文中一一分析其特征、优缺点和发展方向，并确定其是否有学习价值。根据设计，C

chensen 2020-11-14

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 2020-11-06

Dubbo中的时间轮(Time Wheel)算法应用

Netty、Quartz、Kafka 以及 Linux 都有定时任务功能。在任务量大、性能要求高的场景，为了将任务存取及取消操作时间复杂度降为 O，会采用时间轮算法。指针周期性跳动，跳动到一个槽位，就执行该槽位的定时任务。需要高效的定时器算法以减少总体中断

ATenhong 2020-10-15

前端一面基础知识 ⑥——性能优化、Web安全、Linux常用命令

④用户输入结束或暂停时，才会触发change事件，类似搜索框中输入信息停下来1秒后才会出现可能要搜索的内容。控制事件发生的频率，如控制为1秒发生一次，甚至1分钟发生一次。与服务端及网关控制的限流类似。防抖是触发间隔大于time触发，所以每次在小于间隔tim

yanzhelee 2020-10-13

Java程序员怎样打造高效率的开发环境

作为一名程序员，好的开发环境可以提升你的工作效率，事半功倍。那么一名Java程序员应该拥有什么样的开发工具呢。java程序员都知道，第一节课就会教你安装jdk。jdk是java开发工具包，包含了jvm虚拟机，你写的java代码就是通过jdk编译运行的。ja

佛系程序员J 2020-10-10

AI创业哪家强？6大选择给你方向

人工智能被认为是当代“最热门”的工作。根据《财富》杂志统计，雇佣AI专家的人数在过去4年里增长了74%，社会对人工智能专家的需求正以前所未有的速度增长。人工智能的子领域，如机器学习、深度学习、计算机视觉、统计学和自然语言处理，对这些领域专家的需求和空缺职位

guojin0 2020-10-08

如何使Java程序员拥有高效率的开发环境

作为一名程序员，好的开发环境可以提升你的工作效率，事半功倍。那么一名Java程序员应该拥有什么样的开发工具呢。java程序员都知道，第一节课就会教你安装jdk。jdk是java开发工具包，包含了jvm虚拟机，你写的java代码就是通过jdk编译运行的。ja

佛系程序员J 2020-10-08

《Machine Learning Yearning》总结

在训练数据不足的情况下，你可以尝试引入额外的训练数据，只要它们能提供对训练有价值的信息。如果模型在引入额外数据的训练数据集和引入额外数据的测试数据集中都表现的很好，但在不引入额外数据的测试数据集中表现糟糕，那么这种情况称为：数据不匹配。此时可以考虑在目标函

bluewelkin 2020-09-16

移动APP开发有哪些框架？

现在比较流行的移动APP开发框架有以下六种：网页、混合、不仅、原生、桥接、自绘。前三种体验与Web的体验相似，后三种与原生APP的体验相似。这六种框架形式，都有自己适用的范围。无所谓好坏，适用就是好。自绘应用适用于游戏和有特殊效果的应用，最大的好处是没有平

wwzaqw 2020-09-04

那些与健康运营密切相关的衡量标准

下面，我们将和您在健康运营的过程中，企业所面临的各项挑战、痛点、以及需要衡量的各项关键指标。在此基础上，我们会进一步给出一个标准成熟度模型，以及对应的实践案例。同时，由于不同团队各司其职、各自为政，因此数据孤岛的现象在企业中屡见不鲜。对应的KPI包括：了解

zhongdaowendao 2020-09-02

mysql分库分表篇

当表的数量达到几百上千张表时，众多的业务模块都访问这个数据库，压力会非常的大，考虑对其进行分库。支持MySQL、Oracle、DB2、SQL Server、PostgreSQL等DB的常见SQL语法。基于心跳的自动故障切换，支持读写分离，支持MySQ

favouriter 2020-08-18

怎么才能隐藏的IP？打造超强IP池项目，让你自己都忘记原本的IP

随着大型网站反扒机制的增强，更改IP登陆已经成为一种最高效的方式，为此打造一款超强IP池项目，采用最新最快的Python技术——异步。编写了一个免费的异步爬虫代理池，以 Python asyncio 为基础，充分利用 Python 的异步性能，异步处理比同

奎因amp华洛 2020-08-15

移动端跨平台技术之下的变与不变

跨 Native 与 Web：商品详情页等要求有一套功能差不多的 Web 页能够在端外访问，需要跨 Native App 与 Web. 容器化 Native 跨端：将 Native App 改造成标准化的容器，进而允许一套代码跨多端标准容器运行，如 Rea

一青年 2020-08-13

数据科学家的工具列表：提高生产效率的工具包

本文转载自公众号“读芯术”。新的东西令人激动，新的框架、新的仪器、新的工具，都会让生活变得更轻松。保持更新很难，我们需要花更多的时间在其上。当然，我们并不是要一直更新到最新的发现，它可能是某个特定库的新的小版本，也可能是处于兴趣或是工作需要而寻找。应用tf

千锋 2020-08-10

JVM

新生代，老年代，永久代/元空间。晋升机制根据对象存活时间。jmap -dump:file=[文件名] pid：将进程运行的状况dump到文件中,文件通过fastThread线上工具分析。

nangongyanya 2020-08-09

MyBatis接口代理方式实现Dao层

Mybatis中namespace用于绑定dao接口，dao接口的方法对应mapper中的sql语名。--默认名为类名首字母小写-->. --environment配置数据库环境 id 属性唯一标识 -->. --dataSource数据源信息

dongxurr 2020-08-08

Python名称空间与作用域

在python解释器开始执行, 就会在内存中开辟一个空间, 每当遇到一个变量的时候, 就把变量名和值之间的关系记录下来,当遇到函数定义的时候, 解释器只是把函数名读入内存, 并检查语法是否正确，表示这个函数存在了, 至于函数内部的变量和逻辑, 解释器是不关

明天你好 2020-08-03

python List 和Numpy array 区别

一个numpy array 是内存中一个连续块，并且array里的元素都是同一类。　　 list完全不同，它的每个元素其实是一个地址的引用，这个地址又指向了另一个元素，这些元素的在内存里不一定是连续的。所以list其实是只能塞进地址的“数组”

kyelu 2020-08-03

Redis 内存压缩原理

Redis 无疑是一个大量消耗内存的数据库，因此 Redis 引入了一些设计巧妙的数据结构进行内存压缩来减轻负担。ziplist、quicklist 以及 intset 是其中最常用最重要的压缩存储结构。Redis对外提供了 string, list, h

Ashes 2020-08-03

数据准备基本流程数据规范化的几种方法利用SciKit库进行数据变换

就是将多个数据源合并存放在一个数据仓库中。与主流的ETL的区别是：在抽取后首先将结果写入目的地，然后通过数据库的聚合分析能力或外部计算框架来完成转换。通过以下方法针对算法对数据进行变换。数据平滑---去除数据中的噪声，将连续数据离散化。

wndong 2020-08-01

xuedabao

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号