GitHub 发布 10 月 21 日系统故障分析报告

Ida

2018-10-31

关注关注

　刚刚 GitHub 通过官方博客发布了 21 日“挂掉”的事件分析。

GitHub 发布 10 月 21 日系统故障分析报告

GitHub 指出此次事件发生的原因是在 10 月 21 日 22:52 UTC 进行日常维护——更换发生故障的 100G 光学设备时导致美国东海岸网络中心与美国东海岸数据中心之间的连接断开。

GitHub 发布 10 月 21 日系统故障分析报告

更具体地，GitHub 分析，虽然两地的连接在 43 秒内恢复，但这次短暂的中断引发了一系列事件，这才导致了长达 24 小时 11 分钟的服务降级。

为了大规模提高性能，GitHub 的应用程序将直接写入每个群集的相关主数据库，但在绝大多数情况下将读取请求委派给副本服务器的子集。GitHub 使用 Orchestrator 来管理 MySQL 集群拓扑并处理自动故障转移，Orchestrator 在此过程中考虑了许多变量，并在 Raft 共识机制之上达成共识。Orchestrator 可以实现应用程序无法支持的拓扑，因此必须注意将 Orchestrator 的配置与应用程序级别的期望保持一致。

GitHub 发布 10 月 21 日系统故障分析报告

然而 21 日，在上述网络分区中，Orchestrator 在主数据中心中一直保持活跃，根据 Raft 的共识机制，它开始了一个取消领导选举的过程。美国西海岸数据中心和美国东海岸公有云 Orchestrator 节点能够建立合规数量并开始对群集进行故障转移，以便将写入指向美国西海岸数据中心。Orchestrator 继续组织美国西海岸数据库集群拓扑，当连接恢复时，应用层立即开始将写入流量引导到西海岸站点的新当选者。

美国东海岸数据中心的数据库服务器包含一段短暂的写入时间，但尚未复制到美国西海岸的设施。由于两个数据中心中的数据库集群都包含了其它数据中心中不存在的写入，因此无法安全地将主要数据库故障转移到美国东海岸数据中心。

GitHub 发布 10 月 21 日系统故障分析报告

GitHub 工程师发现问题后进行了一系列抢救措施，“最终没有用户数据丢失，但是，几秒钟的数据库写入的手动协调仍在进行中。”

GitHub 对所有受影响的用户表示歉意，并表示“我们已经吸取了教训，并且采取了一系列急救措施，我们希望更好地确保不再发生类似情况。”

数据库

安科网

GitHub 发布 10 月 21 日系统故障分析报告

Ida

Ida

相关推荐

Golang操作MySql数据库的完整步骤记录

golang常用库之操作数据库的orm框架-gorm基本使用详解

MySQL主从复制原理以及需要注意的地方

专业级的MySQL开发设计规范及SQL编写规范

MySQL ddl语句的使用

MySQL用truncate命令快速清空一个数据库中的所有表

MySQL 8.0.15配置MGR单主多从的方法

Docker如何给Springboot项目动态传参的实现方法

详解Navicat Premium基本使用

使用 Navicat 创建数据库并用JDBC连接的操作方法

一款免费开源的通用数据库工具DBeaver

使用DataGrip的详细教程

datagrip如何找到数据库和表

从零开始用DataGrip的安装及使用教程

分布式文档存储数据库之MongoDB访问控制的操作方法

分布式文档存储数据库之MongoDB备份与恢复的实践详解

Pycharm连接MongoDB数据库安装教程详解

分布式文档存储数据库之MongoDB分片集群的问题

MongoDB数据库用户角色和权限管理详解

node.js如何操作MySQL数据库

Ida