GitHub发布10月21日系统故障分析报告

fundebug

2019-03-29

摘要： 宕机是检验技术实力的唯一标准

刚刚 GitHub 通过官方博客发布了 21 日“挂掉”的事件分析：October 21 post-incident analysis

GitHub 指出此次事件发生的原因是在 10 月 21 日 22:52 UTC 进行日常维护——更换发生故障的 100G 光纤设备时导致美国东海岸网络中心与美国东海岸数据中心之间的连接断开。

At 22:52 UTC on October 21, routine maintenance work to replace failing 100G optical equipment resulted in the loss of connectivity between our US East Coast network hub and our primary US East Coast data center. Connectivity between these locations was restored in 43 seconds, but this brief outage triggered a chain of events that led to 24 hours and 11 minutes of service degradation.

更具体地，GitHub 分析，虽然两地的连接在 43 秒内恢复，但这次短暂的中断引发了一系列事件，这才导致了长达 24 小时 11 分钟的服务降级。

为了大规模提高性能，GitHub 的应用程序将直接写入每个群集的相关主数据库，但在绝大多数情况下将读取请求委派给副本服务器的子集。GitHub 使用 Orchestrator 来管理 MySQL 集群拓扑并处理自动故障转移，Orchestrator 在此过程中考虑了许多变量，并在 Raft 共识机制之上达成共识。Orchestrator 可以实现应用程序无法支持的拓扑，因此必须注意将 Orchestrator 的配置与应用程序级别的期望保持一致。

GitHub发布10月21日系统故障分析报告

然而 21 日，在网络分区过程中，Orchestrator 在主数据中心根据 Raft 的共识机制，执行了取消领导的选举（leadership deselection）。美国西海岸数据中心和美国东海岸公有云 Orchestrator 节点获得合规票数，并开始对群集进行故障转移，将写入指向美国西海岸数据中心。Orchestrator 继续组织美国西海岸数据库集群拓扑，当连接恢复时，应用层立即开始将写入流量引导到西海岸站点的新当选主节点上。

美国东海岸数据中心的数据库服务器包含一小段时间的写入数据，它们尚未复制到美国西海岸的设施。由于两个数据中心中的数据库集群都包含了其它数据中心中不存在的写入数据，因此无法安全地将主数据库故障转移到美国东海岸数据中心。

GitHub发布10月21日系统故障分析报告

GitHub 工程师发现问题后进行了一系列抢救措施，“最终没有用户数据丢失，但是，几秒钟的数据库写入的手动协调仍在进行中。”

而之所以服务降级时间长达 24 小时 11 分，是因为在此次事件中，GitHub的策略是优先考虑用户数据完整性，而不是站点可用性和恢复时间。

GitHub 对所有受影响的用户表示歉意，并表示“我们已经吸取了教训，并且采取了一系列措施，我们希望更好地确保不再发生类似情况。”

同时 GitHub 也表示接下来将进一步解决由此导致的数据不一致问题。

详细分析与事件时间线请查阅 GitHub 公告。

转载说明

本站文章除注明转载外，均为本站原创或编译。欢迎任何形式的转载，但请务必注明出处，尊重他人劳动共创开源社区。

转载请注明：文章转载自开源中国社区 [http://www.oschina.net]
本文标题：GitHub 发布 10 月 21 日系统故障分析报告
本文地址：https://www.oschina.net/news/101342/github-oct21-incident-analysis

原作者： Fundebug
https://blog.fundebug.com/2018/11/05/github-incident-analysis/

数据分析报告数据库

安科网

GitHub发布10月21日系统故障分析报告

fundebug

相关链接

转载说明

fundebug

相关推荐

中国高考志愿填报与职业趋势分析 - ActiveReports 大数据分析报告

如何写一份好的数据分析报告/邮件

测试分析报告题纲

8天后，有份独家小程序数据分析报告重磅来袭

怎样撰写优秀的网站分析报告

贵州交管局：黄果树风景区出行拥堵大数据分析报告

GitHub服务中断24小时11分钟事故分析报告

2017大数据职位分析报告！上海平均月薪15k+仅排第二？

2017年综合布线行业分析报告

无线网络传输速度对比分析报告

推荐一个利用 python 生成 pptx 分析报告的工具包：reportgen

这是iPhone8系列和iPhoneX最新的销售数据分析报告

价值百万的企业大数据分析报告是如何炼成的？

fundebug