全新角度总结Twitter Facebook和LinkedIn业务模型与架构

TWITTER自行车符R

2018-09-11

关注关注

本文从流处理、事件溯源Event Sourcing、Reactive和EDA/CEP角度总结Twitter Facebook和LinkedIn的业务模型与架构设计特点。

通常一个网站系统的架构设计取决于其业务特点，Twitter Facebook和LinkedIn业务特点是：大量不断动作事件写入的同时，需要实时更新各种不同汇总页面。属于并发编程中大量并发写和大量并发读同时存在的场景。

Stream processing, Event sourcing, Reactive, CEP… and making sense of it all一文对这种业务模式进行了总结，并指出了流处理、事件溯源Event Sourcing、Reactive和EDA/CEP内在的逻辑一致性。

在普通数据库范式下，比如一个博客系统，用户发出一篇博文，其他用户可从时间线浏览该用户的发表的博文。通常我们会设计一个博文的数据表结构，其中字段有：博文内容发布时间等，用户发出的博文写入存储到这个数据表中，而其他用户阅读这个用户的博文列表则通过"select * from 博文 where useId=xxx"这样SQL语句实现。

因为博文比较长，不太可能同时有大量用户发表长文，所以，可能不存在大量写操作，但是如果是微博系统，有大量用户经常发布微博，这就存在大量动作事件写入；同时，又有大量粉丝不断查询读取该用户的微博列表，包括其他各种信息。

这种业务模型特点在Twitter Facebook和LinkedIn存在很明显：

Twiiter

最普通的Twitter设计是将用户发布的微博存储到关系数据库中，一个微博很简单：一些内容，时间戳和ID，用户只要点击"发布"这个按钮就会引起数据库的一个写操作。

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

另外一个方面，阅读者是从时间线读取Twitter数据库，如上图的Output(read)。这两个方式的数据结构也是完全不同的，如下图：

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

阅读时，对于每条微博Tweet，不只是有微博的基本内容，而且有用户的名称，照片和发布信息，以及粉丝数量等等。

那么你如何从简单的输入转变到这种更加复杂的输出呢？当然，普通方式使用关系数据表设计一个数据表结构，然后将微博数据插入其中，再用下面SQL读取：

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

这是以时间先后查询最近100个Tweet，当然，更有甚者，会通过存储过程等语句提高性能，但是这种查询却无法伸缩扩展，而且给数据库带来非常大的负载。

当一个用户浏览他的时间线时，遍历他关注的那些人的Tweet也是很昂贵的，SQL查询是非常耗时的，开始，Twitter是提前计算用户的时间线，然后缓存结果，这样用户查看时会很快，为了这样做，他们需要一个处理过程来将适合写操作的单个事件翻译成适合读操作的汇总聚合，称为fanout service.

Facebook

它有许多按钮比如like让你写些什么然后保存到Facebook的数据库中，当你点按Like时，就产生一个事件，数据结构很简单：用户ID以及所喜欢的条目ID。

如果从输出方面看，也就是从Facebook读取，这时会意想不到的复杂，不只是有喜欢的内容，还有作者名称和照片，然后显示有160216个人喜欢，有6027分享和12851评论，输入和输出数据结果如下：

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

这种输入到输出的翻译过程大概是这样：将简单的一个个事件作为输入，产生复杂的个性化的数据结构，你不能想象有什么数据库能够在一边更新一边输出这么多信息。也就是说，对于这样一个有100000个喜欢不断产生，而你要实时不断输出这些喜欢的输出内容，这种大量动态更新和大量读取同时操作的场景使用缓存和数据库都是很难实现的。

从以上Twitter和Facebook案例我们能发现一个重复出现的模式：输入事件，对应用户界面某个按钮，而且非常简单，不可变的，我们只是简单地存储它们，我们将它们看成是真相来源source of truth。

从网站上看到的每个内容都是从这些原始事件读取，有一个处理进程专门从原始事件产生汇总结果，当新的事件不断进行，不断更新缓存，这个处理进程是确定的，可以重新启动。你可以将网站上发生的每件事都喂给这个进程，你甚至可以重构任何时刻的缓存，这是一种cached view of the event log.。

以LinkedIn为案例，每个人发布自己的当前工作情况，这些事件写入数据库，而读取页面有各种各样，这里以搜索为例，当你输入一些关键词，比如公司名，那么在这个公司的所有人员都应该出现在提示框中。

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

为了实现搜索，你需要搜索索引，这个索引其实是另外一种聚合结构，当有新的数据事件加入，这个结构也需要跟随新数据变化。

总结

总结以上Twitter Facebook LinkedIn的模式如下：

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

大量持续不断的单个事件写入数据库中，这也就是一种事件流，根据这个持续不断的事件流，你能够构建不同的聚合结构，如View视图缓存和搜索索引，你还能设置一个独立的Process处理过程，翻译转换到输出流output stream；总之，有了事件流，你能依据这个流做很多事情。

1.你能将所有事件转换到一个大数据仓库，在那里可以进行数据分析和查询。

2.你能更新完整文本搜索索引，这样当用户点击搜索框时，能够搜索到实时的数据。

3.你能使用事件对缓存进行更新，这样缓存能够方便快速读取最新数据。

4.最后，你可以将一个事件流转换到另外一个输出流，作为其他系统的输入，这样能够串联起一个复杂的事件驱动大型系统。

不管怎样，传统数据库也采取这种事件处理方式进行读写，比如像PostgreSQL, MySQL's InnoDB 和Oracle, 和 append-only B-trees of CouchDB, Datomic 和LMDB 等MVCC数据库都是相同类似思想。这里我们是将数据库引擎内部机制作为应用程序架构来实现。

总之，大量事件写操作伴随同时大量读操作发生的这种互联网新模型催生了新的解决方案，在简单读写场景下可以使用关系数据库直接完成，但是这种复杂大数据量并发场景关系数据库已经不能胜任，只能打开数据库这个盒子，将数据库引擎实现的模型搬出盒子，迁移到服务层或微服务中实现，从而能够保证高可用性和高一致性。当然，由于涉及到分布式系统，虽然横向扩展伸缩非常好，但是也需要结合CAP定理进行设计权衡。

架构 twitter 时间线领英 h1

TWITTER自行车符R

0 关注 0 粉丝 0 动态

关注关注

去一家小公司从0到1搭建后端架构，做个总结！

产品是一款服务于人力资源的SaaS在线服务，面向HR有Web Android/iOS 小程序多个客户端，后端采用RESTful风格API来提供服务。主要使用Python语言，方便快速迭代。同时还有实时消息通知的需要使用了Nginx Push Module。

cywhoyi 2020-11-23

软件架构设计分层模型和构图思考

对于架构思维本身仍然是类似系统思维，结构化思维，编程思维等诸多思维模式的一个合集。由于架构的核心作用是在业务现实世界和抽象的IT实现之间建立起一道桥梁，因此架构思维最核心的就是要理解到业务驱动技术，技术为最终的业务服务。要真正通过架构设计来完成业务和技术，

rise 2020-11-22

细数软件架构中的解耦

架构是软件方法学的范畴，它解决的是软件组织的问题，不解决软件算法的问题。两者的区别可用下图的积木做个类比：。而架构则是把各种积木块，组装成一个城堡，一辆小火车。供给角度的品类扩张，需求角度的场景扩张，构成了京东矩阵式垂直业务线。中间层映射，在应用层表现为面

sssdssxss 2020-11-20

高可用架构怎么选？常见多活建设这么一对比就懂了

采用高可用系统架构支持重要系统，为关键业务提供7x24的不间断服务，已经成为众多企业保障业务稳定、持续运转的主要选择。服务多活是高可用架构重要实施手段，本文介绍了一些业界常用的多活手段，例如同城双活、两地三中心、异地多活架构设计方案并详述了各种方案的优缺点

xuedabao 2020-11-19

服务网格如何实现微服务网络

alien 2020-11-15

如何用图形分析来可视化微服务架构

在使用的过程中，您是否碰到过一些意料之外的问题?本文将通过分析基于Spring Cloud的微服务系统、jQAssistant和Neo4j，与您讨论如何用图形技术，来实现检测反模式、可视化全系统、以及跨服务影响分析。可是到了开发的末期，我们碰到了代码缺陷

JLow 2020-11-12

程序员也需了解的主流云计算网络架构

当前越来越多的企业将自己的业务迁移至云端，云计算的发展势头不可阻挡，身边好多朋友也纷纷购买云主机用来学习测试。有那么一波小伙伴们肯定好奇这么多的云主机是通过怎样的网络架构来承载的呢，本篇文章就为大家带来一一揭晓主流的云计算网络架构。随着企业业务的快速扩展，

ruancw 2020-11-10

13张图彻底搞懂分布式系统服务注册与发现原理

本文转载自微信公众号「爱笑的架构师」，可以通过以下二维码关注。在微服务架构或分布式环境下，服务注册与发现技术不可或缺，这也是程序员进阶之路必须要掌握的核心技术之一，本文通过图解的方式带领大家轻轻松松掌握。但在现实的创业环境中一个项目可能是九死一生，如果一开

地平线 2020-11-02

打工人，支撑亿级高并发的系统长啥样?

面对业务急剧增长你怎么处理?数据库层面做好读写分离、分库分表，稳定性方面要保证有监控，熔断限流降级该有的必须要有，发生问题能及时发现处理。这样从整个系统设计方面就会有一个初步的概念。Broadcast Cluster 广播模式：逐个调用每个 provide

yinren 2020-11-02

13张IT架构图！从数字化转型，到数据架构

今天给大家上13个架构图，不说一些文字。我一直觉得，从架构图上可以学到很多东西，这相比于文字更能理解，而且很多人在做事的时候，是想不清楚具体要怎么做的，都是一开始直接上手，然后后面也不知道怎么改。这篇文章，是我在读了2本书之后，哪2本书呢？是《IT结构治理

evolone 2020-10-29

TCP接入层的负载均衡、高可用、扩展性架构

今天和大家系统性聊聊TCP的负载均衡，高可用，与扩展性架构。互联网架构中，web-server接入一般使用nginx来做反向代理，实施负载均衡。整个架构分三层：。上游调用层，一般是browser或者APP;中间反向代理层，nginx;下游真实接入集群，we

liupengqwert 2020-10-28

亚马逊：我们提取了BERT的一个最优子架构，CPU速度升7倍

提取 BERT 子架构是一个非常值得探讨的问题，但现有的研究在子架构准确率和选择方面存在不足。近日，来自亚马逊 Alexa 团队的研究者细化 BERT 子架构提取过程，并提取了一个最优子架构 Bort，它的大小仅为 BERT-large 的 16%，CPU

acaoye 2020-10-27

APICloud多端架构与开发实践干货分享

10月24日,第二届全球移动开发者技术峰会在京顺利召开,APICloud技术负责人李德兴受邀参加此次大会并发表了主题演讲。此次峰会融合了互联网、云计算、人工智能等新一代信息技术,围绕开发者跨平台开发工具、开发运营、app合规等热点话题展开讨论,APIClo

jyj0 2020-10-27

系统从初期到支撑亿级流量，都经历了哪些架构上的演变？

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。总体来说，系统的架构大致经历了：单体应用架构—>

ruancw 2020-10-27

程序员必知的几种软件架构模式

架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。最常见的架构模式就是分层架构或者称为 n 层架构。层将一组软件作为一个完整的分区，每个分区暴露一个公开接口。例如，展现层负责处理所有的用户界面。请求不能跳过任何层。分层会导致性能下降。

JAVA飘香 2020-10-26

科技趋势年末盘点：德勤2020技术趋势报告解读

2020年全球风云变幻的一年。经济局势受疫情影响，充满了未知。有的行业在观望中等待机遇，有的在谋求转型，在不确定中“逆袭”。科技无疑是其中重要的支撑力量。随着2020即将走到尾声，我们将重新回顾这些技术洞察，并探索他们将如何成为未来企业革新的颠覆性力量。首

withjeffrey 2020-10-23

提效降本，您不可不知道的云架构秘诀

或许你认为你知道关于配置云计算解决方案的相关知识，但实际上，云提供商并不会对受众和盘托出。比如云架构优化，这意味着该解决方案可以最大程度地提高效率并降低成本，这意味着你选择了正确的云资源来配置最佳的存储系统、数据库和计算平台。但笔者经常看到云服务提供商致力

litefish 2020-10-16

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 2020-10-15

服务网格和API网关在微服务架构中的作用

如果您从事微服务，那么您可能已经多次听说过这两个术语。人们常常在两者之间感到困惑。在本文中，我将详细讨论服务网格和API网关，并讨论何时使用。在深入研究服务网格和API网关之前，让我们重新访问网络层。API网关充当进入集群，数据中心或一组分布式服务的单个入

kjyiyi 2020-10-10

这批安卓应用或在2022年停止工作

ARM召开了DevSummit开发者峰会。在会议上，ARM预览了未来两代的Cortex CPU大核，分别代号Matterhorn和Makalu。据ARM表示2022年的Makalu峰值性能预计比今年推出的Cortex-A78提升30%。同时，ARM还为开发

业余架构师 2020-10-09

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

本文从流处理、事件溯源Event Sourcing、Reactive和EDA/CEP角度总结Twitter Facebook和LinkedIn的业务模型与架构设计特点。

通常一个网站系统的架构设计取决于其业务特点，Twitter Facebook和LinkedIn业务特点是：大量不断动作事件写入的同时，需要实时更新各种不同汇总页面。属于并发编程中大量并发写和大量并发读同时存在的场景。

Stream processing, Event sourcing, Reactive, CEP… and making sense of it all一文对这种业务模式进行了总结，并指出了流处理、事件溯源Event Sourcing、Reactive和EDA/CEP内在的逻辑一致性。

这种业务模型特点在Twitter Facebook和LinkedIn存在很明显：

Twiiter

最普通的Twitter设计是将用户发布的微博存储到关系数据库中，一个微博很简单：一些内容，时间戳和ID，用户只要点击"发布"这个按钮就会引起数据库的一个写操作。

另外一个方面，阅读者是从时间线读取Twitter数据库，如上图的Output(read)。这两个方式的数据结构也是完全不同的，如下图：

阅读时，对于每条微博Tweet，不只是有微博的基本内容，而且有用户的名称，照片和发布信息，以及粉丝数量等等。

那么你如何从简单的输入转变到这种更加复杂的输出呢？当然，普通方式使用关系数据表设计一个数据表结构，然后将微博数据插入其中，再用下面SQL读取：

这是以时间先后查询最近100个Tweet，当然，更有甚者，会通过存储过程等语句提高性能，但是这种查询却无法伸缩扩展，而且给数据库带来非常大的负载。

Facebook

它有许多按钮比如like让你写些什么然后保存到Facebook的数据库中，当你点按Like时，就产生一个事件，数据结构很简单：用户ID以及所喜欢的条目ID。

如果从输出方面看，也就是从Facebook读取，这时会意想不到的复杂，不只是有喜欢的内容，还有作者名称和照片，然后显示有160216个人喜欢，有6027分享和12851评论，输入和输出数据结果如下：

从以上Twitter和Facebook案例我们能发现一个重复出现的模式：输入事件，对应用户界面某个按钮，而且非常简单，不可变的，我们只是简单地存储它们，我们将它们看成是真相来源source of truth。

LinkedIn

以LinkedIn为案例，每个人发布自己的当前工作情况，这些事件写入数据库，而读取页面有各种各样，这里以搜索为例，当你输入一些关键词，比如公司名，那么在这个公司的所有人员都应该出现在提示框中。

为了实现搜索，你需要搜索索引，这个索引其实是另外一种聚合结构，当有新的数据事件加入，这个结构也需要跟随新数据变化。

总结

总结以上Twitter Facebook LinkedIn的模式如下：

1.你能将所有事件转换到一个大数据仓库，在那里可以进行数据分析和查询。

2.你能更新完整文本搜索索引，这样当用户点击搜索框时，能够搜索到实时的数据。

3.你能使用事件对缓存进行更新，这样缓存能够方便快速读取最新数据。

4.最后，你可以将一个事件流转换到另外一个输出流，作为其他系统的输入，这样能够串联起一个复杂的事件驱动大型系统。

相关推荐