如何实现一个通用的分布式事务框架？

wangyjbk

2019-12-27

一个TCC事务框架需要解决的当然是分布式事务的管理。关于TCC事务机制的介绍，可以参考TCC事务机制简介。

TCC事务模型虽然说起来简单，然而要基于TCC实现一个通用的分布式事务框架，却比它看上去要复杂的多，不只是简单的调用一下Confirm/Cancel业务就可以了的。

本文将以Spring容器为例，试图分析一下，实现一个通用的TCC分布式事务框架需要注意的一些问题。

一、TCC全局事务必须基于RM本地事务来实现

TCC服务是由Try/Confirm/Cancel业务构成的，其Try/Confirm/Cancel业务在执行时，会访问资源管理器(Resource Manager，下文简称RM)来存取数据。

这些存取操作，必须要参与RM本地事务，以使其更改的数据要么都commit，要么都rollback。

这一点不难理解，考虑一下如下场景：

如何实现一个通用的分布式事务框架？

假设图中的服务B没有基于RM本地事务(以RDBS为例，可通过设置auto-commit为true来模拟)，那么一旦[B:Try]操作中途执行失败，TCC事务框架后续决定回滚全局事务时，该[B:Cancel]则需要判断[B:Try]中哪些操作已经写到DB、哪些操作还没有写到DB.

假设[B:Try]业务有5个写库操作，[B:Cancel]业务则需要逐个判断这5个操作是否生效，并将生效的操作执行反向操作。

不幸的是，由于[B:Cancel]业务也有n(0<=n<=5)个反向的写库操作，此时一旦[B:Cancel]也中途出错，则后续的[B:Cancel]执行任务更加繁重。

因为相比第一次[B:Cancel]操作，后续的[B:Cancel]操作还需要判断先前的[B:Cancel]操作的n(0<=n<=5)个写库中哪几个已经执行、哪几个还没有执行.

这就涉及到了幂等性问题，而对幂等性的保障，又很可能还需要涉及额外的写库操作，该写库操作又会因为没有RM本地事务的支持而存在类似问题。。。

可想而知，如果不基于RM本地事务，TCC事务框架是无法有效的管理TCC全局事务的。

反之，基于RM本地事务的TCC事务，这种情况则会很容易处理。

[B:Try]操作中途执行失败，TCC事务框架将其参与RM本地事务直接rollback即可。后续TCC事务框架决定回滚全局事务时，在知道“[B:Try]操作涉及的RM本地事务已经rollback”的情况下，根本无需执行[B:Cancel]操作。

换句话说，基于RM本地事务实现TCC事务框架时，一个TCC型服务的cancel业务要么执行，要么不执行，不需要考虑部分执行的情况。

二、TCC事务框架应该接管Spring容器的TransactionManager

基于RM本地事务的TCC事务框架，可以将各Try/Confirm/Cancel业务看成一个原子服务：一个RM本地事务提交，参与该RM本地事务的所有Try/Confirm/Cancel业务操作都生效;反之，则都不生效。

掌握每个RM本地事务的状态以及它们与Try/Confirm/Cancel业务方法之间的对应关系，以此为基础，TCC事务框架才能有效的构建TCC全局事务。

TCC服务的Try/Confirm/Cancel业务方法在RM上的数据存取操作，其RM本地事务是由Spring容器的PlatformTransactionManager来commit/rollback的，TCC事务框架想要了解RM本地事务的状态，只能通过接管Spring的事务管理器功能。

2.1. 为什么TCC事务框架需要掌握RM本地事务的状态?

首先，根据TCC机制的定义，TCC事务是通过执行Cancel业务来达到回滚效果的。仔细分析一下，这里暗含一个事实：只有生效的Try业务操作才需要执行对应的Cancel业务操作。

换句话说，只有Try业务操作所参与的RM本地事务被commit了，后续TCC全局事务回滚时才需要执行其对应的Cancel业务操作

否则，如果Try业务操作所参与的RM本地事务被rollback了，后续TCC全局事务回滚时就不能执行其Cancel业务，此时若盲目执行Cancel业务反而会导致数据不一致。

其次，Confirm/Cancel业务操作必须保证生效。Confirm/Cancel业务操作也会涉及RM数据存取操作，其参与的RM本地事务也必须被commit。

TCC事务框架需要在确切的知道所有Confirm/Cancel业务操作参与的RM本地事务都被成功commit后，才能将标记该TCC全局事务为完成。

如果TCC事务框架误判了Confirm/Cancel业务参与RM本地事务的状态，就会造成全局事务不一致。

最后，未完成的TCC全局，TCC事务框架必须重新尝试提交/回滚操作。重试时会再次调用各TCC服务的Confirm/Cancel业务操作。

如果某个服务的Confirm/Cancel业务之前已经生效(其参与的RM本地事务已经提交)，重试时就不应该再次被调用。否则，其Confirm/Cancel业务被多次调用，就会有“服务幂等性”的问题。

2.2. 拦截TCC服务的Try/Confirm/Cancel业务方法的执行，根据其异常信息可否知道其RM本地事务是否commit/rollback了呢?

基本上很难做到，为什么这么说?

第一，事务是可以在多个(本地/远程)服务之间互相传播其事务上下文的，一个业务方法(Try/Confirm/Cancel)执行完毕并不一定会触发当前事务的commit/rollback操作。

比如，被传播事务上下文的业务方法，在它开始执行时，容器并不会为其创建新的事务，而是它的调用方参与的事务，使得二者操作在同一个事务中;同样，在它执行完毕时，容器也不会提交/回滚它参与的事务的。

因此，这类业务方法上的异常情况并不能反映他们是否生效。不接管Spring的TransactionManager，就无法了解事务于何时被创建，也无法了解它于何时被提交/回滚。

第二、一个业务方法可能会包含多个RM本地事务的情况。

比如：A(REQUIRED)->B(REQUIRES_NEW)->C(REQUIRED)，这种情况下，A服务所参与的RM本地事务被提交时，B服务和C服务参与的RM本地事务则可能会被回滚。

第三、并不是抛出了异常的业务方法，其参与的事务就回滚了。

Spring容器的声明式事务定义了两类异常，其事务完成方向都不一样：系统异常(一般为Unchecked异常，默认事务完成方向是rollback)、应用异常(一般为Checked异常，默认事务完成方向是commit)。

二者的事务完成方向又可以通过@Transactional配置显式的指定，如rollbackFor/noRollbackFor等。

第四、Spring容器还支持使用setRollbackOnly的方式显式的控制事务完成方向;

最后，自行拦截业务方法的拦截器和Spring的事务处理的拦截器还会存在执行先后、拦截范围不同等问题。

例如，如果自行拦截器执行在前，就会出现业务方法虽然已经执行完毕但此时其参与的RM本地事务还没有commit/rollback。

TCC事务框架的定位应该是一个TransactionManager，其职责是负责commit/rollback事务。

而一个事务应该commit、还是rollback，则应该是由Spring容器来决定的：

Spring决定提交事务时，会调用TransactionManager来完成commit操作;Spring决定回滚事务时，会调用TransactionManager来完成rollback操作。

接管Spring容器的TransactionManager，TCC事务框架可以明确的得到Spring的事务性指令，并管理Spring容器中各服务的RM本地事务。

否则，如果通过自行拦截的机制，则使得业务系统存在TCC事务处理、RM本地事务处理两套事务处理逻辑，二者互不通信，各行其是。

这种情况下要协调TCC全局事务，基本上可以说是缘木求鱼，本地事务尚且无法管理，更何谈管理分布式事务?

三、TCC事务框架应该具备故障恢复机制

一个TCC事务框架，若是没有故障恢复的保障，是不成其为分布式事务框架的。

分布式事务管理框架的职责，不是做出全局事务提交/回滚的指令，而是管理全局事务提交/回滚的过程。

它需要能够协调多个RM资源、多个节点的分支事务，保证它们按全局事务的完成方向各自完成自己的分支事务。

这一点，是不容易做到的。因为，实际应用中，会有各种故障出现，很多都会造成事务的中断，从而使得统一提交/回滚全局事务的目标不能达到，甚至出现”一部分分支事务已经提交，而另一部分分支事务则已回滚”的情况。

比较常见的故障，比如：业务系统服务器宕机、重启;数据库服务器宕机、重启;网络故障;断电等。这些故障可能单独发生，也可能会同时发生。

作为分布式事务框架，应该具备相应的故障恢复机制，无视这些故障的影响是不负责任的做法。

一个完整的分布式事务框架，应该保障即使在最严苛的条件下也能保证全局事务的一致性，而不是只能在最理想的环境下才能提供这种保障。退一步说，如果能有所谓“理想的环境”，那也无需使用分布式事务了。

TCC事务框架要支持故障恢复，就必须记录相应的事务日志。事务日志是故障恢复的基础和前提，它记录了事务的各项数据。

TCC事务框架做故障恢复时，可以根据事务日志的数据将中断的事务恢复至正确的状态，并在此基础上继续执行先前未完成的提交/回滚操作。关注微信公众号：Java技术栈，在后台回复：架构，可以获取我整理的 N 篇架构教程，都是干货。

四、TCC事务框架应该提供Confirm/Cancel服务的幂等性保障

一般认为，服务的幂等性，是指针对同一个服务的多次(n>1)请求和对它的单次(n=1)请求，二者具有相同的副作用。

在TCC事务模型中，Confirm/Cancel业务可能会被重复调用，其原因很多。

比如，全局事务在提交/回滚时会调用各TCC服务的Confirm/Cancel业务逻辑。执行这些Confirm/Cancel业务时，可能会出现如网络中断的故障而使得全局事务不能完成。

因此，故障恢复机制后续仍然会重新提交/回滚这些未完成的全局事务，这样就会再次调用参与该全局事务的各TCC服务的Confirm/Cancel业务逻辑。

既然Confirm/Cancel业务可能会被多次调用，就需要保障其幂等性。

那么，应该由TCC事务框架来提供幂等性保障?还是应该由业务系统自行来保障幂等性呢?

个人认为，应该是由TCC事务框架来提供幂等性保障。如果仅仅只是极个别服务存在这个问题的话，那么由业务系统来负责也是可以的;

然而，这是一类公共问题，毫无疑问，所有TCC服务的Confirm/Cancel业务存在幂等性问题。TCC服务的公共问题应该由TCC事务框架来解决;

而且，考虑一下由业务系统来负责幂等性需要考虑的问题，就会发现，这无疑增大了业务系统的复杂度。

五、TCC事务框架不能盲目的依赖Cancel业务来回滚事务

前文以及提到过，TCC事务通过Cancel业务来对Try业务进行回撤的机制暗含了一个事实：Try操作已经生效。

也就是说，只有Try操作所参与的RM本地事务已经提交的情况下，才需要执行其Cancel操作进行回撤。没有执行、或者执行了但是其RM本地事务被rollback的Try业务，是一定不能执行其Cancel业务进行回撤的。

因此，TCC事务框架在全局事务回滚时，应该根据TCC服务的Try业务的执行情况选择合适的处理机制。而不能盲目的执行Cancel业务，否则就会导致数据不一致。

一个TCC服务的Try操作是否生效，这是TCC事务框架应该知道的，因为其Try业务所参与的RM事务也是由TCC事务框架所commit/rollbac的(前提是TCC事务框架接管了Spring的事务管理器)。推荐：分布式事务不理解?一次给你讲清楚。

所以，TCC事务回滚时，TCC事务框架可考虑如下处理策略：

如果TCC事务框架发现某个服务的Try操作的本地事务尚未提交，应该直接将其回滚，而后就不必再执行该服务的cancel业务;
如果TCC事务框架发现某个服务的Try操作的本地事务已经回滚，则不必再执行该服务的cancel业务;
如果TCC事务框架发现某个服务的Try操作尚未被执行过，那么，也不必再执行该服务的cancel业务。

总之，TCC事务框架应该保障：

已生效的Try操作应该被其Cancel操作所回撤;
尚未生效的Try操作，则不应该执行其Cancel操作。这一点，不是幂等性所能解决的问题。如上文所述，幂等性是指服务被执行一次和被执行n(n>0)次所产生的影响相同。但是，未被执行和被执行过，二者效果肯定是不一样的，这不属于幂等性的范畴。

六、Cancel业务与Try业务并行，甚至先于Try操作完成

这应该算TCC事务机制特有的一个不可思议的陷阱。

一般来说，一个特定的TCC服务，其Try操作的执行，是应该在其Confirm/Cancel操作之前的。

Try操作执行完毕之后，Spring容器再根据Try操作的执行情况，指示TCC事务框架提交/回滚全局事务。然后，TCC事务框架再去逐个调用各TCC服务的Confirm/Cancel操作。

然而，超时、网络故障、服务器的重启等故障的存在，使得这个顺序会被打乱。比如：

如何实现一个通用的分布式事务框架？

上图中，假设[B:Try]操作执行过程中，网络闪断，[A:Try]会收到一个RPC远程调用异常。

A不处理该异常，导致全局事务决定回滚，TCC事务框架就会去调用[B:Cancel]，而此刻A、B之间网络刚好已经恢复。如果[B:Try]操作耗时较长(网络阻塞/数据库操作阻塞)，就会出现[B:Try]和[B:Cancel]二者并行处理的现象，甚至[B:Cancel]先完成的现象。

这种情况下，由于[B:Cancel]执行时，[B:Try]尚未生效(其RM本地事务尚未提交)，因此，[B:Cancel]是不能执行的，至少是不能生效(执行了其RM本地事务也要rollback)的。

然而，当[B:Cancel]处理完毕(跳过执行、或者执行后rollback其RM本地事务)后，[B:Try]操作完成又生效了(其RM本地事务成功提交)，这就会使得[B:Cancel]虽然提供了，但却没有起到回撤[B:Try]的作用，导致数据的不一致。

所以，TCC框架在这种情况下，需要：

将[B:Try]的本地事务标注为rollbackOnly，阻止其后续生效;
禁止其再次将事务上下文传递给其他远程分支，否则该问题将在其他分支上出现;
相应地，[B:Cancel]也不必执行，至少不能生效。

当然，TCC事务框架也可以简单的选择阻塞[B:Cancel]的处理，待[B:Try]执行完毕后，再根据它的执行情况判断是否需要执行[B:Cancel]。

不过，这种处理方式因为需要等待，所以，处理效率上会有所不及。

同样的情况也会出现在confirm业务上，只不过，发生在Confirm业务上的处理逻辑与发生在Cancel业务上的处理逻辑会不一样。

TCC框架必须保证：

Confirm业务在Try业务之后执行，若发现并行，则只能阻塞相应的Confirm业务操作;
在进入Confirm执行阶段之后，也不可以再提交同一全局事务内的新的Try操作的RM本地事务。

七、TCC服务复用性是不是相对较差?

TCC事务机制的定义，决定了一个服务需要提供三个业务实现：Try业务、Confirm业务、Cancel业务。

可能会有人因此认为TCC服务的复用性较差。怎么说呢，要是将 Try/Confirm/Cancel业务逻辑单独拿出来复用，其复用性当然是不好的。

Try/Confirm/Cancel 逻辑作为TCC型服务中的一部分，是不能单独作为一个组件来复用的。Try、Confirm、Cancel业务共同才构成一个组件，如果要复用，应该是复用整个TCC服务组件，而不是单独的Try/Confirm/Cancel业务。

八、TCC服务是否需要对外暴露三个服务接口?

不需要。TCC服务与普通的服务一样，只需要暴露一个接口，也就是它的Try业务。

Confirm/Cancel业务逻辑，只是因为全局事务提交/回滚的需要才提供的，因此Confirm/Cancel业务只需要被TCC事务框架发现即可，不需要被调用它的其他业务服务所感知。

换句话说，业务系统的其他服务在需要调用TCC服务时，根本不需要知道它是否为TCC型服务。

因为，TCC服务能被其他业务服务调用的也仅仅是其Try业务，Confirm/Cancel业务是不能被其他业务服务直接调用的。

九、TCC服务A的Confirm/Cancel业务中能否调用它依赖的TCC服务B的Confirm/Cancel业务?

最好不要这样做。

首先，没有必要。TCC服务A依赖TCC服务B，那么[A:Try]已经将事务上下文传播给[B:Try]了，后续由TCC事务框架来调用各自的Confirm/Cancel业务即可;

其次，Confirm/Cancel业务如果被允许调用其他服务，那么它就有可能再次发起新的TCC全局事务。如此递归下去，将会导致全局事务关系混乱且不可控。

TCC全局事务，应该尽量在Try操作阶段传播事务上下文。Confirm/Cancel操作阶段仅需要完成各自Try业务操作的确认操作/补偿操作即可，不适合再做远程调用，更不能再对外传播事务上下文。

综上所述，本文倾向于认为，实现一个通用的TCC分布式事务管理框架，还是相对比较复杂的。一般业务系统如果需要使用TCC事务机制，并不推荐自行设计实现。

分布式事务 tcc 事务 spring事务管理 confirm try 框架

wangyjbk

0 关注 0 粉丝 0 动态

相关推荐

分布式柔性事务的TCC方案

TCC概念由Pat Helland于2007年发表的一篇名为《Life beyond Distributed Transactions:an Apostate’s Opinion》的论文提出, 在该论文中，TCC还是以Tentative-Confirmat

loviezhang 2020-06-16

分布式事务框架 --- TCC

标题写的是框架TCC，其实实际上不是，TCC是一种思想，一种技术维度。它有落地的实现，后文中有介绍到。好，业务场景有了，现在我们要更进一步，实现一个 TCC 分布式事务的效果。由于库存服务操作数据库异常，导致库存数量还是 100。所以说，我们有必要使用 T

亦碎流年 2020-04-30

分布式事务（第05篇）分布式事务解决方法-TCC

场景：A账户给B账户转30块，AB在不同的服务。检查A账户余额是否大于30元。Try、Confirm、Cancel都是有单独的线程去执行，且会出现重复调用，不支持幂等性。由于以上两原因，TCC可以自由控制资源锁定的粒度。

wqbala 2020-03-04

[转帖]如何选择分布式事务形态（Fescar、TCC、SAGA、补偿、基于消息的最终一致

基于消息实现的分布式事务基于补偿实现的分布式事务基于TCC实现的分布式事务基于SAGA实现的分布式事务基于2PC实现的分布式事务这些形态的原理已经在很多文章中进行了剖析，用“分布式事务”关键字就能搜到对应的文章，本文不再赘述这些形态的原理，并将重点放在如何

憧憬 2020-01-05

12张图带你彻底理解分布式事务产生的场景和解决方案！！

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。为使更多童鞋受益，现给出开源框架地址：。可以只在RM中

LeeLuffy 2020-10-16

分布式事务、分布式锁、分布式缓存

分布式应用：一个服务需要对多个不同的数据库进行操作，保证同时成功或失败。

summerZBH 2020-09-23

几种分布式事务技术的比较

对业务侵入很强。已经提交的事务，不保证隔离性。不会脏读，性能介于seata和2阶段之间。seata和lcn大致的实现思路是一致的，但是回滚的机制不一样。

zjuwangleicn 2020-09-04

聊聊分布式事务

现在摘抄一段wiki的解释，解释下什么是事务。数据库系统具有事务特性，这是其有别与文件系统重要特性。通常一个事务会有多个读写操作构成。事务具有四个基本特性，俗称ACID。数据库的状态从一种状态转变为另外一种状态，事务开始之前和是事务结束之后，数据库完整性约

loviezhang 2020-08-08

对于分布式事务，我“开门见山”地谈到这些理解，面试官都听懵了

写后面的读一定能读到前面写的内容，所有的读写请求都好像被全局排序。但在分布式环境中，多实例部署是基本条件，因为网络的不可靠性，造成了P成了硬性条件，所以分布式系统基本都是cp和ap的

打不死的小强 2020-07-03

分布式事务不理解？一次给你讲清楚！

考虑支付重构的时候，自然想到原本属于一个本地事务中的处理，现在要跨应用了要怎么处理。原本收到充值回调后，可以将修改订单状态和增加金币放在一个mysql事务中完成的，但是呢，因为服务拆分了，就面临着需要协调2个服务才能完成这个事务。所以就带出来，我们今天要分

夙梦流尘 2020-06-28

分布式事务的实现

在微服务架构中，随着服务的逐步拆分，数据库私有已经成为共识，这也导致所面临的分布式事务问题成为微服务落地过程中一个非常难以逾越的障碍，但是目前尚没有一个完整通用的解决方案。其实不仅仅是在微服务架构中，随着用户访问量的逐渐上涨，数据库甚至是服务的分片、分区、

粗茶淡饭 2020-06-25

SQL Server 开启DTC分布式事务

MSDTC，协调跨多个数据库、消du息队列、文件系统等zhi资源管理器的事务。该服务的dao进程名为Msdtc.exe。

花落花开春去秋来 2020-06-20

Spring Boot2.0之多数据源分布式事务问题

分布式事务解决方案的问题，这种情况是连接两个数据源的情况，然后事务管理器是这样的只管理了test02的这端业务代码。使用springboot+jta+atomikos分布式事物管理 . 好了废话不多说，动手撸代码！

whbing 2020-04-30

基于boot实现的单例多库分布式事务

业务系统中存在针对用户对一些特定字段的操作，需要进行日志记录及入库日志。项目架构是基于boot为基石的SpringCloud分布式架构，业务模块暂时称呼为模块A，日志记录属于公共模块暂时称呼为模块B。数据库事务的ACID ，分布式事务的BASE理论。

Cheetahcubs 2020-01-03

分布式事务方案

事务在执行过程中发生错误，会被回滚到事务开始前的状态，就像这个事务从来没有执行过一样。如果参与者无法及时接收到来自协调者的doCommit或者rebort请求时，会在等待超时之后，会继续进行事务的提交。

wenjieyatou 2020-06-09

微服务架构中分布式事务实现方案怎样何取舍

提起微服务架构，不可避免的两个话题就是服务治理和分布式事务。数据库和业务模块的垂直拆分为我们带来了系统性能、稳定性和开发效率的提升的同时也引入了一些更复杂的问题，例如在数据一致性问题上，我们不再能够依赖数据库的本地事务，对于一系列的跨库写入操作，如何保证其

middleware0 2020-06-09

四种分布式事务粗略理解

以web系统来说,一个聚合服务对服务发送分别的请求方法,开启begin事务,但是不进行提交,返回结果。首先对商品减1,将减1操作和操作该事务的行为写入,通过mq让下一个事务进行消费,消费如果异常在一定范围之内重试,异常则进行回滚并通过mq让上一个事务进行

韩学敏 2020-06-08

分布式场景之刚性事务-2PC详解

分布式场景下，多个服务同时对服务一个流程，比如电商下单场景，需要支付服务进行支付、库存服务扣减库存、订单服务进行订单生成、物流服务更新物流信息等。如果某一个服务执行失败，或者网络不通引起的请求丢失，那么整个系统可能出现数据不一致的原因。分布式一致性问题的解

CharlesYooSky 2020-06-06

分布式架构，刚性事务-2PC必须注意的问题及3PC详细解

咱们上文介绍了分布式事务的常见方案、类型划分、2PC的起源和流程。但是不幸的是2PC还是存在几个问题：。所有参与者必须等待TM重新上线后才能继续工作。而在这部分参与者接到commit请求之后就会执行commit操作。但是其他部分未接到commit请求的机器

wqbala 2020-06-04

【SpringCloud】Spring Cloud Alibaba 之 Seata 分布式事务中间件（三十五）

什么是分布式事务问题？　　单体应用中，一个业务操作需要调用三个模块完成，此时数据的一致性由本地事务来保证。简单来说，一次业务操作需要操作多个数据源或需要进行远程调用，就会产生分布式事务问题。　　Seata 是一款开源的分布式事务解决方案，致力于提供高性能和

isHooky 2020-05-30

wangyjbk

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号