精读《手写 SQL 编译器 - 性能优化之缓存》

81951932

2019-06-28

关注关注

1 引言

重回 “手写 SQL 编辑器” 系列。这次介绍如何利用缓存优化编译器执行性能。

可以利用 Frist 集 与 Match 节点缓存 这两种方式优化。

本文会用到一些图做解释，下面介绍图形规则：

精读《手写 SQL 编译器 - 性能优化之缓存》

First 集优化，是指在初始化时，将整体文法的 First 集找到，因此在节点匹配时，如果 Token 不存在于 First 集中，可以快速跳过这个文法，在文法调用链很长，或者 “或” 的情况比较多时，可以少走一些弯路：

精读《手写 SQL 编译器 - 性能优化之缓存》

如图所示，只要构建好了 First 集，不论这个节点的路径有多长，都可以以最快速度判断节点是否不匹配。如果节点匹配，则继续深度遍历方式访问节点。

现在节点不匹配时性能已经最优，那下一步就是如何优化匹配时的性能，这时就用到 Match 节点缓存。

Match 节点缓存，指在运行时，缓存节点到其第一个终结符的过程。与 First 集相反，First 集可以快速跳过，而 Match 节点缓存可以快速找到终结符进行匹配，在非终结符很多时，效果比较好：

精读《手写 SQL 编译器 - 性能优化之缓存》

如图所示，当匹配到节点时，如果已经构建好了缓存，可以直接调到真正匹配 Token 的 Match 节点，从而节省了大量节点遍历时间。

这里需要注意的是，由于 Tree 节点存在分支可能性，因此缓存也包含将 “沿途” Chances 推入 Chances 池的职责。

2 精读

那么如何构建 First 集与 Match 节点缓存呢？通过两张图解释。

构建 First 集

精读《手写 SQL 编译器 - 性能优化之缓存》

如图所示，构建 First 集是个自下而上的过程，当访问到 MatchNode 节点时，就可以收集作为父节点的 First 集了！父集判断 First 集收集完毕的话，就会触发它的父节点 First 集收集判断，如此递归，最后完成 First 集收集的是最顶级节点。

构建 Match 节点缓存

精读《手写 SQL 编译器 - 性能优化之缓存》

如图所示，访问节点时，如果没有缓存，则会将这个节点添加到 Match 缓存查找队列，同时路途遇到 TreeNode，也会将下一个 Chance 添加到缓存查找队列。直到遇到了第一个 MatchNode 节点，则这个节点是 “Match 缓存查找队列” 所有节点的 Match 节点缓存，此时这些节点的缓存就可以生效了，指向这个 MatchNode，同时清空缓存查找队列，等待下一次查找。

3 总结

拿 select a, b, c, d from e 这个语句做测试：

node 节点访问次数	Frist 集优化	First 集 + Match 节点缓存优化
784	669	652

从这个简单 Demo 来看，提效了 16% 左右。不过考虑到文法结构会影响到提效，对于层级更深的文法、能激活深层级文法的输入可以达到更好的效率提升。

4 更多讨论

讨论地址是：精读《手写 SQL 编译器 - 性能优化之缓存》 · Issue #110 · dt-fe/weekly

如果你想参与讨论，请点击这里，每周都有新的主题，周末或周一发布。前端精读 - 帮你筛选靠谱的内容。

match 性能优化缓存

安科网

精读《手写 SQL 编译器 - 性能优化之缓存》

81951932

1 引言

2 精读

构建 First 集

构建 Match 节点缓存

3 总结

4 更多讨论

81951932

相关推荐

PHP 8.0新功能：Match表达式

正则表达式中match和exec， test

MySQL ------ 全文本搜索（ match和Against），以及查询扩展和布尔方式（十七）

Android Fragment(一)：基本使用

解决centos安装不上apache:No match for argument: httpd

PHP-正则表达式

【ElasticSearch】查绚使用学习

elasticsearch 查询 term和match

Android基础——高级UI组件：选项卡

Redis-Jedis使用Scan实现redis前缀key查找

41 正则中匹配多个字符串匹配任意单个字符正则中使用字符串重复、可选和特殊字符

40 python 正则表达式 match方法匹配字符串使用search函数在一个字符串中查找子字

正则表达式之match方法

C# 正则表达式获取json字符串中的键值

Elasticsearch：Dynamic mapping

正则表达式常用示例

elasticsearch学习笔记高级篇（八）——基于boost的细粒度搜索条件权重控制

【Linux】Linux 常用命令

软件测试中，正则表达式match search 和findall之间的区别是什么

elasticsearch的查询

81951932