为什么会有这么多中间表？

wxfsuzhou

2019-06-29

为什么会有这么多中间表？

中间表的由来

中间表是数据库中专门存放中间计算结果的数据表。报表系统中的中间表是普遍存在的。那么，这些中间表是如何出现的？为什么中间表会越来越多？中间表会给项目组带来什么样的困扰，如何解决这些困扰？这里我们就尝试探讨一下这个问题。

中间表出现的典型场景主要有三个：

一步算不出来。数据库中的原始数据表要经过复杂计算，才能在报表上展现出来。一个 SQL 很难实现这样的复杂计算。要连续多个 SQL 实现，前面的生成中间表给后边的 SQL 使用。
实时计算等待时间过长。因为数据量大或者计算复杂，报表用户等待时间太长。所以要每天晚上跑批量任务，把数据计算好之后存入中间表。报表用户基于中间表查询就会快很多。
多样性数据源参加计算。来自于文件、NOSQL、Web service 等的外部数据，需要与数据库内数据进行混合计算时，传统办法只能导入数据库形成中间表。

中间表带来的问题

在一个运营商的报表系统中，我们发现了一个让人吃惊的现象。在 DB2 数据仓库中，有两万多个数据库表！经过深入了解发现，真正的原始数据表只有几百张，剩下的大量的数据库表都是为查询和报表服务的中间表。

经过几年乃至十几年的运行，数据库中的中间表越来越多，甚至出现这个项目中上万个的情况。大量中间表带来的直接困扰是数据库存储空间不够用，面临频繁的扩容需求。中间表对应的存储过程、触发器等等需要占用数据库的计算资源，也会造成数据库的扩容压力。

那么，是不是可以清理掉一些不用的中间表？一般的结论都是：搞不动。数据库中的中间表是不同程序员制作的，有的是综合查询系统使用，有的是报表系统使用。中间表之间还存在交叉引用，有些程序员看到有别人生成的中间表就直接使用了。有时候一些查询报表已经废弃不用了，但是对应的中间表没人敢删，因为不知道删掉之后会影响其他什么查询或者报表。

很多情况下，项目组只好为了越来越多的中间表去扩容数据库。但是数据库的扩容成本太昂贵了：不管是换更强的服务器（纵向扩容），还是增加数据库服务器的节点（横向扩容），都不便宜。过于频繁的扩容让项目组非常头疼。

那么，能不能把中间表导出到文件中，从而减轻数据库的压力呢？这个办法初看挺好，但是有个问题始终无法解决。例如：每天晚上把经营分析表数据生成好之后放到文件中，第二天上班的时候发现，业务人员还要对经营分析表按照各种条件过滤，或者按照各种维度分组。因为文件本身是没有计算能力的，一旦把中间表从数据库中导出成文件就很难进一步计算了。不得已，只能把中间表继续留在数据库中。

解决问题的办法

采用润乾集算器实现文件计算，就可以把中间表从库中迁移到文件系统中了。采用集算器的前后对比图如下：

为什么会有这么多中间表？

在集算器结构中，数据库的大量中间表都移到了库外，数据库仅仅存储少量原始数据表，压力就小了很多。针对这些中间表实现的多个 ETL 存储过程、触发器、复杂 SQL 也都由集算器来实现，数据库的计算压力也变小了很多。虽然计算和存储压力由应用服务器来承担，但是成本还是要比数据库服务器低很多。项目组不用再每隔一段时间就申请数据库服务器扩容了。

同时，集算器可以读取多样性数据源，直接参与混合计算。无需再导入数据库，成为中间表。

集算器编程很容易

移到库外的数据文件不能再使用 SQL 计算了，换成集算器会不会增加编写的难度呢？实际上，集算器编写简单计算脚本的时候和 SQL 差不多，复杂多步骤计算还要比 SQL 容易。例如：

读取文件

	A
1	=file(“D:/report/HR/employee.b”)
2	=A1.import@b()

实现过滤

	A	B
1	=file(“Order_Books.b”).import@b()	=A1.select(Amount>=20000 && month(Date)==3)

分组汇总

	A	B
1	=file(“Order_Books.b”).import@b()	=A1.select(Amount>20000)
2	=A1.groups(SalesID, month(Date); sum(Amount), count(~))

从上述例子来看，采用集算器实现数据文件库外计算，学习成本很低，很容易掌握。

新方案的价值

新方案的价值还不仅仅是降低数据库的压力。

对于报表应用而言，中间数据的存在是有价值的：有些中间表是报表业务决定的，有些是为了弥补现有技术的不足。也就是说，中间数据和报表模板一样，都是报表系统的一部分。所以，集算器的方案并没有让中间数据消失，只是移到了库外，保存在报表应用的文件目录中，使得中间表在物理上也成为了报表应用系统的一部分。这样既能发挥中间数据的价值，还可以让中间数据和报表系统的其他部分一起管理。显然，文件系统的树形目录结构比数据库混在一起的几万个表要更容易维护。

在实际项目中，可以给中间数据文件建立多层文件夹存储。例如：第一层目录是财务管理、人力资源、ERP 等等。人力资源又有子目录：工资管理，基本信息，党员信息等等。目录可以细化到某个报表，如果该报表发生了变化，只需要调整这个目录中的报表模板或者数据文件即可。如果该报表废弃不用，那么删掉或者移走报表所在目录，就可以快速的释放硬盘空间。

从计算速度来说，由于文件更底层，更接近于磁盘，IO 性能要好于数据库。所以集算器的方案可以为报表系统带来更快的性能。

报表数据来自于多样性数据源时，还可以有更好的实时性，不像传统手段时只能定期入库。

wxfsuzhou

0 关注 0 粉丝 0 动态

相关推荐

Golang操作MySql数据库的完整步骤记录

MySQL是业界常用的关系型数据库，在平时开发中会经常与MySql数据库打交道，所以在接下来将介绍怎么使用Go语言操作MySql数据库。Go语言中的database/sql包提供了保证SQL或类SQL数据库的泛用接口，并不提供具体的数据库驱动。我们常用的数

CoderToy 2020-11-16

golang常用库之操作数据库的orm框架-gorm基本使用详解

golang常用库：gorilla/mux-http路由库使用golang常用库：配置文件解析库-viper使用golang常用库：操作数据库的orm框架-gorm基本使用。UserId int64 `gorm:"index"` //设

技术之博大精深 2020-10-16

MySQL主从复制原理以及需要注意的地方

最近在写Mycat专题，由于不少小伙伴最近要出去面试，问我能不能简单写下MySQL的主从复制原理和注意事项，因为在之前的面试中被问到了这些问题。 Master 将数据改变记录到二进制日志中，也就是配置文件 log-bin 指定的文件，这些记录叫做二进制日

emmm00 2020-11-17

专业级的MySQL开发设计规范及SQL编写规范

在团队开发过程中为了项目的稳定，代码的高效，管理的便捷制定内部种开发设计规范是必不可少的，命名规范的对象是指数据库SCHEMA、表TABLE、索引INDEX、约束CONSTRAINTS等的命名约定。数据库创建时必须添加默认字符集和校对规则子句。设计应至少满

bianruifeng 2020-11-16

MySQL ddl语句的使用

数据定义语言create、drop、alter语句。定义对数据库记录的增、删、改操作。定义对数据库、表、字段、用户的访问权限和安全级别。这小节主要了解下数据定义语言DDL。我们用它对数据库、表进行一些管理操作，比如：建库、删库、建表、修改表、删除表、对字

云中舞步 2020-11-12

MySQL用truncate命令快速清空一个数据库中的所有表

用文本编辑器把每条truncate语句前后的“|”替换为空字符，方便后面一次复制多条执行。truncate与drop是DDL语句，执行后无法回滚；delete是DML语句，可回滚。truncate会清空表中的所有行，但表结构及其约束、索引等保持不变；dro

世樹 2020-11-11

MySQL 8.0.15配置MGR单主多从的方法

MySQL Group Replication字面意思是mysql组复制的意思,但其实他是一个高可用的集群架构,暂时只支持mysql5.7和mysql8.0版本.也是mysql官方基于组复制概念并充分参考MariaDB Galera Cluster和Per

暗夜之城 2020-11-11

Docker如何给Springboot项目动态传参的实现方法

最近有些初学Docker的朋友问到，想通过docker-compose.yml来动态给微服务传参，而不是每次都要在项目配置文件硬编码，然后构建服务镜像，最后打包发布经过一些列流程才能更新配置，那能不能直接通过docker-compose.yml里把一些配置

张荣珍 2020-11-12

详解Navicat Premium基本使用

Navicat是一套数据库管理工具，专为简化数据库的管理及降低系统管理成本而设。Navicat 是以直觉化的图形用户界面而建的，可以安全和简单地创建、组织、访问并共用信息。Navicat Premium 是 Navicat 的产品成员之一，能简单并快速地在

amienshxq 2020-11-14

使用 Navicat 创建数据库并用JDBC连接的操作方法

昨天学习 Java 的数据库部分，就试着写了一下 JDBC 连接的代码，并尝试与数据库进行连接。中间也是遇到了一些问题，解决之后，在这里分享一下，也算做个记录。这个就不多说了，需要的自己百度教程；输入连接名称，用户名、密码，然后 OK 就可以创建新的连接了

ASoc 2020-11-14

一款免费开源的通用数据库工具DBeaver

在制作《SQL 入门教程》时，接触到了这款非常强大易用的数据库管理和开发工具：DBeaver，也就是上面这个可爱的小河狸。DBeaver 是一个基于 Java 开发，免费开源的通用数据库管理和开发工具，使用非常友好的 ASL 协议。可以通过官方网站或者 G

yungpheng 2020-10-19

使用DataGrip的详细教程

DataGrip是一款连接数据库的可视化软件，就跟Navicat似的。DataGrip是JetBrains公司出品的，就是开发了IntelliJ IDEA的那家公司。基本上我认识的人都在用Navicat，Navicat确实非常好用。但DataGrip真的真

loveyouluobin 2020-09-29

datagrip如何找到数据库和表

用习惯了navicat，一直喜欢如下界面，可以方便查看数据库及表的信息。但是不知道为什么navicat总是无法连接oracle，因此转战datagrip。第一次使用datagrip，用户体验可谓是相当差了（大佬莫喷，对于我的使用习惯来说，这款软件用户体验真

尘封飞扬 2020-09-29

从零开始用DataGrip的安装及使用教程

在path加上mysql路径。例如，我的安装路径是C:\Users\skywf\mysql-8.0.19-winx64，那么我就要像下图一样配置环境变量。输入mysqld --initialize-insecure --user=mysql，我这里先配置无

Coder技术文摘 2020-09-29

分布式文档存储数据库之MongoDB访问控制的操作方法

　　什么是访问控制？

fengzhongdengdai 2020-11-17

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

Pycharm连接MongoDB数据库安装教程详解

最新版本的Pycharm搜不到Plugin插件，自己手动下载Mongo Plugin插件下载地址。我把它放在了MongoDB的安装路径下。下一节开始试用。

BigYellow 2020-11-16

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 2020-11-12

MongoDB数据库用户角色和权限管理详解

使用终端命令行输入 mongo 登陆 mongodb 之后切换到 admin 库，并认证后可查看所有数据库，操作如下所示：。Implicit session: session { "id" : UUID }. 说明：1 表示认证成功，0

我心似明月 2020-11-09

node.js如何操作MySQL数据库

MySQL数据库作为最流行的开源数据库。基本上是每个web开发者必须要掌握的数据库程序之一了。node.js上，最受欢迎的mysql包就是mysql模块。这样就拿到了一个连接。node.js对数据库的curd都在query这个方法里面。connection

huacuilaifa 2020-10-29

wxfsuzhou

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号