巨杉数据库:金融级数据库未来方向
引言
近年来,全球金融科技每年的投入已经超过500亿美元,中国的金融科技发展更是引领世界潮流。在金融科技不断发展的今天,中国金融互联网化和零售化的发展愈加激烈,使得我国金融业务与科技的有机结合应用模式备受世界瞩目。
对应着高速发展的业务模式与创新,现代金融系统亟需技术架构的革新来满足日益增长的业务需求。这其中包括了业务系统敏捷性、风险控制、成本控制、性能和业务发展对应的弹性增长能力。在信息化时代的今天,数据库承载着金融企业的核心数据。作为新技术架构的枢纽,金融级数据库是现代金融系统转型与革新的基础。
2017年,在国际著名的技术和市场分析机构Gartner的“2017年数据库报告”中,中国的三家数据库厂商有史以来第一次入选报告,分别是阿里云数据库,巨杉数据库SequoiaDB以及南大通用Gbase数据库。三款数据库都是完全中国团队自研,虽然应用场景不完全相同,但都在金融行业拥有不错的应用案例,可以说十分符合“金融级”的要求。而这也标志着在数据库领域,中国厂商的力量已经逐渐崛起,标志着在开源领域之外的基础软件领域,中国厂商也已经逐渐登上了国际知名的舞台。
同样2017年底,Gartner与巨杉数据库联合发布了《金融级数据库的未来发展方向》报告,报告阐述了金融行业对于数据库的未来需求以及金融级的数据库未来的发展方向。
本文我们也将看看“金融级”数据库的未来发展方向。
金融级数据库发展
长期以来,金融级数据库市场被Oracle、IBM DB2、Microsoft SQLServer等传统关系型数据库所垄断。在经历了几十年的发展与迭代后,传统关系型数据库已经无法适应新型金融科技发展的需要。因此,由新型分布式数据库替代传统架构,成为金融级数据库市场的主流趋势。
在过去的几十年中,受限于传统数据库的存储与计算能力,企业中不同业务部门之间的数据往往以独立的方式分别存放。而伴随着金融科技新型业务的不断发展,跨部门、跨业务的数据访问成为企业的核心需求。但是,各业务系统独立存放的数据往往形成一个个“数据孤岛”,使得企业内部的数据管理面临极大的挑战。
新型分布式数据库的出现旨在打破传统数据管理的体系,将跨业务、多类型的数据进行统一的管理与维护,从数据的层面将企业内部的各个部门与业务线融会贯通。
为了实现这个目标,新型金融级数据库需要在分布式架构、多模式数据管理、标准化数据访问、数据可靠性、与混合负载等几个角度对传统数据库架构进行重新定义。
分布式架构
伴随着金融科技的互联网化,传统数据库架构已经无法承载爆炸性增长的海量数据。同时,互联网渠道的大规模引入,使得金融科技应用对数据库的并发能力与性能产生新的需求。
由于传统数据库的单点架构无法满足新型金融科技应用对数据量与并发能力的需求,新一代金融级数据库必须采用分布式架构来应对该类挑战。
在传统数据库架构中,企业必须通过不断增强单一硬件设备处理性能的方式,来提升数据库的存储与处理能力。但是,在信息爆炸的今天,硬件性能的提升远远落后于数据量的增长。因此新型数据库采用分布式架构,将海量数据均匀存储在多台物理设备中,以避免单一设备所造成的瓶颈。
同时,分布式数据库的灵活扩展能力,为金融业务增长提供了弹性的容量与性能支持,在大规模数据应用中具有明显的技术优势。
此外,使用PC服务器或云环境,新型分布式数据库在保障安全可靠的前提下,能够有效降低TCO,提升开发与运维效率。
多模式数据管理
如今,在金融业务“互联网化”和“零售化”的趋势下,金融机构开始向用户提供更多个性化、定制化的产品与服务。同时,伴随着各个业务系统自身复杂性的提升,系统之间的关联性也在不断增强。因此,应用系统对数据的存储管理提出了新的标准和要求。
一直以来,传统关系型数据库仅支持表单类型的结构化数据存储和访问能力,而对于层次型对象、图片影像等半结构化与非结构化数据管理无能为力。
为了实现金融业务数据的统一管理和数据融合,新型数据库需要具备多模式(Multi-Model)数据管理和存储的能力,以满足应用程序对于结构化、半结构化、非结构化数据的管理需求。
通常来说,结构化数据特指表单类型的数据存储结构,典型应用包括银行核心交易等传统业务;而半结构化数据则在用户画像、物联网设备日志采集、应用点击流分析等场景中得到大规模使用;非结构化数据则对应着海量的的图片、视频、和文档处理等业务,在金融科技的发展下增长迅速。
多模式数据管理能力,使得金融级数据库能够进行跨部门、跨业务的数据统一存储与管理,实现多业务数据融合,支撑多样化的金融服务。
标准化数据访问
随着多业务、多模式数据的统一与融合,不断增强的业务多样性、复杂性使得数据访问方式面临了新的挑战。
在传统数据库中,SQL几乎是数据库唯一的访问方式。而随着业务多样化的发展,非结构化和半结构化数据在金融科技应用的比重不断增大。因此,新型分布式数据库除了需要对结构化数据提供标准SQL语言的支持,还需要针对半结构化、非结构化数据提供如JSON、对象存储管理等访问能力。
标准化数据访问能力既满足了多类型数据管理的需求,也为企业有效提升了开发与运维的效率。因此,金融级数据库作为新金融科技架构的枢纽,需要为应用程序提供标准化的数据访问能力。
数据安全
伴随着在企业内部价值的不断提升,数据已经成为了金融企业的生命线与核心资产。作为承载着企业关键数据的数据库,其安全性、可靠性、稳定性一直是金融级数据库的核心价值。
同时,无论在中国还是海外,金融行业的数据安全已经成为了监管机构的首要要求。例如,银行核心系统安全一直是我国银监会所关注的重点,大部分银行数据中心早已具备高可用与“两地三中心”的能力。
但是,在分布式架构中完美实现高可用与容灾面临着诸多技术挑战。一般来说,以统计分析为目标的分布式数据库相对弱化了该部分的功能,而面向在线与交易业务的分布式数据库则对数据安全保持了高标准的严格要求。
例如,数据容灾与双活是金融企业数据安全的最后保障。容灾要求数据在多个中心进行实时互备,一旦数据中心发生重大灾难,所有在线生产业务可以及时切换中心继续运行。而双活则是在容灾的基础上,让主备数据中心同时承担生产业务,充分利用双活能力提升业务性能,进一步减少灾难发生时的宕机时间。
混合负载
伴随着业务多样化与数据大融合,不同的业务对于数据管理的功能要求也不尽相同。由于传统数据库的数据存储与访问方式单一,用户通常将应用分为在线业务与离线业务两类。
在线业务一般表示如银行核心交易系统等面向最终用户的业务系统。通常来说,这类系统需要满足高并发、低延时、高可靠等特性。而与之对应的离线业务则专注于批处理作业。一般这类业务具有高吞吐量、低并发、高延时等特征。
随着金融科技业务的不断发展与融合,各业务条线对于数据的需求也不再完全独立。在该趋势下,金融级数据库需要同时支持在线业务与离线业务的混合负载。
根据Gartner的最新定义,混合负载(HTAP Hybrid Transactional/Analytical Processing)在保留原有在线交易功能的同时,也强调了数据库原生计算分析的能力。支持混合负载的数据库能够避免在传统架构中,在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。
为了避免在线实时读写与批处理作业之间的资源干扰,混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。
结语:关于中国金融级数据库发展
长久以来,金融行业在全部企业级IT投入中一直占据50%以上。在几十年业务发展与强监管的要求下,金融机构普遍对数据库的安全性、可靠性、稳定性有着全行业最为严苛的要求。因此,满足金融行业需求的金融级数据库产品已经成为全部行业中的标杆。
与此同时,中国的商业银行的用户数量也一直保持世界前列。随着中国经济快速发展以及普惠金融、交易银行等业务和政策的推广,中国的商业银行业务也在向“互联网”、“零售化”不断转型。这使得银行与最终用户距离更贴近、交互频率更多、业务场景更多样。这些新需求促使中国的金融和银行业技术转型不断加速,并在多种技术与业务模式上走在世界前列。
另一方面,数据库产品的发展成熟周期漫长。一般来说,一个在金融行业大规模使用的数据库产品,需要在技术、产品、工程、售后支持以及行业经验上具有相当长时间的积累才能慢慢走向成熟。
此外,不同于应用软件,作为基础软件的通用数据库产品要在各类客户中满足各种业务需求,而不仅仅只为单一特定的场景服务。这要求数据库厂商牢牢掌握产品核心代码以及发展方向,从而能够在快速应对客户各类需求的同时,保证高度的产品化与标准化。同时,金融级数据库产品所面对的银行、证券、保险等头部行业对产品的质量与稳定性要求极高,这使得用户对金融级数据库在产品上的复杂度与成熟度又提出了更高层次的要求。
在这样的背景下,巨杉数据库作为我国自主研发的金融级数据库产品,其技术方向领先、应用场景多样、并且在金融企业中得以大规模应用。因此,巨杉数据库的不断蓬勃发展也得到了国际业界的瞩目和认可。