专访本土数据库CTO武新:谈如何发力细分大数据市场

专访本土数据库CTO武新:谈如何发力细分大数据市场

武新,南大通用公司高级副总裁兼CTO,法国奥尔良大学博士。国家“千人计划”专家。毕业于法国奥尔良大学,有20年的从业经验,在著名的甲骨文(ORACLE)任职12年,是最早获得甲骨文 公司Oracle Certified DBA的数据库管理专家。武新于2010年获得中组部实施的国家“千人计划”荣誉,是工信部认可的数据库专家。2008年7月,武新回到国内,任南大通用高级副总裁兼CTO,是南大通用GBase 8a 分析型数据库及其配套工具总设计师。

“大数据”概念价值提升,带热数据产业链

数据本身是什么,我们并不陌生。IT经济社会出现之后,数据成了大家火热关注的问题。从行业角度看,在互联网高速发展的十几年中,数据处理技术日新月异,加上移动互联和物联网技术和商业模式的新机遇,加速了数据的产生速度,数据存储量开始爆炸式增长。“大数据”概念应运而生。

然而“大数据”概念出现之前,数据分析、数据处理等数据库领域技术在不温不火中持续发展。也出现了数据仓库、BI等新技术概念。但从媒体角度看却没有获得关注焦点。直到“大数据”概念出现,将整个数据领域推至最高点,成为全球关注的热点概念。

对于这一现象,武新表示:互联网的出现,从技术角度和商业模式上颠覆了传统行业的经营状况,我们每个人的生活方式,也在互联网和移动互联网的推动下发生根本变化。除去概念炒作的影响外,可以说“大数据”概念提升了数据本身的价值。数据本身没有模型,或者说没有一个量化的方法。因此,我们无法给出一个明确的价格;但是,在大数据的推动下,企业对数据的重视程度进一步提升,让我们看到了数据的价值体现和资源地位。

除此之外,数据仓库、BI等早早出现的技术,在“大数据”的带动下在应用上更加活跃。接下来的大数据时代,是人类信息社会的收官阶段。之前的计算机时代和互联网时代,都是为大数据时代做铺垫和准备的。计算机时代的核心是计算能力,极大提高了人们对数据的处理能力;互联网时代解决了信息移动和连接的问题;而大数据时代,可将世界万事万物通通数据化,让人们在数据利用中优化现实操作和行为,令全球系统的运行更为高效。

所以说“大数据”的出现,不仅开启了数据领域的极速发展。对该领域的开发者而言,也迎来了最佳发展阶段。

多方面因素,促使数据分析使用门槛降低

行业里面有这样一种说法:“大数据分析是有钱人的游戏”。

关于这一说法,武新谈了自己的观点:“如果时间倒退5年,这个观点是成立的。在过去,我们去做数据仓库,做BI,确实需要很大的投资,不仅是在软件和硬件的大量投入;在高端人才的招揽上,也要投入大量的资金和精力。但是,随着互联网行业的推动,数据生产速度加快,数据分析和数据处理技术也日益完善,大数据分析的门槛慢慢降低。究其原因,主要有三点。

  1. 云计算的出现
  2. 互联网技术的飞速发展,开源力量凸显
  3. 大批高技能人才涌现

基于以上原因,大数据分析所需投入资源下降,国内各大行业公司普遍使用大数据分析技术。然而,随之而来的问题就是,大数据市场的竞争状态加据,单位生存空间变窄。如何定位自我位置,抓取独特身份,显得尤为重要,也成了数据库公司的思考难题。”

错位竞争,特色产品面对专用市场

“错位竞争”,特色产品面对专用市场,是南大通用的整体战略定位。

武新解释说:“南大通用创立之初,董事长崔维力先生提出了这样的战略方式。我们看到,在传统数据库市场IBM、微软等几家大型公司占据了几乎整个市场份额,在行存储技术领域做到了极致,技术市场达到了饱和状态。因此,在这种情况下,我们很难在传统市场里分得一杯羹。但是在新兴的数据分析领域,我们可以与国际巨头站在同一个起跑线,,我们的产品可以在市场上比他们表现的还要好。这就是所谓的 ‘错位竞争’,做专用数据库,发力细分市场。”

做为专业数据库产品,在存储方式上,南大通用采用列存储模式。在数据上,更快捷的进行聚合、增组、关联;更加便于进行大规模的数据分析、数据统计。对IO的要求也大大下降,拥有较高的数据压缩比,适合做B型运算。在架构上,不同于传统数据库的垂直架构,而是像Hadoop一样的横向扩展,相对于传统数据来说在计算能力有明显的优势。

在过去20年,几乎一种数据库平台,就能满足所有应用类型。但是,随着数据类型的细分,这样的数据处理模式渐渐无法满足用户需求,产生越来越多瓶颈。演变到现在,数据处理和应用形成了朝细分市场发展的模式,再次肯定了南大通用战略方针的正确性。所谓细分,就是对某一类数据或某一类应用,做专门的处理技术。精通特定领域的数据分析,特色产品面对专用市场 ,根据不同需求,做不同产品。

专用数据库产品:分析数据库GBase 8a

GBase 8a,是南大通用投入最大的一款分析数据库产品。GBase 8a采用了列存、智能查询、高效压缩、双向并行、自适应优化等多项新技术,打破了以往提高性能只能靠增加数据库的容量,建很多索引的常规,使得GBase 8a既有高性能又有很高的数据压缩比。

武新指出:“经过用户实际测试,在典型分析型应用中表现出:1、高性价比:几乎不用调优就可以达到高性能,不需要考虑如何建索引,如何分区等问题。占有磁盘空间大大降低,节省大量存 储设备费用,是传统数据库的1/5甚至更高,使用通用、中低端的存储设备和服务器就可以达到很高的性能;2、高性能: 与国际传统数据库相比在批量聚集、统计性能;即席查询性能、模糊查询性能等方面都有几倍到几十倍的提高;3、高可用性:安装、调优、维护、扩展非常简单, 好用。”

添加非结构性数据处理技术,帮助用户解决Hadoop平台问题

经过几十年信息化发展,传统行业用户积累了大量数据。其中结构化数据占大多数。ERP等各种系统产生的数据,也基本上都是结构化数据类型。然而最近几年,我们不难发现,半结构化数据和非结构化数据数量迅猛增长,尤其是半结构化数据的数量。

对此,武新认为:“今天的大数据概念里,从数据特征看,半结构化数据和非结构化数据的比重占到90%以上。半结构化数据,有类似文档这样的东西;非结构化数据以视频为主。针对这一类数据的处理,基于Hadoop的平台更为擅长。目前,我们Gbase 8a集群,已经将全文检索—一种半结构化数据处理技术,加入到其中去;在一步一步的朝处理半结构化、非结构化数据的方向发展。我们的目标,要做一个面向企业和行业,全数据处理产品和平台。未来我们的研发目标,将把非结构化数据的处理,做为首要任务。尽可能多的跟开源进行对接。因为在这个领域,开源已经有了很多非常优秀的内容。对接之后,以这两种技术的优势,为用户提供一个平台,全面处理各种类型数据。”

Hadoop 分布式计算平台以其在处理海量数据中的高可靠性、高扩展性等诸多优点,得到了大家的广泛认可和共识。Hadoop作为一个云计算平台,它的出现,解决了单个PC机计算能力薄弱的问题,可以同时在几百、几千个PC机上提供强大的计算能力。在企业中,作为一种ETL工具,在处理海量数据上,有着非常明显的优势。传统的数据库无法做到。在复杂的数据模型挖掘、预测模型的计算上,也占有霸主地位。但是,不可否认的是,在使用过程中,依然存在某些问题。这也是南大通在结合这样一个产品的同时,亟需解决的问题之一。

南大通用的的很多用户已经开始尝试使用Hadoop技术进行数据处理和进行一些项目实验。武新表示: “面对这样一个优秀的平台,我们所要做的有两点:第一,努力将Hadoop平台企业化。Hadoop企业化,就是要把Hadoop平台变成一款真正的产品,更加方便的供用户使用;未来几年或许能实现,但就目前而言还没有达到这样的成熟度。第二,解决技术更新和用户想要稳定环境之间的矛盾,为用户的稳定使用提供服务。”

坚持通用数据库发展,开始新技术应用实践

目前为止,国内行业大数据市场中,政府的金融、电信等行业的整个IT架构,还是建立在基于小型机的传统架构基础上;核心业务,依旧采用传统数据库模式。随着非结构和半结构数据的大规模增长,这一两年开始,一部分架构开始尝试基于分布式计算模型,例如Hadoop、MPP等技术的尝试。对于这一变化趋势,武新认为:“Hadopp、MPP等分布式计算模型在处理某些业务上的明显优势,促使金融、电信领域愿意去尝试这项技术。除此之外,在数据量上,无论是金融、电信还是政府部门,都在进行从TB到PB的级别迁升;数据量级上将迎来一个新的里程碑,所以对数据处理技术上的要求,也促使了他们投入分布式计算模型的应用的步伐。”

相关推荐