走近IBM企业内容管理之揭秘全新“软”实力
(接上文: 走近IBM企业内容管理之中国市场成长策略)
上篇文章我们介绍了IBM ECM在中国的市场成长策略,接下来要向大家介绍的便是在IBM的发展策略下ECM提供了怎样的产品和技术能力,在用户企业实践方面又有怎样的经验可以分享。IBM软件集团在此前的2012年策略发布会中曾提出智慧“软”实力的观点,并表示希望可以通过软件技术帮助企业实现成长和创新。作为IBM提出的“软”实力的重要组成部分,新版的企业内容管理(ECM)产品于5月31日在全球同步上市,他们分别是ICA(内容分析)、ICC(内容捕获采集)和ICN(文档、影像、社交内容管理)。
ICA (IBM Content Analytics)――内容分析
非结构化数据的爆炸式增长,使有价值的信息散落在各个“孤岛”。这些非结构化信息包括办公文档、视频影像与音频、HTML网页、电子邮件、文本、报表等等,这些信息通常被放在企业的数据库、文件系统、网站及门户等等IT系统中。来自IBM南加州ECM实验室的开发负责人Susan Chen女士认为,“企业运营中所使用的数据,80%以上是非结构的,它的增长率甚至是结构化数据的两倍。这些数据来自于每天拥有两千亿往来的电子邮件,再加上影像、办公文档、音视频文件等等,可见是海量数据。如果能够有效利用海量数据,我们便可以提早发现问题,提升对客户的服务,降低作业成本,能够发掘新的收益机会。”Susan Chen在5月31日――世界无烟日,IBM ECM用户大会上形象的例举了一个非结构化数据判断吸烟患病风险的例子,她谈到,“我们做了一个医疗界客户的POC(为观点提供证据),我们用ICA分析五千个病人的记录,其中一个项目是找病人抽烟的习惯判断他得心脏病的风险性。从有结构式的数据中,有35%的记录中找到了抽烟指标;在文本数据中从81%的数据找到抽烟指标,并且准确度高了很多。所以如果只对来源数据进行分析可能会错过一些很重要的洞察。” Susan Chen提到的ICA便是IBM ECM解决方案中的“主角”之一,IBM内容分析管理产品,全称IBM Content Analytics。
“企业内容分析的数据对象正在发生变化,从事务性的结构化数据转向交互性的非结构化数据已成趋势。”Susan Chen表示,ICA能够对异结构数据源进行企业级搜索以及文本分析。笔者了解到,ICA的工作原理是通过分析搜寻功能将捕获的数据输入UIMA管道(一个用于分析非结构化内容的组件架构),结合按照UIMA开放标准编写的注释器进行内容分析。生成后的数据会被添加至索引目录,然后用户可以根据ICA的分析结果界面进行有选择的信息发掘和获取结论,以作为准确的业务决策参考。ICA的搜索结果会是怎样的界面呢?如下图所示,这八个例子便是ICA分析结论的代表视图。
ICA搜索和分析功能概览(点击放大)
ICA提供三种系统配置方法满足不同数据的需要。“小数据比如说做POC的时候可以部署在单个工作站;如果是生产系统可以部署一到数个服务站;用大量数据的时候可以利用BigInsights做分析。”Susan Chen表示,“平时的工作中可以支持五千万到一亿的数据文档,ICA的第三版本提供了面向大数据的配置。ICA和BigInsights的集成架构,设计的重点是要把系统中最耗计算资源的部分,也就是文档处理前的准备、内容分析、建索引和全局分析,通过Hadoop、Map Reduce的模式分布在一群廉价的机器上,这群廉价的机器等于就是一个计算云。”
与BigInsights无缝集成的高扩展性(点击放大)
下图是一个亮点,这是ICA能够支持的30多种异构的数据源。根据Susan Chen介绍,这些数据源代表着150多种不同的表格。值得一提的是,这些数据源中除了支持IBM自己的产品之外,Oracle 11g、微软SQl Server、Sybase系列均在其中;包括EMC、CA Technologies等厂商的内容管理产品也可以成为被ICA捕获收集的数据源。这是怎样实现的呢?笔者有机会采访到了IBM软件集团行业解决方案ECM开发部项目总监 William Lobig先生,并获得了一些回答。
ICA支持的30多种异构数据源(点击放大)
ICC (IBM Content Collector)――内容捕获收集
以微软的企业级协同门户SharePoint作为数据源的例子来说,IBM的内容管理解决方案是通过怎样的技术实现了数据源捕获?这便涉及到IBM ECM的另一款产品ICC(内容捕获采集),William Lobig表示,“ECM方案中的ICC产品提供了这样的连接器,以模块化存在于ECM方案中。这样的Connect连接器,可以连接不同的数据源。具体的关于怎样采集和捕获SharePoint中的数据,如果要把它转化到IBM的ECM里面,可以利用一个指针一样的功能,当需要内容库的时候便可以调用SharePoint,这是按需求来做的。这是IBM自己的解决方案,只不过我们使用了微软公开的API。”下图为ICC最新3.0版的一些概括。
IBM Content Collector 3.0(点击放大)
ICN(IBM Content Navigator)――文档、影像、社交内容管理
ICN是IBM ECM解决方案中的另一款“主角”产品,IBM中国开发实验室ECM产品开发经理徐光新女士介绍说,“IBM Content Navigator是用JavaScript编写的外部客户端,它支持最新的HTML 5.0。它提供的是组建化的用户界面的设计,支持多个Web容器,有很强的可扩展能力,客户根据不同的应用场景对用户界面进行定制,也可以很方便地加入自己新的功能。”
ICN的主要应用场景是文档管理、影像管理和社交互动管理。徐光新谈到,“IBM Content Navigator通过API的调用可以发挥后端IBM存储库的企业级的管理能力,支持企业级的生产系统,比如影像管理系统或者客服系统;我们也加入了新功能支持团队协作和社交内容的协作。团队空间是一个非常典型的团队协作的使用场景,利用IBM Content Navigator用户可以方便的根据业务需求或者项目需求,用IBM Content Navigator建立自己的团队空间,可以在团队空间里定义不同的角色,支持基于角色的权限管理,也可以定义常用的文件夹、文档模板、搜索模板或者工作流,所有这些都不需要IT人员的参与和帮助。”
IBM Content Navigator目标使用场景(点击放大)
IBM Content Navigator的架构具备怎样的组成和特点?徐光新表示,“IBM Content Navigator作为通用的ECM客户端,主要目标是组件化可重用,有很强的客户化的能力,有灵活的扩展性。该架构最下面是不同的存储库,如OnDemand、FileNet内容平台等;再往上是中间服务层,这一层通过API的调用和各个存储库进行连接,同时提供了跨存储库的能力和服务,比如搜索的能力、文档察看能力;再向上是客户端的框架,遵循MVC架构,在模型层提供了JavaScript类库,它对一些常用的业务逻辑进行了封装,比如和存储库连接进行数据交换的逻辑,比如请求处理、或者桌面、团队空间、搜索、工作列表对这些常用业务逻辑进行了分装可以方便的复用;在模式层之上是viewer层,我们对一些常用的可用控件的提供了JavaScript的类库,一些常用可视控件包括查询的表单、目录树、工作列表等等,这些可视控件用来构建IBM Content Navigator的用户界面,用户可以构建自己的各种web应用。”
IBM Content Navigator架构图
徐光新女士谈到,“在模型层中ICN提供了Objective-c类库,用来支持IOS的客户端应用,并且在这个框架上也可以追加微软的一些客户端应用。在整个框架中,每个层面都提供了很多的扩展点,这为IBM合作伙伴的平台快速定制和开发客户端应用提供了便捷。”
IBM软件集团行业解决方案ECM开发部项目总监 William Lobig,在IBM ECM中国用户大会上展示了一版ECM新品发布路线图,这让我们能够看到IBM ECM在2012年的一些研发计划。详情如下图。
IBM ECM 2012发布路线图
中国市场中企业内控的契机
就像前篇文章中IBM软件集团解决方案部企业内容管理产品开发副总裁John Murphy提到的,最初ECM中的信息生命周期管理产品是针对美国市场的需求而研发,后来看到中国市场的成长与客户对信息管控的需求后ECM的方案才更多的面向中国的企业客户。中国自2009年颁布《企业内部控制基本规范》后,又于2010年又发布了相应的配套指引,一系列的对企业的规范要求应该是以法规遵从、规避运营及财务风险为主要目的,这便为上市公司及大型企业提出了对企业内容的管控约束,而中小型企业亦要参照执行。据笔者了解,以金融行业为例,企业需要将内容数据保留至少7年的时间,以备审查和管理所用。
这种对于企业内控管理的要求不仅仅是来自政府的推动,作为企业用户也会希望通过加强内控管理,提高工作效率,根据对企业运营内容的分析更好的做出业务决策。有需求便有了市场,面对这种契机,确实会吸引许多IT厂商的目光。John Murphy认为,“从数据和信息的生命周期管理来说,对于数据的保留来说,应该保留真正应该保留的数据。我们有能力和产品能够做到这一点,比如在我们的内容库里有这样一些内容,对数据来进行保留和控制的能力。在我们的内容库里增加所谓记录的保持,这种记录的保持又进一步加强了我们这方面的能力。比如说需要保留的内容里面,可能需要保留的时间更长一些,因为你需要这些数据和记录。现在有一些什么变化呢?因为过去更多的关注哪些东西是必须要保留的。目前在过去能力的基础上,我们又增加了一种能力,对于那些不需要的信息进行合理的处置。这里也满足了法规遵从的要求,就可以按照规范的要求比如什么时间或者为什么要把那些不需要的数据删除掉。我们认为这种能力是目前IBM公司独有的能力,可能再过两三年会有其他公司照搬我们的做法。”