独家 Strata + Hadoop新加坡站见闻(二)

2016-12-09 Tony Zhu THU数据派

独家 Strata + Hadoop新加坡站见闻(二)

近日,世界顶尖大数据峰会Strata+Hadoop World(SHW)在Suntec Singapore International Convention & Exhibition Centre召开。受到主办单位Cloudera邀请,小编有幸来到现场感受大会氛围。除了主题报告和演讲之外,SHW还提供了其他丰富多彩的交流活动。今天小编就带大家走近Exhibition Region,体会一把火热的会场和火热的大数据生态圈。

Exhibition Pavilion

独家 Strata + Hadoop新加坡站见闻(二)

企业展台历来是一道亮丽的风景,商业领域的各路英雄争奇斗艳大显神通,足以让看客目不暇接大呼过瘾。通常来说,主题报告更侧重技术分享和案例展示,而企业展台则是企业产品的直接呈现,更加注重观众的亲身体验,以及观众企业之间的双向交流。

一般企业布展除了展示成果之外,很大一个目的是推销产品,吸引潜在合作伙伴。不过SHW展区的氛围更像是一场技术交流,每个参展企业都为自己在高手林立的Hadoop生态圈下占有一席之地而无比自豪。小编觉得这恰恰体现了SHW的一种内在精神。会议主办方O’Reilly是著名的开源社区领袖,而Hadoop又是Apache基金会旗下一个开源项目,因此大会处处体现出分享、自由的精神就一点也不奇怪了。

下面请跟随小编的脚步,看看现场如何藏龙卧虎!

Fusionex

独家 Strata + Hadoop新加坡站见闻(二)

Fusionex是一家大数据服务商,专注于从具体场景中进行数据分析,帮助客户寻找商业和技术之间的价值点。按小编的理解,Fusionex的工作更多集中在应用层面。在现场演示中,工作人员展示了包括数据可视化、主题关联、数据提取等多种技术和应用,并介绍了Fusionex在工业故障预测中的应用案例。

Pentaho

独家 Strata + Hadoop新加坡站见闻(二)

Pentaho是一个以工作流为核心的、强调面向解决方案而非工具组件的BI套件。它整合了多个开源项目,目标是和商业BI(Business Intelligence商务智能)相抗衡。它偏向于与业务流程相结合的BI解决方案,侧重于大中型企业应用。它允许商业分析人员或开发人员创建报表,仪表盘,分析模型,商业规则和BI流程。工作人员在现场为大家讲述了日立Hitachi基于Pentaho所做的垂直数据分析尝试。

Hortonworks & MapR

独家 Strata + Hadoop新加坡站见闻(二)

昨天小编介绍了Cloudera和CDH,这里就不得不提到另外两家著名的公司Hortonworks和MapR,三者一直以来被认为是Hadoop发行版本的三面锦旗,推动大数据技术的三驾马车,其中Hortonworks更是把自家平台完全开放,深藏功与名。这里容小编八卦一下,熟悉Hadoop的同学都知道,Doug Cutting曾经加入过雅虎,Hadoop的诞生离不开雅虎网格计算团队的贡献,而Hortonworks正源自当年从雅虎剥离出来的Hadoop团队。

Teradata

独家 Strata + Hadoop新加坡站见闻(二)

Teradata是知名的专注于大数据分析、数据仓库和整合营销管理解决方案的供应商,它最为核心的产品是数据仓库,此外还有大数据探索平台Teradata Aster等。Teradata最新的统一数据构架(Teradata Unified Data Architecture,UDA)作为集成平台,整合了Teradata数据仓库、Aster以及Hadoop,打造出一个低成本,高性能的大数据分析平台。

Paxata

独家 Strata + Hadoop新加坡站见闻(二)

就像照片中Self-Service所描述的,Paxata提供了一个自服务数据准备平台,通俗来说就是帮助数据科学家干dirty work的好帮手。在数据服务领域,开始数据分析之前的抽取、处理和整合过程往往需要人工处理,耗时费力。Paxata主要解决的就是数据的连接、发掘、转换、合并、发布、协作控制等功能,为拥有庞大数据但是缺乏数据科学家的企业提供了一个易用的信息管理平台。

Informatica

独家 Strata + Hadoop新加坡站见闻(二)

Informatica是全球领先的独立企业数据集成软件提供商,借助Informatica的数据集成平台,企业可以在改进数据质量的同时,访问、发现、清洗、集成并交付数据,以提高运营效率并降低运营成本。Informatica平台可支持多项复杂的企业级数据集成计划,包括:企业数据集成、大数据、数据质量控制、主数据管理、B2B Data Exchange、应用程序信息生命周期管理、复杂事件处理、超级消息和云数据集成。

小编在现场询问过工作人员,从哪个角度可以概括Informatica最核心的产品和服务,工作人员表示应该是ETL(Extract-Transform-Load)。在分布式架构下处理海量数据,企业往往面临着数据在不同设备之间传输、不同平台之间传输、运算处理过程中的高效协同和容错,还要关注同步异步处理中数据的一致性等诸多困难,这些都是Informatica致力于为企业解决的问题。

Microsoft

独家 Strata + Hadoop新加坡站见闻(二)

最初看到Cortana这个名字小编真是万分惊讶,这不是win10上一个小助手应用吗?深入交流以后,小编才体会Cortana Intelligence Suite这个名字的深刻含义,也深深感到建立一套行业认可的Platform是一项十分远大的目标。微软展台两侧分别写着Machine Learning和Cognitive Service(以IBM Waston为代表的认知计算),两者代表着业内最能诠释“智能”一词的研究方向。而Cortana Intelligence Suite希望提供一套平台和解决方案,实现数据全生命周期从收集管理、到预测分析、再到实施行动的全过程,本次大会中微软所展示的产品和成果很多都能纳入到Cortana的宏伟蓝图下。

同时微软不满足于提供一套封闭的产品,而是选择开放API供企业和研究者二次开发。小编由此联想到Hadoop和阿里爸爸,选择封闭我们会得到一个盈利的产品,而开放平台却有可能赢得一整个生态圈,这恐怕也是开源社区和SHW大会所倡导的一种精神吧。

Dell EMC

独家 Strata + Hadoop新加坡站见闻(二)

EMC是世界著名的企业级数据存储设备及软件开发商,于2014年收购了神秘的创业公司DSSD,本身又在2015年被Dell收购,之后便诞生了这里的主角,2016年企业级存储领域的重要创新,Dell EMC最新的机架级共享式闪存阵列DSSD,它通过全新的存储架构实现更高性能的数据存储和传输,引起业界对全闪存数据中心的关注。说起来,移动存储领域就曾经发生过磁盘(Disk)向闪存(Flash)的迁移,历史真是惊人的相似啊。另外,本着务实而庸俗的人生态度,小编提出了一个重要的问题:How much is it ? 对此热心的工作人员送给小编一个意味深长的笑容作为回答~

NVIDIA

独家 Strata + Hadoop新加坡站见闻(二)

NVIDIA是全球知名的视觉计算技术和数字媒体处理器行业领袖,过去我们对NVIDIA的认识是一家显卡制造商,而现在小编更愿意称它为GPU的发明者以及Deep Learning盛世的奠基人之一。

众所周知Deep Learning是近年来计算机领域最新最火的研究方向,其实Deep Learning的理论缘起于几十年前就存在的神经网络,然而当时因为计算能力的限制,神经网络一度陷入低谷。无心插柳柳成荫,深度机器学习是一个大规模并行计算的过程,而NVIDIA所擅长的图形处理具有非常强的并行计算能力(区别于CPU为代表的串行计算),因此GPU的出现以及NVIDIA后来推出的通用并行计算架构CUDA使得理论上早已具备无限潜能的神经网络/深度学习终于具备了实现基础。图中工作人员手持的是NVIDIA 6月推出的Tesla P100加速卡,代表着当前世界高性能计算的巅峰水平。

一点感想

回顾各个企业的最新成果,小编想说大数据产业真是一个非常宏伟的生态系统,其兴起其蓬勃离不开产业链上下游不同角色的通力协作。这之中,硬件厂商的基础设施提供了海量数据存储管理操作的物质基础,基础架构和平台的研究衔接了底层数据的管理和具体业务场景的开发,专业的数据管理公司为企业海量数据的操作运维提供了成熟的解决方案,针对商业场景的预测分析和商务智能服务则最终实现了数据到决策收益的价值转化。

相对而言,高校研究由于理论创新的需要以及基础设施的局限,往往把数据研究集中在应用分析层面(比如机器学习的理论和应用)。小编认为这之中如果可以建立更加深度的校企合作,由企业提供基础设施和历史数据,高校提供研究力量,一定可以为产业发展带来新的活力!

作者:Tony Zhu