官宣!ASF官方正式宣布Apache Hudi成为顶级项目

马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding。

Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Apache Hadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发(代号和发音为"Hoodie"),于2017年开源,并于2019年1月提交给Apache孵化器。

Apache Hudi项目VP Vinoth Chandar说:“在孵化器中学习和发展Apache之道是一种有益的体验,作为一个社区,我们对我们共同推动该项目走了多远依然感到谦卑,与此同时,对即将到来的挑战感到兴奋。”

Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或云存储上使用流处理原语(例如插入更新和增量更改流)来管理PB级数据湖。Hudi数据湖提供了新鲜的数据,比传统批处理效率高一个数量级。 核心功能包括:

  • 可插拔式的索引支持快速Upsert / Delete。
  • 事务提交/回滚数据。
  • 支持捕获Hudi表的变更进行流式处理。
  • 支持Apache Hive,Apache Spark,Apache Impala和Presto查询引擎。
  • 内置数据提取工具,支持Apache Kafka,Apache Sqoop和其他常见数据源。
  • 通过管理文件大小,存储布局来优化查询性能。
  • 基于行存快速提取模式,并支持异步压缩成列存格式。
  • 用于审计跟踪的时间轴元数据。

阿里巴巴集团、亚马逊AWS、EMIS Health、Linknovate、Tathastu.AI、腾讯和Uber等组织。都在使用Apache Hudi,https://hudi.apache.org/docs/powered_by.html 提供了使用Hudi的部分列表。

我们很高兴看到Apache Hudi毕业成为Apache顶级项目。Apache Hudi在Amazon EMR版本5.28和更高版本中受支持,并使拥有Amazon S3数据湖中数据的客户能够执行记录级的插入,更新和删除操作,以执行隐私法规,更改数据捕获(CDC)和简化的数据管道开发 ” AWS总经理Rahul Pathak说。 “我们期待与我们的客户和Apache Hudi社区合作,以帮助推进该项目。”

Apache Hudi项目管理委员会成员Nishith Agarwal说:“在Uber,Hudi近实时地管理地球上最大的交易数据湖之一,为全球用户提供有意义的体验,累计超过150 PB的数据和每天超过5,000亿条记录被提取,Uber的使用范围从关键业务工作流程到分析和机器学习。”

“使用Apache Hudi,用户可以轻松处理重读或重写的场景,并且Hudi使用Apache Parquet和Apache Avro管理存储在HDFS/COS/CHDFS上的基础数据。”腾讯云实时计算服务技术负责人Felix Zheng说道。

“随着云的基础设施越来越完善,用户的数据分析和计算方案逐步开始基于云上对象存储和计算资源构建数据湖平台。Hudi是一个很好的增量存储引擎,用开放的方式帮助用户管理好数据湖的数据,加速用户的计算和分析。”阿里云Data Lake Analytics - Lake Formation技术负责人李伟表示。

“Apache Hudi是Hopsworks Feature Store的关键模块,它提供了版本控制、增量和原子更新以及时间旅行查询等功能” Logical Clocks的CEO /联合创始人Jim Dowling说。“Hudi毕业成为Apache顶级项目,也是开源数据湖从早期的数据沼泽化身到现代支持ACID且可用于企业的数据平台。”

Uber工程平台高级总监Jennifer Anderson表示:“Hudi毕业成为Apache顶级项目是Hudi社区众多贡献者共同努力的结果。Hudi对于Uber大数据基础架构的性能和可伸缩性至关重要。我们很高兴看到它获得牵引力并实现了这一重要里程碑。”

Vinoth Chandar补充道:“到目前为止,Hudi已经开始在业界中就数据仓库和数据湖之间的巨大差距进行有意义的讨论。在Apache社区的帮助下我们连接起了其中一部分,但我们仅仅是从技术路线图着手。我们欢迎每位开发者做出更多贡献和合作以实现这一目标!”

可以访问https://github.com/apache/hudi,给出你的star & fork.

在2020年6月7日至12日举行的Virtual Berlin Buzzwords,MeetUps和其他活动中了解Apache Hudi。

可用性和监督

Apache Hudi是根据Apache License v2.0发布的,并且由该项目的积极参与者自选团队进行监督。项目管理委员会(PMC)指导项目的日常运营,包括社区开发和产品发布。 有关下载,文档以及参与Apache Hudi的方式,请访问http://hudi.apache.org/和https://twitter.com/apachehudi

关于Apache孵化器

Apache孵化器是希望成为Apache Software Foundation工作的一部分的项目和代码库的主要入口。外部组织和现有外部项目的所有代码捐赠均通过孵化器进入ASF,以:1)确保所有捐赠均符合ASF法律标准; 2)建立符合我们指导原则的新社区。 所有新接受的项目都需要进行孵化,直到进一步的审查表明基础架构,通信和决策过程已经以与其他成功的ASF项目一致的方式稳定下来。 虽然孵化状态不一定反映代码的完整性或稳定性,但确实表明该项目尚未得到ASF的完全认可。有关更多信息,请访问http://incubator.apache.org/

关于Apache软件基金会(ASF)

这家全志愿者基金会成立于1999年,负责监督350多个领先的开源项目,其中包括Apache HTTP Server(世界上最受欢迎的Web服务器软件)。通过ASF称为“ Apache之道”的精英流程,六大洲的813名个人会员和7800个提交者成功地合作开发了免费的企业级软件,使全球数百万用户受益:数千种软件解决方案在Apache下分发执照;社区积极参与ASF邮件列表,指导计划以及ApacheCon(基金会的官方用户会议,培训和博览会)。ASF是一家美国501(c)(3)慈善组织,由个人捐款和企业赞助商资助,其中包括Aetna,阿里云计算,亚马逊AWS,Anonymous,百度,彭博社,Budget Direct,Capital One,CarGurus。 Cerner,Cloudera,Comcast,Facebook,Google,Handshake,Huawei,IBM,Inspur,Leaseweb,Microsoft,Pineapple Fund,Red Hat,Target,腾讯,Union Investment,Verizon Media和Workday。有关更多信息,请访问http://apache.org/和https://twitter.com/TheASF

?Apache软件基金会。 “ Apache”,“ Hudi”,“ Apache Hudi”,“ Hadoop”,“ Apache Hadoop”和“ ApacheCon”是Apache软件基金会在美国和/或其他国家的注册商标或商标。所有其他品牌和商标均为其各自所有者的财产。