Uber 大数据程序库 Hudi，正式进入 Apache 软件基金会

panyingdao

2019-05-24

Hudi 于 2016 年以“Hoodie”为代号开发，旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月，Uber 向 Apache 孵化器提交了 Hudi，从而进一步推进了 Uber 的开源承诺，保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此，这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。

Hudi 于 2016 年以“Hoodie”为代号开发，旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处，Uber 在 2017 年开源了 Hudi。

2019 年 1 月，我们向Apache 孵化器提交了Hudi，从而进一步推进了我们的开源承诺，保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

Hudi 联合创始人 Vinoth Chandar 说：“考虑到 Uber 使用了这么多优秀的 Apache 项目，我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作，发展 Apache Hudi。我们期待与 Apache 软件基金会合作，实现最佳实践，并为项目带来新的想法。”

随着时间的推移，在大数据开源社区的帮助下，Hudi 已经发展成为一个通用的大数据存储系统，使得以下特性成为可能：

摄取和查询引擎之间的快照隔离，包括 Apache Hive、Presto 和 Apache Spark；
支持回滚和存储点，可以恢复数据集；
自动管理文件大小和布局，以优化查询性能和目录清单；
准实时摄取，为查询提供最新数据；
实时数据和列数据的异步压缩。

Hudi 目前管理着 4000 多个表，这些表在 Uber 上存储了几 PB 的数据，同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下，这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑，与该公司以前使用的解决方案相比，它的成本更低，效率更高。

展望未来，该项目将与 Apache 软件基金会合作。请查看Apache Hudi 项目页面以获得技术文档和社区参与指南。

查看英文原文：Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation

十年颠覆，Uber终于成功上市，这被认为是继Facebook、阿里巴巴之后最具价值的科技公司IPO之一，也是今年上市的硅谷“独角兽”中的一员。十年时间，Uber从亏损40亿到营收百亿美元，业务从美国到遍布五大洲，月活从0到9100万人次，支撑其快速成长背后的技术力量值得探寻。在过去10年，InfoQ对Uber的技术实力进行了全方位报道，本文是InfoQ出品的《Uber上市背后的技术力量》专题中的一篇文章，还有更多精彩内容，欢迎点击了解更多查看

Uber 大数据程序库 Hudi，正式进入 Apache 软件基金会

大数据软件 apache apache软件基金会

安科网

Uber 大数据程序库 Hudi，正式进入 Apache 软件基金会

panyingdao

panyingdao

相关推荐

详解Vue数据驱动原理

为什么Java仍将是未来的主流语言？

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

panyingdao