Hudi_Uber 大数据存储系统

项目综述

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发，旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月，Uber 向 Apache 孵化器提交了 Hudi，从而进一步推进了 Uber 的开源承诺，保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。Hudi 目前管理着 4000 多个表，这些表在 Uber 上存储了几 PB 的数据，同时将 Apache Hadoop 仓库访

Hudi Uber 大数据存储系统项目简介

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发，旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月，Uber 向 Apache 孵化器提交了 Hudi，从而进一步推进了 Uber 的开源承诺，保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。Hudi 是一个通用的大数据存储系统，主要特性：摄取和查询引擎之间的快照隔离，包括 Apache Hive、Presto 和 Apache Spark；支持回滚和存储点，可以恢复数据集；自动管理文件大小和布局，以优化查询性能和目录清单；准实时摄取，为查询提供最新数据；实时数据和列数据的异步压缩。Hudi 目前管理着 4000 多个表，这些表在 Uber 上存储了几 PB 的数据，同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下，这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑，与该公司以前使用的解决方案相比，它的成本更低，效率更高。