ASF官宣:ApacheHudi正式晋升为顶级项目
Apache软件基金会(ApacheSoftwareFoundation,ASF)于官网发文,正式宣布ApacheHudi晋升为Apache顶级项目(TLP)。
ApacheHudi(HadoopUpsertsDeleteandIncremental)数据湖技术可在ApacheHadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发(代号和发音为"Hoodie"),于2017年开源,并于2019年1月提交给Apache孵化器。
它的核心功能包括:
可插拔式的索引支持快速Upsert/Delete。
事务提交/回滚数据。
支持捕获Hudi表的变更进行流式处理。
支持ApacheHive、ApacheSpark、ApacheImpala和Presto查询引擎。
内置数据提取工具,支持ApacheKafka、ApacheSqoop和其他常见数据源。
通过管理文件大小,存储布局来优化查询性能。
基于行存快速提取模式,并支持异步压缩成列存格式。
用于审计跟踪的时间轴元数据。