字节EB级数据湖构建，Hudi如何在众多引擎中脱颖而出？

管梓越 2021-09-04 14:04:00

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动构建EB级数据湖实践的分享。

接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。

一、场景需求

在推荐系统中，我们在两个场景下使用数据湖

我们使用BigTable作为整个系统近线处理的数据存储，这是一个公司自研的组件TBase，提供了BigTable的语义和搜索推荐广告场景下一些需求的抽象，并屏蔽底层存储的差异。为了更好的理解，这里可以把它直接看做一个HBase。在这过程中为了能够服务离线对数据的分析挖掘需求，需要将数据导出到离线存储中。在过去用户或是使用MR/Spark直接访问存储，或是通过扫库的方式获取数据，不符合OLAP场景下的数据访问特性。因此我们基于数据湖构建BigTable的CDC，提高数据时效，减少近线系统访问压力，提供高效的OLAP访问和用户友好的SQL消费方式。

除此之外，我们还在特征工程与模型训练的场景中使用数据湖。我们从内部和外部分别获得两类实时数据流，一个是来自系统内部回流的Instance，包含了推荐系统Serving时获得的Feature。另一种是来自端上埋点/多种复杂外部数据源的反馈，这类数据作为Label，和之前的feature共同组成了完整的机器学习样本。针对这个场景，我们需要实现一个基于主键的拼接操作，将Instance和Label Merge到一起。开窗范围可能长达数十天，千亿行量级。需要支持高效的列式选取和谓词下推。同时还需要支持并发Update等相关能力。

在这两个场景下存在如下挑战

二、设计选型

在引擎选型时，我们考察过Hudi，Iceberg，DeltaLake三个最热门的数据湖引擎。三者在我们的场景下各有优劣，最终基于Hudi对上下游生态的开放，对全局索引的支持，对若干存储逻辑提供了定制化的开发接口等原因，选择了Hudi作为存储引擎。

考察了索引类型，首先因为WAL不能每次都获取到数据的分区，所以必须要全局索引。在几种全局索引实现中，为了实现高性能的写入，HBase是唯一的选择。另外两种的实现决定了都和HBase在性能有本质上的差距。

在计算引擎上和API上，当时Hudi对Flink的支持还不是特别完善，所以选择了更为成熟的Spark，为了能灵活实现一些定制功能和逻辑，也因为DataFrame的API语义限制比较多，所以选择了更底层的RDD API。

三、功能支持

功能支持包括存储语义的MVCC和Schema注册系统。

1、MVCC

首先为了支持WAL语义的写入，我们实现了针对MVCC的Payload，基于Avro自定义了一套带时间戳的数据结构实现。并通过视图访问的方式对用户屏蔽了这套逻辑。除此之外还实现了HBase Append的语义，可以实现对List类型的追加写而非覆盖写。

2、Schema

由于Hudi本身的Schema从Write的数据中获取，这种方式和其他系统对接不是很方便，以及我们需要一些基于Schema的扩展功能，所以我们构建了一个元数据中心来提供元数据相关的操作。

并通过加入版本号的方法实现了Schema的多版本，有了版本号之后可以方便的使用Schema而不是把Json传来传去。有了多版本也可以实现Schema更灵活的演进。

Hudi的Spark Job在使用的时候会在JVM级别构建一个local cache并通过pull的方式和元数据中心同步数据，实现Schema的快速访问和进程内Schema的单例。

四、性能调优

在我们场景下性能挑战比较大，最大单表数据量达400PB+，日增PB级数据量，总数据量达EB级别，因此我们针对性能和数据特性开发做了一些工作来提高性能。

1、序列化

序列化方面包括如下优化

Schema：数据使用Avro序列化开销特别大，而且消耗资源也非常多。针对这个问题，我们首先借助Schema的JVM单例，规避了序列化过程中很多费CPU的比较操作。

借助了第三方的Avro序列化实现，通过将序列化过程编译成字节码的方式来提高SerDe的速度以及降低内存占用。对这种序列化形式做了修改，以保证我们的复杂Schema也能够正常编译。

2、Compaction

对于Compaction流程优化如下

Hudi除了默认的Inline/Async compaction选项之外，还支持Compaction的灵活部署。Compaction Job的作业特性和Ingestion作业其实有较大区别。在同一个Spark Application当中不仅不能针对性设置，也存在资源弹性不足的问题。我们首先构建了独立部署的脚本，让Compaction作业可以独立触发运行。使用了低成本的混部队列并可以针对此次Compaction的Plan做资源申请。除此之外还做了基于规则和启发式的Compaction Strategy，用户的需求通常是保证天级别或者小时级别的SLA，并针对性地压缩某些分区的数据，所以提供了针对性压缩的能力。

为了能缩短关键Compaction的时间，我们通常会提前做Compaction来避免所有工作都在一个Compaction Job中完成。但是如果一个Compact过的FileGroup又有新的Update，就不得不再次Compact。为了优化整体的效率，我们根据业务信息对一个FileGroup该在何时被压缩做了启发式的调度以减少额外的压缩损耗。该特性的具体收益还在评估中。