京东EB级全域大数据平台的演进与治理历程

包勇军 2020-11-19 14:09:32

本文根据包勇军老师在〖2020 DAMS中国数据智能管理峰会〗现场演讲内容整理而成。

 

(点击文末“阅读原文”可获取完整PPT)

 

 

讲师介绍

包勇军,目前在京东任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员、京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发、AI算法平台建设、AI算法在广告系统中的研发和应用,推荐策略、数据和推荐系统的研发工作。数据系统和算法等领域专家,精通数据算法和平台技术在电商业务数字化中的落地应用,对大数据底层架构设计及平台建设有丰富的实战经验。

 

大家好,我是来自京东的包勇军,今天主要跟大家分享一下京东全域大数据平台的建设历程。在分享前,我想先重申一下数据的价值。

 

一、数据的价值

 

The Economist(经济学人期刊),2017年,5月版

 

众所周知,数据正如石油一样深刻改变着我们的信息化社会,为整个行业,更为我们的社会创造了越来越大的价值。

 

左图为公开资料:Forrester发布《数据中台2019年行业分析报告发布》;右图为公开资料整理

 

上图有两个直观的展示:

 

  • 左边是引自Forrester报告里的一句很直观的陈述,“通过数据洞察驱动业务发展,我们的领先者,比落后者在竞争优势上能够维持2.4倍加速度”;

  • 右边很直观的展示了全球市值前十大公司近30年来的一个变化。可以看到最近十年来,在全球市值前十公司中,科技公司已经占了绝大多数。

 

从数据角度来看,大部分的这类科技公司都是通过生产、加工、消费和重构数据的循环来提升商业价值,这是他们的一个共同本质。

 

国内大数据行业趋势
 

 

来源于:公开资料整理

 

从宏观政策角度来看,近些年来我国的大数据相关政策也相继出台。政府连续六年把大数据写入政府工作报告,市场预测在2023年大数据直接相关产业将达到1.57万亿的规模,而间接关联行业也已经深入到各行各业的日常生活消费当中。可以看出,我们的所有企业,包括传统企业都在做深刻数字化转型。

 

二、行业大数据平台现状

 

1、行业大数据平台发展阶段
 

 

来源于:公开资料整理

 

从一个技术人的角度看,我们认为大数据平台在应对整个行业诉求方面当前还处在一个探索期,还在起步的阶段。

 

数据中台的概念逐步受到市场关注,但是数据平台在企业的成功应用案例仍然局限在头部互联网企业,以及相关的创新型企业,但我们希望达到的目标是将数据中台打造成行业内所有企业的一个标配的基础能力。

 

2、行业大数据平台架构
 

 

距离数据平台建立一个统一的行业标准、统一的监管规范仍然有相当长的路需要去走。这是一个大数据平台架构简图:

 

来源于公开资料整理

 

从这个架构图可以看到:

 

  • 整个大数据生态是非常复杂的,里面涉及非常多元、多样的产品技术;

  • 数据平台技术处于高速发展阶段,以及整个行业在每年都会涌现大量的新鲜产品和技术。

 

这两个特点为诸多企业建立标准统一的大数据平台和进行数字化转型带来了很高的技术门槛,同时技术路线的不清晰也隐藏各种决策的风险。

 

3、行业大数据平台建设的挑战
 

 

我们认为建设行业大数据平台面临着诸多的问题:

 

 

我们也从京东的大数据实践中提炼了一些核心点,希望对大家有所帮助:

 

  • 随着数据规模快速增加,想要通过简单堆砌物理资源的方式,会让投资的边际效益越来越低;

  • 同时随着市场竞争格局加剧,传统规则化的数据分析方式已经无法满足更精准的业务数据挖掘诉求;

  • 在后疫情时代,新基建激发了大量对数据的诉求,然而互联网企业所积累的数字化转型经验想要在其他相关行业落地推广,还需要继续探索。

 

三、京东全域大数据平台的建设历程

 

结合前面提出的一些核心问题,下面我来分享一下京东在大数据平台建设中的一些历程和心得。

 

1、京东大数据平台的整体情况
 

 

 

从总体规模上来看,平台的集群服务器已经在数万规模,日计算任务数在数百万级别,总存储达到EB级别。

 

 

从业务赋能角度上看,平台面向京东全部业务场景,支撑了包括京东主站电商业务、金融业务、京东物流、京东健康等诸多复杂业务场景。

 

2、京东大数据平台建设历程
 

 

为达到以上这两个效果,实际上我们整个平台经历了很长的建设和发展历程。这个历程包括了五个阶段:

 

 

1)规模化阶段

 

 

规模化解决了京东业务急剧增长带来的挑战。随着业务增长,数据急剧膨胀,无论是堆机器还是人力,都无法满足高速增长的业务需求,也无法有效保障如此大规模平台的稳定性。

 

想要解决这个问题还需要回到问题本身。京东的实践表明,随着平台体量增加,业界开源社区流行的一些开箱既用技术,需要进行深度定制和创新性改造,才能有效支撑海量数据规模的需求。

 

所以我们在这方面做了一些系统性的工作。

 

① 高效的计算存储引擎

 

 

  • 首先我们完成了技术栈的计算存储分离升级,依托数据中心网络技术的提升,减弱对计算本地性的依赖,打散存储热点,提高计算稳定性;

  • 同时定制存储与计算优化机型,独立进行容量规划,大幅降低IT资源成本。在存储上实现了稳定的万台规模HDFS集群,并在其上全面落地了纠删码技术,实现高效高压缩比的大数据存储;

  • 再在计算上进行了跨层的优化,从调度层、引擎层和应用层分别进行了深度的改进;

  • 最后通过全生命周期管理保障平台的存储计算能力持续处于健康状态。

 

 ② 自动化运营管理系统

 

除了底层引擎核心能力以外,我们还需要建设上层的自动化运维和管理系统。这不仅涵盖了对服务器资产的运维运营、资源治理和规划,还包括了对整个数据资产的盘点和收益分析。

 

 

我们也希望通过自动化运维,通过系统化管理解决平台规模化、平台可靠性和平台可用性问题,高效支持业务快速布局和起量。

 

2)体系化阶段

 

 ① 业务快速并行发展带来的挑战

 

随着主营业务的逐渐成熟,新兴业务也快速发展并对数据平台带来新的挑战:

 

  • 新业态野蛮生长,让管理成本急剧增加,如何破局是一个无法绕开的难题;

  • 数据烟囱:重复建设,缺乏链接,无法形成合力;

  • 数据腐化:随着时间流逝,数据价值流失;

  • 缺乏治理:高价值数据甄别难;

  • 来源繁杂:结构化、非结构化数据、多种异构数据源;

  • 业务复杂:需求扩张速度与应接能力矛盾。

 

 ② 数据中台的核心目标

 

 

我们从金融业务,物流业务,电商业务,保险业务、健康业务等不同业务的特点和需求出发,逐步构建成标准化、可管理、可维护、可理解、可复制、一站式、体系化的数据中台,解决了前面提到的业务复杂、数据异构、烟囱化开发、建设成本高等问题。

 

通过数据层面全链路的规范、盘点、治理,以及平台工具层面业务标准化支撑,打造出京东全集团体系化数据中台。

 

总而言之,体系化是数据中台的核心目标之一,覆盖了数据从生产、计算、存储、消费的全生命周期,为数据价值的高效发挥提供了坚实基础。

 

基于体系化建设的经验,我们也沉淀和打磨各项数据能力,提炼出一系列的产品化解决方案。这种体系化建设的方法论和实践经验,让我们在业务快速布局、快速发展的阶段中,能够使数据非常高效的输入到决策引擎,形成快速的商业决策。

 

3)实时化阶段

 

随着数据规模扩张,业务数据决策体系化标准和理念越来越为大家所接受,整个业务发展也越来越快,对应的数据应用诉求也越来越多。这也对整个数据平台的实时化能力提出了更高的要求。

 

 ① 速度是永恒的诉求,快速响应市场变化

 

 

实时数据处理中,高吞吐低延迟指标是一个永恒的诉求。

 

如何基于海量数据支撑业务的秒级决策,在竞争日益激烈的市场环境下,快速响应市场的变化,赢得竞争优势。这对实时化能力提出很高的挑战,促使我们对系统进行实时化改造。

 

由于电商行业的特点,我们还面临着618,双11大促洪峰的压力。那么如何在大促场景下保障系统的高可用和高性能,同时保证日常情况下实现资源的高效利用,是我们面临的一项独特挑战。

 

加之整个公司业态众多,各业务线人员技术背景参差不齐,而我们希望新兴技术能够在各个业务团队快速推广,从而使其可以将更多精力投入业务探索、创新上面。这对实时数据开发的易用性也提出了挑战。

 

 ② Easy Realtime实时计算平台

 

针对实时化的这些挑战,我们制定了一个端到端的一站式解决方案:打造Easy Realtime实时计算平台。

 

 

首先,这是一个高可用系统。一方面,我们在任务调度、数据分发、状态恢复等方面进行了深度定制优化,大幅提升了系统鲁棒性,也经历了多次大促洪峰的考验;另一方面我们落地了基于容器的云原生弹性资源调度,打造了全自研的自愈框架,实现自动化自适应的故障恢复能力,能有效的保障系统和平台的稳定性。

 

其次,Easy Realtime平台是企业级应用平台,集成了一站式云代码开发,并直接对接云原生实时计算平台。

 

平台的建设目标是让没有任何代码开发能力的一线业务同事,例如京东的采销同事,甚至是ISV代理,经过短时间培训,能够具备SQL能力、快速上手,自主实现业务决策开发。

 

4)智能化阶段

 

该阶段是对数据的深度理解,这是业务再增长的一个动力源。

 

 

我们希望通过智能化改造,打造以高效精准业务决策为目标的数据化智能服务。同时希望通过智能化改造,把我们以统计分析为主的大数据平台,升级到以数据智能化、数据精准化、数据深度化理解的一个数据算法综合型平台。

 

通过这样一个平台,希望能够对数据进行一个全新的理解,深层次的加工,从而挖掘更多、更全面、更精准的信息,帮助我们业务方能够在市场竞争环境下获得更大的技术优势。

 

 ① 智能化转型面临的挑战

 

京东大数据平台智能化转型面临以下三个特殊挑战:

 

  • 大数据下的大规模机器学习算力挑战:如何让整个大数据的算力与算法能高效结合?具体来说,在大数据背景下实现工业级的超大规模机器学习平台算力本身就是一个大的挑战;

  • 数据安全背景下的跨业务实体数据融合分析:随着数据安全的政策、法规和理念越来越被重视,而且在数据安全背景下,如何对跨业务实体的数据做融合算法分析,以此帮助我们的业务团队获得更多的数据和竞争优势,也是一个新兴的挑战。为此我们研发了联邦学习数据交换平台,为京东生态合作提供数据交换安全屋(避难所);

  • 数据多模态的大量涌现,组织越来越复杂,应用越来越灵活:基于此我们打造出伽利略图计算框架,能够支持复杂关系的数据分析,轻松支持数十亿级别图数据的复杂关联计算,为整个多模态数据提供一个高效存储和计算平台。

 

 ② 九数(9N)商业分析和业务智能化平台

 

九数商业分析和业务智能化分析平台的架构图

 

平台里有几个核心的算法引擎,包括9N-FL联邦学习引擎。支撑这些引擎的基础是面向整个算法领域的云化资源管理系统,它与面向数据的管理系统无缝集成,形成一站式的数据算法解决方案,最终赋能京东的零售业务、健康业务、金融业务等, 推动业务的高速发展。

 

以京东广告业务为典型案例,

 

  • 九数平台研发推动了整个广告从规则化到数字智能化转型,推进了整个京东无人投放广告的研发工作;

  • 目前无人投放广告已经成为京东广告的最核心收入来源,而智能化平台转型是其中最大的一个系统助力因素;

  • 我们也在积极的推动开源, 以回馈社区。现在九数联邦学习平台已经开源,伽利略图计算引擎计划在年底开源,平台整体开源也在筹备当中。

 

5)商业化阶段

 

京东全域大数据平台架构Easy JData

 

基于以上四个阶段的发展,我们最终打造出依托于实际业务支撑经验的,可同时支持多领域应用(零售、物流、金融、健康等)的全域大数据平台。它包含的系统、工具、产品和方法论,与业内主流数据中台也有一定的共通之处。

 

在建设过程中遇到的挑战,也在前面给大家一一介绍过。在当下政企数字化转型如火如荼的关口,京东的这些经验最终将沉淀出相应的技术产品或工具,并能够走出去,助力行业发展。

 

四、未来发展方向

 

 

让我们来一起畅想下全域数据平台的发展方向,希望伴随业务的发展,我们能够持续修炼技术内功,加强技术升级,实现云原生的智能数据平台。同时能深化和落实Deep AI的概念,加速业务深度赋能。最后希望能将京东经验回馈整个行业,以PaaS化、SaaS化为抓手,与合作伙伴协作共赢,建设健康可持续的大数据商业生态。

↓点这里可下载本文PPT,提取码:dnm1
阅读原文

最新评论
访客 2023年08月20日

230721

访客 2023年08月16日

1、导入Mongo Monitor监控工具表结构(mongo_monitor…

访客 2023年08月04日

上面提到: 在问题描述的架构图中我们可以看到,Click…

访客 2023年07月19日

PMM不香吗?

访客 2023年06月20日

如今看都很棒

活动预告