滴滴数仓指标体系建设方法论和搭建实践

曹雷 2020-09-10 09:38:34

​作者介绍

曹雷,滴滴高级专家工程师,专注数据仓库体系化建设,产品化数仓理念推广及实践者

 

一、什么是指标体系

 

1、指标体系定义
 

 

指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。

 

指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。

 

指标主要分为结果型和过程型:

 

  • 结果型指标:用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足;

  • 过程型指标:用户在做某个动作时候所产生的指标,可以通过某些运营策略来影响这个过程指标,从而影响最终的结果,过程型指标更加关注用户的需求为什么被满足或没被满足。

 

体系是由不同的维度组成,而维度是指用户观察、思考与表述某事物的“思维角度”,维度是指标体系的核心,没有维度,单纯说指标是没有任何意义的。

 

维度主要分为定性维度和定量维度:

 

  • 定性维度,主要是偏文字描述类如城市、性别、职业等;

  • 定量维度,主要是数值类描述如收入、年龄等,对定量维度需要做数值分组处理。

 

2、指标体系生命周期
 

 

 

生命周期主要包含定义、生产、消费、下线四个阶段。针对整个生命周期要持续做指标运维、质量保障,同时为了提高指标数据复用度,降低用户使用成本需要做对应的数据运营工作。

 

3、综合使用场景
 

 

指标体系主要是结合用户的业务场景来进行使用,多个不同的指标和维度可以组合起来进行业务的综合分析。

 

用户可通过指标的变化看到整体业务的变化,并能够快速发现问题、定位问题。

 

常用的场景一种是决策分析的场景,通过数据看清业务现状进行战略决策支持,另一种是运营分析场景,无论是做用户运营、产品运营还是活动运营都需要各类指标数据的支撑去看清问题、分析问题和指导解决问题。

 

二、为什么搭建指标体系

 

  • 衡量业务发展质量:指标体系可以反映业务客观事实,看清业务发展现状,通过指标对业务质量进行衡量,把控业务发展情况,针对发现的业务问题聚焦解决,促进业务有序增长;

  • 建立指标因果关系:主要明确结果型指标和过程型指标关系,通过结果指标回溯过程指标,找到解决问题的核心原因;

  • 指导用户分析工作:目的建立产品评估体系、活动效果评估体系、智能运营分析体系;

  • 指导基础数据建设:明确基础数据建设方向,集中资源,避免过程和结果分析指标数据的遗漏或缺失;

  • 指导内容产品建设:结合用户的业务场景来进行使用,多个不同的指标和维度可以组合起来进行业务的综合分析,用户可通过指标的变化看到整体业务的变化,并能够快速发现问题、定位问题;

  • 统一指标消费口径:企业内统一关键指标业务口径及计算口径,统一企业业务目标,实现自上而下目标驱动。

 

三、如何搭建指标体系

 

指标体系建设的常用方法是:通过场景化进行指标体系的搭建,以用户的视角场景化思考,自上而下业务驱动指标体系建设。

 

所以要在特定场景下做好指标体系建设,需要先选好指标,然后用科学的方法搭建指标体系。

 

1、科学方法选指标
 

 

选指标常用方法是指标分级方法OSM模型

 

1)指标分级方法

 

指标分级主要是指标内容纵向的思考,根据企业战略目标、组织及业务过程进行自上而下的指标分级,对指标进行层层剖析,主要分为三级T1、T2、T3。

 

  • T1指标:公司战略层面指标

 

用于衡量公司整体目标达成情况的指标,主要是决策类指标,T1指标使用通常服务于公司战略决策层。

 

  • T2指标:业务策略层面指标

 

为达成T1指标的目标,公司会对目标拆解到业务线或事业群,并有针对性做出一系列运营策略,T2指标通常反映的是策略结果属于支持性指标同时也是业务线或事业群的核心指标。T2指标是T1指标的纵向的路径拆解,便于T1指标的问题定位,T2指标使用通常服务业务线或事业群。

 

  • T3指标:业务执行层面指标

 

T3指标是对T2指标的拆解,用于定位T2指标的问题。T3指标通常也是业务过程中最多的指标。根据各职能部门目标的不同,其关注的指标也各有差异。T3指标的使用通常可以指导一线运营或分析人员开展工作,内容偏过程性指标,可以快速引导一线人员做出相应的动作。

 

例如:成交率的指标分级

 

 

2)OSM模型

 

OSM模型(Obejective,Strategy,Measurement)是指标体系建设过程中辅助确定核心的重要方法,包含业务目标、业务策略、业务度量,是指标内容横向的思考。

 

  • O:用户使用产品的目标是什么?产品满足了用户的什么需求?主要从用户视角和业务视角确定目标,原则是切实可行、易理解、可干预、正向有益;

  • S:为了达成上述目标我采取的策略是什么?

  • M:这些策略随之带来的数据指标变化有哪些?

 

以滴滴网约车为例,按照OSM模型,它的指标是什么样的?

 

O:用户来使用滴滴这个产品,需求和目标是什么?

 

  • 用户需求及目标是便捷、快速打到车,安全到达目的地。

 

那如何让用户感受到自己的需求被满足了呢?

 

S:滴滴做的策略是:

 

  • 便捷方面,提供了独立APP版本、小程序版本,还可以多渠道打到车,例如在高德、微信、支付宝都有打车入口;起始、目的地地图智能精准定位;最优路线选择等;

  • 快速方面,针对不同人群不同诉求提供了多品类产品选择,例如快车、优享、拼车、出租车等业务,根据早晚高峰提高热点区域运力,减少用户排队时间;

  • 安全方面,司机准入机制,司机合规机制,司机画像。

 

M:我们需要针对这些策略去做指标,在这里面我们的指标分别是结果指标和过程指标:

 

  • 结果指标:渠道转化完成率、乘客取消率、供需比、司机服务分;

  • 过程指标:渠道发单数、渠道完单数、排队乘客数、乘客排队时长、司机好评率、司机接单量、司机取消数等。

 

指标选取之后,下面就是最重要的分析维度选择了。前面指标体系定义里讲过维度是指标体系的核心,没有维度,单纯说指标是没有任何意义的。

 

所以维度选择层面主要通过数据分析视角结合实际分析业务场景来确定。例如城市维度、商圈维度、渠道维度、时间维度、用户标签维度等。

 

2、用分析模型搭建指标体系
 

 

在《精益数据分析》一书中给出了两套比较常用的指标体系建设方法论,其中一个就是比较有名的海盗指标法,也就是我们经常听到的AARRR海盗模型。

 

海盗模型是用户分析的经典模型,它反映了增长是系统性地贯穿于用户生命周期各个阶段的:用户拉新(Acquisition)、用户激活(Activation)、用户留存(Retention)、商业变现(Revenue)、用户推荐(Referral)。

 

AARRR模型

 

  • A拉新:通过各种推广渠道,以各种方式获取目标用户,并对各种营销渠道的效果评估,不断优化投入策略,降低获客成本。涉及关键指标例如新增注册用户数、激活率、注册转化率、新客留存率、下载量、安装量等;

  • A活跃:活跃用户指真正开始使用了产品提供的价值,我们需要掌握用户的行为数据,监控产品健康程度。这个模块主要反映用户进入产品的行为表现,是产品体验的核心所在。涉及关键指标例如DAU/MAU 、日均使用时长、启动APP时长、启动APP次数等;

  • R留存:衡量用户粘性和质量的指标。涉及关键指标例如留存率、流失率等;

  • R变现:主要用来衡量产品商业价值。涉及关键指标例如生命周期价值(LTV)、客单价、GMV等;

  • R推荐:衡量用户自传播程度和口碑情况。涉及关键指标例如邀请率、裂变系数等。

 

可以根据实际业务场景,结合使用OSM和AARRR模型,来系统性的选择不同阶段所需要的核心数据指标。

 

 

3、场景化搭建指标体系
 

 

目前阶段互联网业务比较流行的一种通用抽象场景“人、货、场”,实际就是我们日常所说的用户、产品、场景,在通俗点讲就是谁在什么场景下使用了什么产品,不同的商业模式会有不同的组合模式。

 

以滴滴实际场景为例:哪些场景(此处场景定义为终端,如Native,微信,支付宝)的什么人(乘客)在平台上使用了哪些货(平台业务线,如快车/专车等),进而为评估用户增长的价值和效果。

 

1)“人”的视角

 

从“人”的视角,我们比较关心的是什么乘客在什么时间打的车,排了多长时间,等了多长时间上车,周期内第几次打车,打车花了多少钱,是否有投诉和取消行为等。

 

具体到数据指标主要看发单用户数、完单用户数、客单价、周期内完单订单数、取消订单数、评价订单数等。

 

 

2)“货”的视角

 

从“货”的视角,我们比较关心的就是成交了多少,交易额多少,花了多少,到具体数据指标主要会看GMV、成交率、取消率指标等等。

 

在进一步会细分到城市、区域,一级品类、二级品类。数据的效果通过目标对比,横向对比、历史比较等方式进行分析确定。

 

 

3)“场”的视角

 

从“场”的视角,我们比较关心的就是哪个渠道用户点击量大曝光率大,带来了多少新用户,完成多少交易订单,客单价是多少;

 

或者是哪个活动拉新或促活效果怎么样转化率多少,结合场景数据实际情况制定对应策略。

 

 

以上分别从“人”、“货”、“场”三个角度进行了数据指标和分析维度的提炼,下面我们把三类指标结合指标分级方法进行分解关联。

 

 

四、怎么管理指标体系

 

1、痛点分析
 

 

主要从业务、技术、产品三个视角来看:

 

  • 业务视角

 

  • 业务分析场景指标、维度不明确;

  • 频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;

  • 用户分析具体业务问题找数据、核对确认数据成本较高。

 

  • 技术视角

 

  • 指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;

  • 指标生产,重复建设;数据汇算成本较高;

  • 指标消费,数据出口不统一,重复输出,输出口径不一致;

 
  • 产品视角缺乏系统产品化支持从生产到消费数据流没有系统产品层面打通。

 

2、管理目标
 

 

  • 技术目标: 统一指标和维度管理,指标命名、计算口径、统计来源唯一,  维度定义规范、维度值一致;

  • 业务目标统一数据出口、场景化覆盖;

  • 产品目标指标体系管理工具产品化落地;指标体系内容产品化落地支持决策、分析、运营例如决策北极星、智能运营分析产品等。

 

3、模型架构
 

 

 

1)业务线

 

业务板块定义原则:业务逻辑层面进行抽象、物理组织架构层面进行细分,可根据实际业务情况进行层级分拆细化,层级分级建议进行最多进行三级分拆,一级细分可公司层面统一规范确定,二级及后续拆分可根据业务线实际业务进行拆分。

 

例如滴滴出行领域业务逻辑层面两轮车和四轮车都属于出行领域可抽象出行业务板块(level一级),根据物理组织架构层面在进行细分普惠、网约车、出租车、顺风车(level二级),后续根据实际业务需求可在细分,网约车可细分独乘、合乘,普惠可细分单车、企业级。

 

2)规范定义

 

  • 数据域指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一个个不拆分的行为事件,在业务过程之下,可以定义指标;维度,是度量的环境,如乘客呼单事件,呼单类型是维度。为了保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护更新的,变动需执行变更流程;

  • 业务过程指公司的业务活动事件,如,呼单、支付都是业务过程。其中,业务过程不可拆分;

  • 时间周期用来明确统计的时间范围或者时间点,如最近30天、自然周、截止当日等;

  • 修饰类型是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖APP端、PC端等修饰词;

  • 修饰词指的是统计维度以外指标的业务场景限定抽象,修饰词属于一种修饰类型,如在日志域的访问终端类型下,有修饰词APP、PC端等;

  • 度量/原子指标原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如支付金额;

  • 维度维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、月、周、日等级别内容);

  • 维度属性维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等都属于维度属性;

  • 指标分类主要分为原子指标、派生指标、衍生指标;

  • 原子指标基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如呼单量、交易金额;

  • 派生指标是1个原子指标+多个修饰词(可选)+时间周期,是原子指标业务统计范围的圈定。派生指标又分以下二种类型:

  • 事务型指标是指对业务过程进行衡量的指标。例如,呼单量、订单支付金额,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标;

  • 存量型指标是指对实体对象(如司机、乘客)某些状态的统计,例如注册司机总数、注册乘客总数,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截止当前某个时间”;

  • 衍生指标是在事务性指标和存量型指标的基础上复合成的。主要有比率型、比例型、统计型均值 。

 

3)模型设计

 

主要采用维度建模方法进行构建,基础业务明细事实表主要存储维度属性集合和度量/原子指标;分析业务汇总事实表按照指标类别(去重指标、非去重指标)分类存储,非去重指标汇总事实表存储统计维度集合、原子指标或派生指标,去重指标汇总事实表只存储分析实体统计标签集合。

 

指标体系在数仓物理实现层面主要是结合数仓模型分层架构进行指导建设,滴滴的指标数据主要存储在DWM层,作为指标的核心管理层。

 

 

4、指标体系元数据管理
 

 

1)维度管理

 

包括基础信息和技术信息,由不同角色进行维护管理。

 

  • 基础信息:对应维度的业务信息,由业务管理人员、数据产品或BI分析师维护,主要包括维度名称、业务定义、业务分类;

  • 技术信息:对应维度的数据信息,由数据研发维护,主要包括是否有维表(是枚举维度还是有独立的物理维表)、是否是日期维、对应code英文名称和中文名称、对应name英文名称和中文名称。如果维度有维度物理表,则需要和对应的维度物理表绑定,设置code和name对应的字段。如果维度是枚举维,则需要填写对应的code和name。维度的统一管理,有利于以后数据表的标准化,也便于用户的查询使用。

 

 

2)指标管理

 

包括基础信息、技术信息和衍生信息,由不同角色进行维护管理。 

 

  • 基础信息:对应指标的业务信息,由业务管理人员、数据产品或BI分析师维护,主要包括归属信息(业务板块、数据域、业务过程),基本信息(指标名称、指标英文名称、指标定义、统计算法说明、指标类型(去重、非去重)),业务场景信息(分析维度,场景描述);

  • 技术信息:对应指标的物理模型信息,由数据研发进行维护,主要包括对应物理表及字段信息;

  • 衍生信息:对应关联派生或衍生指标信息、关联数据应用和业务场景信息,便于用户查询指标被哪些其它指标和数据应用使用,提供指标血缘分析追查数据来源的能力。

 

原子指标定义归属信息 + 基本信息 + 业务场景信息;

 

派生指标定义时间周期 + 修饰词集合 + 原子指标;

 

修饰类型主要包含类型说明、统计算法说明、数据源(可选)。

 

5、指标体系建设流程
 

 

1)建模流程

 

建模流程主要是从业务视角指导工程师对需求场景涉及的指标进行主题抽象,归类,统一业务术语,减少沟通成本,同时避免后续的指标重复建设。

 

 

分析数据体系是模型架构中汇总事实表的物理集合,业务逻辑层面根据业务分析对象或场景进行指标体系抽象沉淀。滴滴出行主要是根据分析对象进行主题抽象的,例如司机主题、安全主题、体验主题、城市主题等。指标分类主要是根据实际业务过程进行抽象分类,例如司机交易类指标、司机注册类指标、司机增长类指标等。

 

基础数据体系是模型架构中明细事实表和基础维度表的物理集合,业务逻辑层面根据实际业务场景进行抽象例如司机合规、乘客注册等,还原业务核心业务过程。

 

2)开发流程

 

 

 

开发流程是从技术视角指导工程师进行指标体系生产、运维及质量管控,也是数据产品或数据分析师和数仓研发沟通协调的桥梁。

 

6、指标体系图谱建设
 

 

1)指标体系图谱概述

 

指标体系图谱也可称为数据分析图谱主要是依据实际业务场景抽象业务分析实体,整合梳理实体涉及的业务分类、分析指标和维度的集合。

 

建设方法:

 

主要是通过业务思维、用户视角去构建,把业务和数据紧密关联起来,把指标结构化分类组织。

 

建设目的:

 

  • 对于用户便于用户能够快速定位所需指标和维度,同时通过业务场景化沉淀指标体系,能够快速触达用户数据诉求;

  • 对于研发利于后续指标生产模型设计、数据内容边界化、数据体系建设迭代量化和数据资产的落地。

  

2)指标体系图谱模型

 

 

 

3)指标体系图谱实例

 

 

五、指标体系产品化

 

 

指标体系涉及的产品集主要是依据其生命周期进行相应建设,通过产品工具打通数据流,实现指标体系统一化、自动化、规范化、流程化管理。

 

因为指标体系建设本质目标是服务业务,实现数据驱动业务价值,所以建设的核心原则是“轻标准、重场景,从管控式到服务式”。通过工具、产品、技术和组织的融合提高用户使用数据效率,加速业务创新迭代。

 

其中和指标体系方法论强相关产品就是指标字典工具的落地,其产品的定位及价值:

 

  • 支撑指标管理规范从方法到落地的工具,自动生成规范指标,解决指标名称混乱、指标不唯一的问题,消除数据的二义性;

  • 统一对外提供标准的指标口径和元数据信息。

 

工具设计流程 (方法论->定义->生产->消费)

 

指标定义

 

指标生产

 

结束语

 

文章整体介绍了滴滴指标体系建设方法论和工具产品的建设情况,目前指标字典和开发工具已实现流程打通,与数据消费产品的打通后续会通过DataAPI方式提供数据服务,规划建设中。

 

指标体系建设方法论和工具已经在滴滴集团内进行推广使用,滴滴网约车、普惠、车服等部门已经开始接入使用,截止目前共有5000+指标进入指标体系,覆盖公司核心业务板块、88个数据域、385个业务过程,52个业务场景,方法论和工具也会持续迭代实践。

 

作者丨曹雷
来源丨滴滴技术(ID:didi_tech)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
最新评论
访客 2020年11月26日

就我一个人用不了吗,加载css 也报错了。

访客 2020年11月18日

精彩!

访客 2020年11月17日

你好!梁工,我最近测试从oracle 12.2表到CHD6.3.2 …

访客 2020年10月30日

select * from dual;

访客 2020年10月20日

站在2020的当口,我们应该怎么看这个问题?

活动预告