《狂飙》爆火背后:爱奇艺的大数据大规模落地实践

孙斌 2023-05-17 10:22:23

本文根据孙斌老师在2023 中国数据智能管理峰会-上海站〗现场演讲内容整理而成。(关注【dbaplus社群】公众号,回复“230331”可获取完整PPT)

 

 

图片

 

作者介绍

孙斌,爱奇艺副总裁,负责爱奇艺的商业智能、大数据、个性化推荐和用户增长等部门和方向。在互联网产品设计和研发方面有近二十年经验,曾就职于微软、hulu、雅虎等公司,也曾在国内知名互联网公司负责过创业项目。

 

分享概要

一、爱奇艺的企业文化

二、数据中台架构

三、数据中台理念

四、大数据大规模实践——内容侧

五、大数据大规模实践——用户侧

六、大模型时代

 
 

一、爱奇艺的企业文化

 

图片

 

爱奇艺于2010年4月成立,到现在已走过13年,多年来在内容制作和技术创新方面硕果累累。13年间,爱奇艺在技术上的投入庞大,大数据方向的实践同样得到了极大的重视。

 

图片

 

图展示爱奇艺平台的三大构成要素,三者之间相辅相成、互相影响。

图片

 

爱奇艺一直在追求科技与创意之间的平衡,以双螺旋的方式向前走。

 

二、数据中台架构

 

如下图所示,爱奇艺的数据中台架构看似并无特殊,和业界基本相似,但其实不然。爱奇艺的数据中台架构结合了自己的业务场景,在很多细节上,做了相关的研发。

 

图片

 

 
1. 数据链路

 

爱奇艺的海量用户产生的数据,我们如何从C端进行收集?大量合作伙伴产生的数据,我们如何在合理合法的前提下从B端进行收集?

 

图片

 

从数据链路的角度看,数据流向是非常清晰的。数据输入后被接收、采集和加工,最终投入使用,并运用到业务层上,呈从左向右的流向。整个过程中,我们也积极参与并推动行业内的各种新技术和标准。

 

 
2. 数据资产对上层统一、透明

 

图片

 

如上图所示,数据在底层经过数据采集、加工和封装,到呈现在业务层的全过程中,所有模型都是透明的。在技术、业务逻辑层面上,我们对上下层业务都做了较好的隔离,减少之间的细节关联,实现了更好的扩展性和实用性。

 

 
3. 数据发展过程

 

多年的发展,爱奇艺大数据体系和模块有了丰富的积累,但在数据基础设施建设方面也仍然比较粗犷,处在零散化状态,面临着比较严峻的问题。

 

图片

 

三、数据中台理念

 

在2017年以前,爱奇艺积极探索各种商业模式,衍生了很多视频周边的相关业务,不同的业务对数据产生了不同的诉求。因此在2017年之前,数据体系是和业务状态一致,处于野蛮生长、零散割裂的状态。从2017年到现在,经过多年的发展,爱奇艺大数据体系和模块有了丰富的积累,先后经历了平台化、标准化、智能化、体系化、立体化五个阶段。

 

图片

 

  • 平台化:面对不同层级的用户,提供相应的数据产品,支持用户进行自助分析,最大限度发挥数据价值。

     

  • 标准化:通过对数据体系各个环节进行标准化,保证数据质量,有助提高数据流转和使用效率。

     

  • 智能化:数据与人工智能深度结合,在为用户提供智能化的同时,数据中台自身也需要智能化。

     

  • 体系化:实施是从落实角度,对数据治理的标准(包括目标和方式等)进行具体的落地,确保治理工作的正常运转。

     

  • 立体化:通过打造离线、近实时和实时数据链路,构建立体化的数据体系,满足业务对时效性和准确性的不同需求。

 

 
1. 立体化

 

以下三个关键点,是立体化工作的核心:

 

图片

 

1):大模型的出现,让大规模数据的处理工作变得更为重要。在爱奇艺,我们通过Hive、Spark等离线引擎的升级,对巨量离线数据提供准确高效的数据计算能力,以支撑核心数据绝对准确性的业务要求。

 

2):数据湖不是什么新颖技术,但其整体应用、业务提效有重要作用。爱奇艺引入了Iceberg数据湖,通过Flink进行数据入湖,降低数据可见的延迟时间,提高大规模数据的分析时效性,同时降低实时链路的成本。

 

3):时效性在数据工作中尤为重要。爱奇艺通过Flink和Kafka等实时组件的最佳搭配,提供秒级延迟的数据流,结合实时数仓,支撑推荐、用增等模型的快速反馈。

 

 
2. 标准化

 

我深切体会过无标准化的痛苦,在业界大数据理念还未完善时,行业内不同的技术人员,都在以自己高效舒服的方式去做数据处理。

 

但事实上,任何一个公司不论体量大小,势必不可能通过一套数据逻辑解决所有事情,所以当数据累积到一定阶段后,由数据不标准和不规范带来的痛苦非常明显,爱奇艺在过去也有类似的经历。

 

如今,数据治理仍是讨论火爆的主题,但不同于大数据工作,数据治理如同垃圾分类,是一个吃力不讨好的工作。

 

图片

 

如上图所示,在整个数据全生命周期中,从生产、采集加工、存储到流转,各个环节我们都在不断规范标准。

 

在我们内部,也设置了一个数据管理委员会,制定相关的数据治理制度,使整个数据治理环节更加符合公司业务诉求,同时进一步提升大数据效率。

 

 
3. 体系化

 

所有的基础设施到位后,必定会形成一个体系,再在这一体系基础上进一步迭代。

 

图片

 

如上图左侧所示,内部的数据体系在决策上分为管理组、业务组,不同的小组承载不同的目标和数据工作,同时让不限于大数据团队的业务部门参与到数据工作中。

 

在大数据管理委员会中,所以负责人都来自各自的业务线,同时我们生成了数据BP的概念,由他们垂直深耕,延续之前达成的共识,最终形成所有业务的体系化高速运转。

 

 
4. 智能化

 

近年来,大家对智能化的关注愈发加大,每一位大数据工作者都会思考:智能化给行业带来的怎样的革命?未来有怎样的想象空间?

 

图片

 

 
5. 产品化

 

任何技术如果无法落地形成一套规范的数据产品,那么其最终在公司内部的认可程度就很难达标;有了整个大数据基础设施、服务、接口,但缺乏产品呈现,也很难让其他业务方发挥和利用业务价值。数据本身也是一个业务,如果无法恰当应用且形成体系化,数据治理的价值也无法真正体现。

 

图片

 

爱奇艺数据产品整体体系主要分为四个部分:

 

1)数据研发:数据开发和产品人员负责数据需求的驱动,能否灵活处理数据的拓展性和复杂性,让数据有更好的呈现形式。

 

2)数据分析:数据分析人员需要全面理解业务,能否在数据产品上提供自主和灵活的功能,以便业务方进行个性化的处理。

 

3)产品运营:产品运营需要关注一定范围的数据,数据需求也比较常规,但本身运营是非技术人员,不能要求其对大数据底层技术和工具有很好的理解。

 

4)数据产品:我们的目标是做易用、简单、无理解门槛的数据产品。很多公司都有自己的BI分析工具、画像系统、内容分析系统和标签系统,如何把这些工具的底层相关的技术与业务人员的思维搭建桥梁,“翻译”成大家都能懂的数据,使得大家在无法理解大数据融合技术的情况下,解决自己的业务问题,这是数据产品研发的关键。

 

 
6. 总结:发挥用户大数据、内容大数据的价值

 

爱奇艺有三个关键元素,即海量用户、海量内容和大量的合作伙伴,其中用户和内容是与大数据最相关的两方面,也是爱奇艺永恒的二元体。

 

四、大数据大规模实践——内容侧

 

 
1. 内容制作

 

爱奇艺站内有大量PGC(也称PPC)和UGC,海量的内容的背后则产生了海量的数据,同时爱奇艺的用户量也非常庞大。

 

当内容大数据和用户大数据相连接,就会产生很多应用场景和想象空间,我们可以从内容最早的制作阶段出发,大数据能做些什么呢?

 

1)知文剧本评估

 

内容创作的第一步是选剧本,从海量剧本中挑选出有艺术性、市场性并符合监管要求的剧本,同时快速剔除掉劣质剧本,是一个关键问题。多年来,我们一直在探索通过大数据技术对剧本进行评估的事情。

 

爱奇艺做了很多剧本评估系统,基于AI算法、NLP技术对剧集剧本、电影剧本、小说等多种形态的内容进行理解,分析其质量和衍生价值辅助专家决策、作者创作、文本审核,经过多年的验证实践,助力了爱奇艺内容质量提升。

 

如今大模型的出现,也促使我们在一方面的探索结合。

 

图片

 

2)艺汇选角系统

 

以今年爆火的《狂飙》为例,在选角上,需求方会自定义一些选角需求,平台则会根据供方提供的艺人信息,进行艺汇AI智能匹配,在成本效率最优化的基础上,快速进行选角。

 

图片

 

 
2. 内容运营

 

1)流量票房预测系统

 

图片

 

预测投入产出能否成正比是内容制作前的关键,所以任何内容在最开始都需要预估流量及收入。因此,我们提供多内容类型、多时间窗口的流量预测,帮助选角、剧本创作、版权采购、宣发推广、广告售卖等业务把握投资意向,把控投资风险,提升业务效率,这方面的探索实践也已经广泛应用。

 

2)内容热度

 

早期,爱奇艺提出了内容热度的概念。评价内容的好坏,不能只是基于内容的播放次数,还要综合分析观看行为、互动行为、分享行为等指标,以此得出用户反馈、内容质量和当前市场表现。

 

举个例子,《小猪佩奇》是爱奇艺站内播放次数最多的视频,但这显然不是爱奇艺站内最受欢迎的作品。所以,从大数据角度分析,需要融合各种各样与内容相关的指标,去计算热度,并评价出最受欢迎的内容。

 

图片

 

3)精准筛选+精细触达+实时分析

 

在用户增长上,我们通过精准筛选+精细触达+实时分析的方式,打造了覆盖全生命周期的用户自动化运营场景。

 

图片

 

 
3. 内容分发

 

1)个性化推荐

 

在这方面我们充分结合了运营专家意见和机器动态规划,实现了机器运营,对比传统的手工内容分发方式,个性化推荐是更为精细化的。

 

图片

 

个性化推荐可以更高效分发长尾内容,使用户与内容之间产生更多连接,提升用户对平台的粘性,降低对个别内容的粘性。在内容不变的情况下,提升全站用户总有效播放时长。

 

2)推荐中的用户和内容理解

 

首先我们基于用户画像产品,生成多维度的用户标签,再根据用户反馈内容和用户看到的内容,运用算法+人工的方式,生成内容理解。

 

图片

 

3)个性化创意:海报图、推荐语、精彩看点

 

以《狂飙》为例,不同用户看到的宣传海报可能是不一样的,有人看到高启强、有人看到大嫂、有人看到安欣……

 

爱奇艺在个性化创意上,也进行了用户侧+内容侧的分析,将多种风格的创意素材(海报图、推荐语、精彩看点),个性化推荐给不同观众。

 

图片

 

 
4. 内容营销

 

在爱奇艺站外做投放的时候(如抖音、微博、小红书等),需要分析站外投放内容的效果和站内产品的回响,我们是通过内容营销的智能决策分析平台进行处理的。

 

图片

 

同时,平台能针对不同的营销阶段可以提供不同的能力:

 

  • 营销前:营销策略分析

     

  • 营销中:站内效果监测、投放效果追踪、追踪渠道舆情

     

  • 营销后:营销效果评估

 

图片

 

 
5. 内容理解

 

1)标签体系

 

通过深度学习技术实现对多模态数据(文本、图像、音频、视频)的理解,提供算法能力满足下游用户方需求,助力公司的内容生产、分发以及生态建设。

 

图片

 

2)多团队合作助力内容生产与分发

 

图片

 

五、大数据大规模实践——用户侧

 

 
1.用户理解

 

1)TA识别:基于用户行为数据和机器学习算法精准识别爱奇艺用户的性别、年龄等基础属性助力精准运营,广告变现和分析决策,性别识别准确率达到90%以上;

 

2)自然人识别:通过对用户行为习惯的挖掘,识别出的同一自然人使用的多个设备,可以帮助推荐和广告召回更大范围的目标用户;

 

3)会员流失预警:基于用户在会员期间的行为特征,预测即将到期的会员的流失概率,准确度达到80%以上。

 

图片

 

 
2.用户增长

站内海量数据+站外海量数据,实现用户全生命周期联动。

 

图片

 

六、大模型时代

 

图片

 

爱奇艺拥有海量视频内容和海量用户,因此我认为,爱奇艺在拥有丰富的大模型应用场景,在大模型应用层有巨大想象空间,未来爱奇艺也将会把研发重点聚焦于大模型应用层。

最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告