本文根据孙斌老师在〖2023 中国数据智能管理峰会-上海站〗现场演讲内容整理而成。(关注【dbaplus社群】公众号,回复“230331”可获取完整PPT)
作者介绍
孙斌,爱奇艺副总裁,负责爱奇艺的商业智能、大数据、个性化推荐和用户增长等部门和方向。在互联网产品设计和研发方面有近二十年经验,曾就职于微软、hulu、雅虎等公司,也曾在国内知名互联网公司负责过创业项目。
分享概要
一、爱奇艺的企业文化
二、数据中台架构
三、数据中台理念
四、大数据大规模实践——内容侧
五、大数据大规模实践——用户侧
六、大模型时代
一、爱奇艺的企业文化
爱奇艺于2010年4月成立,到现在已走过13年,多年来在内容制作和技术创新方面硕果累累。13年间,爱奇艺在技术上的投入庞大,大数据方向的实践同样得到了极大的重视。
上图展示爱奇艺平台的三大构成要素,三者之间相辅相成、互相影响。
爱奇艺一直在追求科技与创意之间的平衡,以双螺旋的方式向前走。
二、数据中台架构
如下图所示,爱奇艺的数据中台架构看似并无特殊,和业界基本相似,但其实不然。爱奇艺的数据中台架构结合了自己的业务场景,在很多细节上,做了相关的研发。
爱奇艺的海量用户产生的数据,我们如何从C端进行收集?大量合作伙伴产生的数据,我们如何在合理合法的前提下从B端进行收集?
从数据链路的角度看,数据流向是非常清晰的。数据输入后被接收、采集和加工,最终投入使用,并运用到业务层上,呈从左向右的流向。整个过程中,我们也积极参与并推动行业内的各种新技术和标准。
如上图所示,数据在底层经过数据采集、加工和封装,到呈现在业务层的全过程中,所有模型都是透明的。在技术、业务逻辑层面上,我们对上下层业务都做了较好的隔离,减少之间的细节关联,实现了更好的扩展性和实用性。
经过多年的发展,爱奇艺大数据体系和模块有了丰富的积累,但在数据基础设施建设方面也仍然比较粗犷,处在零散化状态,面临着比较严峻的问题。
三、数据中台理念
在2017年以前,爱奇艺积极探索各种商业模式,衍生了很多视频周边的相关业务,不同的业务对数据产生了不同的诉求。因此在2017年之前,数据体系是和业务状态一致,处于野蛮生长、零散割裂的状态。从2017年到现在,经过多年的发展,爱奇艺大数据体系和模块有了丰富的积累,先后经历了平台化、标准化、智能化、体系化、立体化五个阶段。
平台化:面对不同层级的用户,提供相应的数据产品,支持用户进行自助分析,最大限度发挥数据价值。
标准化:通过对数据体系各个环节进行标准化,保证数据质量,有助提高数据流转和使用效率。
智能化:数据与人工智能深度结合,在为用户提供智能化的同时,数据中台自身也需要智能化。
体系化:实施是从落实角度,对数据治理的标准(包括目标和方式等)进行具体的落地,确保治理工作的正常运转。
立体化:通过打造离线、近实时和实时数据链路,构建立体化的数据体系,满足业务对时效性和准确性的不同需求。
以下三个关键点,是立体化工作的核心:
1)大:大模型的出现,让大规模数据的处理工作变得更为重要。在爱奇艺,我们通过Hive、Spark等离线引擎的升级,对巨量离线数据提供准确高效的数据计算能力,以支撑核心数据绝对准确性的业务要求。
2)湖:数据湖不是什么新颖技术,但其整体应用、业务提效有重要作用。爱奇艺引入了Iceberg数据湖,通过Flink进行数据入湖,降低数据可见的延迟时间,提高大规模数据的分析时效性,同时降低实时链路的成本。
3)快:时效性在数据工作中尤为重要。爱奇艺通过Flink和Kafka等实时组件的最佳搭配,提供秒级延迟的数据流,结合实时数仓,支撑推荐、用增等模型的快速反馈。
我深切体会过无标准化的痛苦,在业界大数据理念还未完善时,行业内不同的技术人员,都在以自己高效舒服的方式去做数据处理。
但事实上,任何一个公司不论体量大小,势必不可能通过一套数据逻辑解决所有事情,所以当数据累积到一定阶段后,由数据不标准和不规范带来的痛苦非常明显,爱奇艺在过去也有类似的经历。
如今,数据治理仍是讨论火爆的主题,但不同于大数据工作,数据治理如同垃圾分类,是一个吃力不讨好的工作。
如上图所示,在整个数据全生命周期中,从生产、采集加工、存储到流转,各个环节我们都在不断规范标准。
在我们内部,也设置了一个数据管理委员会,制定相关的数据治理制度,使整个数据治理环节更加符合公司业务诉求,同时进一步提升大数据效率。
所有的基础设施到位后,必定会形成一个体系,再在这一体系基础上进一步迭代。
如上图左侧所示,内部的数据体系在决策上分为管理组、业务组,不同的小组承载不同的目标和数据工作,同时让不限于大数据团队的业务部门参与到数据工作中。
在大数据管理委员会中,所以负责人都来自各自的业务线,同时我们生成了数据BP的概念,由他们垂直深耕,延续之前达成的共识,最终形成所有业务的体系化高速运转。
近年来,大家对智能化的关注愈发加大,每一位大数据工作者都会思考:智能化给行业带来的怎样的革命?未来有怎样的想象空间?
任何技术如果无法落地形成一套规范的数据产品,那么其最终在公司内部的认可程度就很难达标;有了整个大数据基础设施、服务、接口,但缺乏产品呈现,也很难让其他业务方发挥和利用业务价值。数据本身也是一个业务,如果无法恰当应用且形成体系化,数据治理的价值也无法真正体现。
爱奇艺数据产品整体体系主要分为四个部分:
1)数据研发:数据开发和产品人员负责数据需求的驱动,能否灵活处理数据的拓展性和复杂性,让数据有更好的呈现形式。
2)数据分析:数据分析人员需要全面理解业务,能否在数据产品上提供自主和灵活的功能,以便业务方进行个性化的处理。
3)产品运营:产品运营需要关注一定范围的数据,数据需求也比较常规,但本身运营是非技术人员,不能要求其对大数据底层技术和工具有很好的理解。
4)数据产品:我们的目标是做易用、简单、无理解门槛的数据产品。很多公司都有自己的BI分析工具、画像系统、内容分析系统和标签系统,如何把这些工具的底层相关的技术与业务人员的思维搭建桥梁,“翻译”成大家都能懂的数据,使得大家在无法理解大数据融合技术的情况下,解决自己的业务问题,这是数据产品研发的关键。
爱奇艺有三个关键元素,即海量用户、海量内容和大量的合作伙伴,其中用户和内容是与大数据最相关的两方面,也是爱奇艺永恒的二元体。
四、大数据大规模实践——内容侧
爱奇艺站内有大量PGC(也称PPC)和UGC,海量的内容的背后则产生了海量的数据,同时爱奇艺的用户量也非常庞大。
当内容大数据和用户大数据相连接,就会产生很多应用场景和想象空间,我们可以从内容最早的制作阶段出发,大数据能做些什么呢?
1)知文剧本评估
内容创作的第一步是选剧本,从海量剧本中挑选出有艺术性、市场性并符合监管要求的剧本,同时快速剔除掉劣质剧本,是一个关键问题。多年来,我们一直在探索通过大数据技术对剧本进行评估的事情。
爱奇艺做了很多剧本评估系统,基于AI算法、NLP技术对剧集剧本、电影剧本、小说等多种形态的内容进行理解,分析其质量和衍生价值辅助专家决策、作者创作、文本审核,经过多年的验证实践,助力了爱奇艺内容质量提升。
如今大模型的出现,也促使我们在一方面的探索结合。
2)艺汇选角系统
以今年爆火的《狂飙》为例,在选角上,需求方会自定义一些选角需求,平台则会根据供方提供的艺人信息,进行艺汇AI智能匹配,在成本效率最优化的基础上,快速进行选角。
1)流量票房预测系统
预测投入产出能否成正比是内容制作前的关键,所以任何内容在最开始都需要预估流量及收入。因此,我们提供多内容类型、多时间窗口的流量预测,帮助选角、剧本创作、版权采购、宣发推广、广告售卖等业务把握投资意向,把控投资风险,提升业务效率,这方面的探索实践也已经广泛应用。
2)内容热度
早期,爱奇艺提出了内容热度的概念。评价内容的好坏,不能只是基于内容的播放次数,还要综合分析观看行为、互动行为、分享行为等指标,以此得出用户反馈、内容质量和当前市场表现。
举个例子,《小猪佩奇》是爱奇艺站内播放次数最多的视频,但这显然不是爱奇艺站内最受欢迎的作品。所以,从大数据角度分析,需要融合各种各样与内容相关的指标,去计算热度,并评价出最受欢迎的内容。
3)精准筛选+精细触达+实时分析
在用户增长上,我们通过精准筛选+精细触达+实时分析的方式,打造了覆盖全生命周期的用户自动化运营场景。
1)个性化推荐
在这方面我们充分结合了运营专家意见和机器动态规划,实现了机器运营,对比传统的手工内容分发方式,个性化推荐是更为精细化的。
个性化推荐可以更高效分发长尾内容,使用户与内容之间产生更多连接,提升用户对平台的粘性,降低对个别内容的粘性。在内容不变的情况下,提升全站用户总有效播放时长。
2)推荐中的用户和内容理解
首先我们基于用户画像产品,生成多维度的用户标签,再根据用户反馈内容和用户看到的内容,运用算法+人工的方式,生成内容理解。
3)个性化创意:海报图、推荐语、精彩看点
以《狂飙》为例,不同用户看到的宣传海报可能是不一样的,有人看到高启强、有人看到大嫂、有人看到安欣……
爱奇艺在个性化创意上,也进行了用户侧+内容侧的分析,将多种风格的创意素材(海报图、推荐语、精彩看点),个性化推荐给不同观众。
在爱奇艺站外做投放的时候(如抖音、微博、小红书等),需要分析站外投放内容的效果和站内产品的回响,我们是通过内容营销的智能决策分析平台进行处理的。
同时,平台能针对不同的营销阶段可以提供不同的能力:
营销前:营销策略分析
营销中:站内效果监测、投放效果追踪、追踪渠道舆情
营销后:营销效果评估
1)标签体系
通过深度学习技术实现对多模态数据(文本、图像、音频、视频)的理解,提供算法能力满足下游用户方需求,助力公司的内容生产、分发以及生态建设。
2)多团队合作助力内容生产与分发
五、大数据大规模实践——用户侧
1)TA识别:基于用户行为数据和机器学习算法精准识别爱奇艺用户的性别、年龄等基础属性助力精准运营,广告变现和分析决策,性别识别准确率达到90%以上;
2)自然人识别:通过对用户行为习惯的挖掘,识别出的同一自然人使用的多个设备,可以帮助推荐和广告召回更大范围的目标用户;
3)会员流失预警:基于用户在会员期间的行为特征,预测即将到期的会员的流失概率,准确度达到80%以上。
站内海量数据+站外海量数据,实现用户全生命周期联动。
六、大模型时代
爱奇艺拥有海量视频内容和海量用户,因此我认为,爱奇艺在拥有丰富的大模型应用场景,在大模型应用层有巨大想象空间,未来爱奇艺也将会把研发重点聚焦于大模型应用层。
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721