本文根据刘岩老师在〖2024 DAMS中国数据智能管理峰会-上海站〗现场演讲内容整理而成。(文末有PPT获取方式,不要错过)

刘岩,腾讯游戏数据技术负责人、资深专家。负责通过资产体系、技术平台、AI、 湖仓等技术降低游戏业务使用数据门槛,以数据驱动业务增长。
腾讯游戏拥有将近二十年、700+款大型游戏的数据工作沉淀。复杂的业务环境下,我们每年需要处理数万个数据提取需求,SQL编写需要耗费大量时间和精力,如何提升效率成为一个关键问题。
本文介绍了腾讯游戏数据团队如何通过最新的大语言模型技术,通过构建「AI+湖仓」的数据体系,提升SQL编写效率的创新实践。通过这套技术方案,AI生成SQL的一次性准确率提升至89%,SQL代码编写效率提升300%。
腾讯游戏是全球最大的游戏开发和发行平台之一,数据工作对于业务发展而言向来都至关重要,数据团队一直紧跟业务需求来做,通过建设数据中台用1%的资产支撑了80%的业务需求。近些年,随着腾讯游戏的快速增长,业务量越来越庞大复杂,业务对于使用明细数据进行数据分析和探索的需求越来越多,传统数据中台的资产建设方式遇到了挑战。
在实际的业务场景之下,现存游戏业务的数据挖掘/提取类需求每年有数万个,数据交付效率遇到瓶颈。如何进一步提升效率,更快更好地支持游戏业务,就成为了我们的重点工作。
AI技术的发展,让我们看到了新的可能性,我们开始思考如何使用AI技术来解决上述痛点问题。而经过大量的实践和探索,我们也进一步发现,要实现真正的AI赋能提效,我们不仅仅要让AI写出SQL,而是要搭建一个完善的数据工程平台和资产体系,让AI全面参与需求理解、资产体系、计算加速和持续运营的各个环节中。
从业务出发,数据工作的第一个环节就是提出数据需求。在大语言模型诞生之后,如何写好需求的提示词(Prompt)一直是大家关注的焦点,好的提示词,能让AI交付结果的准确率有很大的提升。
在实际的业务场景下,每个需求方都有自己描述需求的习惯,我们很难通过培训确保大家都能够写出高质量的提示词。对此,我们做法是:基于业务经验总结一个完备SQL需求的标准,即「筛选」、「问题」、「结果」的三段式提问,并包括对「行业知识」的说明,在这个标准的基础上引入AI技术,通过需求Agent,匹配需求案例和行业知识,将需求整理和改写成标准的格式,确保人与AI在需求理解层面对齐。
另外为了降低业务使用门槛,通过需求Agent可以将标准化的Excel模版,转换成AI能理解的结构化需求,通过模版沉淀来保障AI理解需求的准确率。
需求提示词写好之后,大模型能不能把SQL写对呢?这里就需要提到大模型交付准确率提升的关键:数据资产体系建设。
我们做了一些调研,目前在公共数据集(例如:Spider)下AI写SQL的准确率已经高达90分以上,基本能够达到人类的水平;然而在真实业务场景下,AI写SQL的准确率会断崖式下跌,例如,在模拟真实业务场景的BIRD数据集下只能做到 75 分左右。之所以会有这样的差距,是因为真实业务场景下的数据会有「大而脏的值」和「隐形知识」,且当SQL复杂时,大模型的生成SQL执行效率较低,无法满足实际使用需求。例如:按部门统计工资,而工资字段在原始明细数据是字符型的,存储的值为¥57,000.00,那样大模型就必须先将字符串转换成数字才能得到正确的统计查询结果。
然而,腾讯游戏实际业务场景的数据需求更加复杂,传统资产体系存在缺乏非结构化标准、建设滞后于业务需求、治理成本高等问题,不能支持大语言模型实现快速准确的交付数据需求。因此,我们将经典数据中台升级为「AI+湖仓」中台,打造「新一代AI数据资产」。

传统数据中台到新一代AI数据资产的升级
「新一代AI数据资产」通过使用物理资产+语义层,能够快速配置库表资产、特征资产、指标资产、行业知识等,并且通过实时链路接入、透明加速等技术满足性能需求,实现快速响应用户后验需求和分析挖掘的需求。底层的接入部分由离线改变为实时,并减少离线数仓到OLAP的摆渡过程,用户可以直接使用实时的明细数据(而非传统的T+1结果数据)做进一步的挖掘和探索分析,快速洞察数据背后的深层次问题。
-
第一种是已有的物理资产,大模型可以直接使用指标来跟用户交互,这部分占大约 50%;
-
第二种是「没有指标,但有特征」的资产,大模型可以通过特征来生成指标满足用户的需求,这部分约占 40%;
-
第三种是「无特征」的、纯新的资产,往往需要用户来补充一些业务信息,再去交由大模型生成特征和指标,这部分约占 10%。
这样一来,AI可以直接交付数据结果,或者通过AI与人的互动最终交付数据需求,实现一个资产自助交付的高效体系。且在这个体系下,游戏项目组内不同团队的数据需求方,都可以通过 AI 来生产和维护同一个特征库、指标库和同一份资产,让资产能够被 AI 和人理解,提升数据使用的效率。
总的来说,「新一代AI数据资产」能建立从业务需求、行业知识、数据结构之间的资产纽带,通过领域模型进行沉淀和推荐,确保资产能被AI理解和使用。

解决了需求提示词和资产的问题之后,在腾讯游戏实际业务中,我们还发现一个情况:当需求的复杂度很高时,AI的准确率也会降低,有时候会低于25%甚至趋于0。为了解决这个问题,我们通过AI能力把复杂需求分解成简单的子需求,降低AI生成难度,通过工程化方式组合成最终结果,确保稳定可控的交付质量。
举例来说,当用户提出需求:统计游戏内各个玩法、按照每天的参与率排名+次日留存排名+七日留存排名,算一个总排名。AI会去查询相应的游戏领域知识,将这个复杂需求分拆为4个子需求,分别计算并生成参与率、活跃用户、玩法参与率、次日和七留的SQL,最后将4个数据包SQL结果合并,生成一个最终的SQL。
为了能够支持对实时的明细数据进行探索和分析,仅仅把SQL写对是不够的,传统的数仓架构(例如:Lambda)大量计算是T+1离线进行的,不能支持对所有的数据进行实时快速查询。为此,我们对数据底座进行了升级,采用湖仓一体的架构,通过数据实时接入、虚拟数仓、冷热分层等技术实现对实时明细数据的高效查询。同时,我们建设了一个成本效率优化引擎,围绕资产热度、执行速度、数据量级三个方向快速定位需要优化加速的资产,通过资产整合、物化视图等方式,能够让数据低成本、高效率的使用。
在上述工作都完成后,如何让业务团队真正能够去使用,搭建一套工程平台来实现上面这些流程,也是一项关键工作。在平台应用流程方面,我们引入了Agent多智能体架构,打造了一个人与AI高度协同工作、可持续优化的运营平台。
从用户提出需求、到AI写出SQL交付结果,中间会经过很多的步骤。我们将这一整个流程进行了梳理,将一个Job(工作)分解成若干的Task(任务),在某些Task上由AI完成,某些Task人与AI协同完成(需求协同、验收协同),覆盖从业务需求到数据交付的全链路,各节点Agent可与用户实时交互,及时感知问题并进行干预和修正,确保系统的可持续优化。
在腾讯游戏内部,我们已经将上述技术方案成功实现、并打造了一个从需求到SQL交付的数据工程平台「Deltaverse UData」,目前UData已经被应用在超过80款腾讯游戏业务上,SQL代码编写效率提升300%,在人们最关心的交付准确率方面,UData的一次性准确率达到89%,已满足实际业务场景需求。
除了游戏业务之外,这套技术方案也可被用在其他行业,诸如餐饮、金融、教育等,助力传统企业实现AI数字化转型,提升数据工作效率,并通过新一代AI数据资产提升数据治理ROI,帮助企业降本增效。
AI技术在数据工作上的应用仍有巨大的潜力,腾讯游戏数据团队也在不断地探索,除了通过AI生成SQL以提升数据获取效率之外,我们还在进一步尝试将「AI+湖仓一体」的能力与更多工具和系统做集成,进一步探索挖掘AI的潜力,实现用AI来重构数据工作的各个领域。
想了解更多腾讯游戏数据技术实践,欢迎大家关注【Deltaverse增量空间】公众号。
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
↓↓ 点击这里获取本期PPT(提取码:1129)
https://pan.baidu.com/s/1qwzL1FcwtPIPNmxxaAP2Dw?pwd=1129
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721