数据治理新解法:AI驱动的企业数据平权与洞察

李佳奇 2025-09-30 10:23:54

本文根据老师在〖dbaplus直播:AI驱动的企业数据平权与洞察〗线上分享演讲内容整理而成。(文末有回放的方式,不要错过)


 

目录

一、企业数据治理和使用的痛点

二、AI带来的企业数据治理和掘金新机会

三、落地和展望

 

一、企业数据治理和使用的痛点

 

 

 

当前,国内互联网已步入“业务3.0”阶段——由增量蓝海转为存量红海,增长逻辑从高速扩张转向精耕细作。企业唯有依赖既有数据资产,挖掘潜在机会,方能在存量竞争中保持优势。然而,数据价值释放面临两大掣肘:

 

  • 历史包袱沉重

 

业务1.0、2.0阶段侧重快速迭代,数据沉淀缺乏统一规划,字段口径频繁变更,脏数据、冗余数据比例高,直接拉低挖掘效果。

 

  • 治理成本高昂

 

传统数据治理需投入大量人力与时间,周期长、见效慢,与业务“短平快”诉求矛盾,导致“想挖掘先治理”难以落地。

 

AI技术的成熟为上述困境提供新解:通过智能化手段低成本完成数据清洗、口径对齐与质量评估,缩短治理链路,使企业以最小代价获得可信赖的数据底座,从而真正迈入“数据驱动增长”的3.0时代。

 

 

聚焦当前数据痛点,剖析其阻碍“数据驱动增长”之机理,核心矛盾体现在两大维度:

 

  • 横向不一致

 

酒店、机票等垂直业务线各自沉淀指标,字段口径、命名规范及更新频度差异显著,导致跨域数据难以对齐。据此设定增长目标或评估潜在空间时,结果常被系统性偏差干扰,出现“目标失真、举措错位”现象。

 

  • 纵向不一致

 

同一业务在不同发展阶段关注焦点不同:早期以获客为核心,模型围绕 PV、UV 构建;中后期转向收益,模型又基于 GMV、利润率重塑。前后指标定义、粒度与衍生逻辑互不兼容,致使历史数据无法连贯追溯,难以通过“子指标改善→整体指标提升”的拆解路径释放增量价值。

 

综上,数据口径失序直接削弱目标设定的科学性与策略落地的可达性,成为业务增长必须首先破除的壁垒。

 

 

企业内部“取数”可归纳为三大环节、十项痛点,各环节层层叠加,终致数据使用成本居高不下。

 

  • 找数难

 

底表规模庞大且人员流动频繁,交接过程常使高频查询口径遗失。

交叉业务需跨团队沟通,组织壁垒抬高获取门槛。

业务方向调整迅速,原有积累失效,团队需重复从零梳理。

 

  • 取数难

 

同一指标存在多种底表与口径,元信息晦涩,产运人员难以快速定位所需字段。

复杂 SQL 编写与校验耗时,即便技术岗亦需投入大量精力,产运侧更无力承担。

复用历史脚本时,复制粘贴易引致标点、字段等低级错误。

产品在既有 SQL 上凭直觉修改,缺乏语法校验,出错概率高。

 

  • 使用难

 

汇报场景要求口径严格一致,但同名指标在不同语境下定义常异,导致数据与管理层预期错位。

 

业务术语与经营指标需人工映射翻译,增加额外理解与转换成本,拉高整体使用门槛。

 

 

挖掘数据价值的常见问题:

 

  • 效率低下

日常、重复及长尾分析占据大量时间,产运人员反复执行相似脚本,价值密度低。

 

  • 周期冗长

复杂分析需多层拆解,逢汇报节点更集中爆发;跨团队场景需汇聚多业务域数据,协调与清洗过程进一步拉长周期。

 

  • 难度陡增

精细化运营驱动下,指标维度常超 10 个,人工已无法有效遍历组合,仅能凭经验筛选少数维度,易遗漏关键洞察。

 

若依赖专业数据分析师,则受限于稀缺编制,仅能覆盖战略级课题,产运侧需求普遍处于排队状态。

 

传统解法无外乎“加人”或“提能”,均面临成本与规模瓶颈,难以普及。

 

 

在数据价值链中,三类核心角色本应各司其职:

 

  • 产品:提出需求并使用数据,驱动业务决策;

  • 数仓:治理数据,保障资产质量与架构稳定;

  • 商分:深度分析,输出洞察与策略。

 

由于前述痛点,现实出现明显错位:产品忙于口径对齐与寻数,数仓疲于应付临时 SQL,商分被迫自建中间表。三方相互补位、协同低效,难以形成“数据驱动业务”的闭环。为破解此困局,团队启动 AI 方案,以技术手段替代人工补位,促使各角色回归高价值工作。

 

二、AI带来的企业数据治理和掘金新机会

 

 

对大语言模型在数据领域的应用潜力,我们归纳于四个层面:

 

1、知识库与数据治理

 

模型可自动规范化元数据,并嵌入 AI 工作流或智能体,实现治理标准化;历史经验沉淀后供“永不离职”的模型持续复用,形成可传承、可扩展的资产。

 

2、Chatbot 问答

 

以自然语言交互替代人工咨询,支持底表、字段、需求及 SQL 的即时问答,降低沟通成本。

 

3、智能体(Agent)

 

依托工具调用与代码执行能力,完成端到端任务交付,对长尾、低 ROI 需求提供低成本解决方案,释放被压抑的产运需求。

 

4、模型原生能力

 

大语言模型具备专业数据知识与编码能力,可生成高质量 SQL 及复杂分析代码,直接媲美中级数据分析师,为深度洞察提供技术底座。

 

 

AI 对数据价值链各核心角色的赋能路径如下:

 

1、业务产品

 

  • 自然语言即取数:以口语化提问自动获得对应 SQL 与结果,无需技术背景

  • 口径问答:实时核查指标定义,确保与全局口径一致,消除“同名不同义”风险

 

2、数仓治理

 

  • 自动打标:基于模型识别字段业务含义,生成标准化标签

  • 实体与关系识别:自动发现表间关联、主外键及冗余字段,辅助构建一致性数据资产

 

(示例见后页)

 

3、商业分析

 

  • 行业洞察:利用模型内置商业知识,快速生成市场趋势、竞品对标结论

  • 复杂分析:面向预测、用户行为路径等场景,自动生成分析代码与可视化报告,显著缩短深度研究周期

 

 

AI 构建业务知识库的实践路径可归纳为五个层面:

 

1、模型实体识别

 

面对海量异构及非结构化日志,模型可自动抽取出订单、资金、产品、用户等核心实体,实现 schema-free 资产的快速结构化。

 

2、血缘关系识别

 

通过解析监控与链路日志,建立指标级血缘:

当总量指标异常时,一键定位上游波动源;

识别同链路指标的同涨同跌规律,辅助归因;

支撑搜索请求量暴涨等场景的下钻分析,自动拆解至用户类型、产品维度等细分因子。

 

3、业务标签打标

 

对航班、行程、产品等静态数据赋予场景化标签(如“红眼航班”“周末亲子游”),使搜索结果与用户需求精准匹配,显著提升转化率。

 

4、情感与正负向分析

 

  • 失败厌恶识别:连续搜索无结果即触发券激励策略;

  • 操作日志情感打分:区分成功、失败与未达预期事件,为系统优化提供实时信号。

 

5、流程自动提取

 

针对 1.0–3.0 阶段累积的老系统,利用模型从现有日志中反向解析完整业务流程,生成可定期更新的“活”流程图,解决“人口述不全”的痛点,实现知识库的持续自我进化。

 

 

实体识别流程如图:输入数据经模型解析后完成关系抽取,输出结构化实体。

 

以下为用户会话实体示例。该实体系新增定义,此前并未建模,现借助大模型直接从主流程日志提取,可一次性还原用户连续动作(列表浏览、往返筛选、详情查看、出发到达及日期选择等)。无需额外建设模型与管理平台,即可沉淀高价值属性,反哺主流程体验优化与潜在问题定位。

 

 

流程提取案例如下:依托埋点日志与既有链路串联能力,对复杂订单业务进行实体识别,锁定订单相关事件后生成流程图。为确保跨平台一致性,采用 Mermaid DSL 描述并可视化输出。

 

 

业务流程提取实现流程可划分为三阶段:

 

1、原始数据获取

 

采集最细粒度日志,结合工具与 AI 完成初步结构化;对无法直接结构化的字段,由模型按业务语义对齐并补全。

 

2、DSL 生成

 

将结构化结果转换为 Mermaid DSL,自动输出标准化流程图,确保跨平台呈现一致。

 

3、交互式追问

 

依托真实日志与 DSL,支持“为何订单进入某节点”等回溯问询,模型即时给出基于规则与数据的解释。

 

该方案已解决多条历史遗留、人工难以梳理的复杂业务流程,显著降低梳理成本并提升可维护性。

 

 

历史数据沉淀曾因“用途不明”而被忽视。AI 大模型出现后,其 ROI 立即显性化,价值释放体现在三点:

 

1、稳定价值流

 

模型可支撑“治理→使用”全链路闭环,数据挖掘与训练频率由“周”缩短至“小时”,后续案例将给出量化对比。

 

2、稳定角色

 

模型“永不离职”,治理思路、规则与中间产物可长期保鲜,避免人员流失导致知识断层。

 

3、成本递减

 

AI 嵌入现有流程或重构新流程均可行,治理边际成本显著下降;同时覆盖率提升,核心业务表与长尾交叉指标可一并纳入治理范围,实现低成本、全量级数据资产管理。

 

 

此图展示 SQL Agent 知识库的迭代流程,意在说明:把 AI 嵌入数据治理可显著提升效率。评测 Agent 与 SQL 生成 Agent 可自动发现知识缺口并触发补充,形成闭环,持续加速知识库演进。

 

 

以下通过“工单降门槛”案例,展示 AI 在数据使用环节的价值。

 

1、原有流程

 

线上缺陷触发工单 → 值班开发人工检索日志、代码、Wiki → 定位问题耗时高,且每周轮值带来显著心智负担。

 

2、AI 改造

 

将系统日志、PRD、代码与 Wiki 统一接入知识库,构建问答式接口。业务方以自然语言描述现象,模型即时返回关联日志片段、异常根因及修复建议,无需再经开发侧排查。该方案显著释放开发人力,同时缩短业务方获取数据与答案的路径。

 

 

成效以“航变验证”场景为例:

 

过去,订单是否真实发生航变,需由产运提交工单,等待开发或数仓人工核查日志、比对代码逻辑,耗时数小时至数天。

 

接入 AI 问答后,产运直接输入订单号与自然语言提问,模型即时聚合系统日志、解析代码分支,秒级返回结论。该流程已完全无需开发介入,实现业务问题自助式闭环。

 

 

常规底表与数仓查询亦可通过自然语言直接提问,模型即时返回结果。

 

AI 对数据使用场景的扩展可从“数据域”与“使用域”双维度展开:

 

1、数据域

 

类型延伸:由结构化数据(SQL、ES)拓展至日志、文本、图像等非结构化数据,无需前置治理即可直接解析。

 

输入扩展:用户行为日志、系统运行日志等原始痕迹成为可即时查询的数据源,省去传统提取与加工环节。

 

交叉融合:跨领域数据仅需一次性合并提问,模型自动完成关联分析,显著降低治理与协同成本。

 

2、使用域

 

依托上述数据,可实时完成情感识别、意图识别及场景化推荐,实现从“取数”到“用数”的闭环升级。

 

 

以下场景侧重非结构化日志的实时应用:

 

1、数据源

 

主流程日志呈典型非结构化特征,涵盖多业务线埋点事件。

 

2、实时分析

 

借助大模型对滑动时间窗口内的用户行为流进行情感与意图挖掘,即时判断操作异常或需求倾向。

 

3、会话建模

 

结合实体识别能力,将离散事件聚合为“用户会话”实体,实现行为序列的结构化表达。

 

4、标签与营销

 

会话模型与组织层标签体系打通,可实时输出高意向标签。例如,持续查询一年后航班的用户被标记为“远期行程不确定”,系统即刻触发价格稳定性提示或优惠券投放。

 

该链路在 AI 介入前需搭建重资产实时计算平台,现依托模型即可低成本完成“日志→洞察→动作”的秒级闭环。

 

 

下图展示数据分析智能体的端到端线性回归案例。

 

  • 左侧:模型自动规划完整分析链路——数据探索、特征选择、建模、预测、评估五步闭环。

  • 右侧:按规划逐行执行并输出可解释结果,生成可直接部署的模型文件。

 

该能力将预测建模门槛降至“零算法基础”,一线产运即可自助完成训练与上线,确保业务逻辑与模型假设高度契合。

 

 

依托 AI 自动建模,某业务场景效率指标大幅跃升:数据闭环由 T+1 缩短至小时级,可即时评估前一小时的经营表现;模型训练频次从人工 7 天一次提升至每日一次,并支持多模型并行训练,整体效率呈数量级提升。

 

 

如图所示,每日 06:00 系统自动触发多模型并行训练——该时段人工无法值守,AI 依既定策略完成全流程并产出模型。关键信息已脱敏,仅展示运行概况。

 

三、落地与展望

 

  • 已完成

上半年聚焦产运日常分析及重点项目深度应用,实现取数、归因、报表全流程 AI 化。

 

  • 进行中

下半年扩展至专业商分场景,涵盖预测、洞察等复杂分析,目前正与业务方共建验证。

 

  • 关键认知

技术加 AI 不足以保证成功,必须依赖需求方制定成功标准并持续共创;闭门造车无法产生实际业务价值。合作的,不是我们开发自己在那闭门造车这个造出来了,因为我们自己闭门造车的东西,大多数情况之下可能都是没有什么实际价值的。

 

 

主流程数据应用已落地三类场景:

 

  • 航班推荐

针对国际长航线,综合多重因素实时生成个性化航班方案,降低用户决策难度与出行风险。

 

  • 低价实时营销

基于主流程行为信号,模型即时判断价格敏感人群并触发精准优惠,具体策略略。

 

  • 用户挽留

实时预测离网意图,立即推送干预权益。相较传统模型,AI 方案链路更短、成本更低。

 

 

下一阶段目标紧扣“业务 3.0”数据驱动诉求,以 AI 为牵引,分层推进四项建设:

 

  • 数据治理

持续优化治理效率,并将治理流程本身数字化,确保全链路高效、可追溯。

 

  • 业务数字化

同步完成各业务域的线上化、指标化改造,夯实数据底座。

 

  • 深度分析

与商分团队共建,依托 AI 拓展预测、归因、优化等高级分析场景,突破 Excel 级统计局限,输出可落地的策略建议。

 

  • 体验简化

迭代“九章 AI”交互,使取数、用数、分析全程口语化即可完成,最终实现“会说话即可享有专属数仓/数分”的数据平权愿景;在长尾需求普遍满足的同时,把高价值场景推向更专业的洞察深度。

 

Q&A

 

Q1:老师你们的AI的自然语言处理与结构化查询是怎样融合的?

 

A1:通过和业务数仓配合,提升数据质量质量,基于确认后的业务和数据整体知识库,包含业务术语、业务指标、schema说明等核心内容,通过问题澄清、歧义消除agent和sql生成和检查agent来完成自然语言到结构化查询的转化。

 

Q2:老师,你们引入agent后遇到的最难解决的问题是啥?

 

A2:最难的是测试案例集合覆盖不到生产的全部案例,部分生产的案例解决起来费力度很高,需要从底层大模型选型、知识补充和工程优化如agent执行流程设计优化等多个手段一起来解决问题。

 

Q3:知识库平台是每个领域搭建一个吗?数据领域的知识库是不是单独搭建的?

 

A3:每个业务子领域都搭建了一个知识库,这样既能避免业务子领域之间出现交叉歧义,又能很好提升数据召回并控制上下文大小

 

Q4:AI在数据分析中是怎样降低多维度指标分析和预测任务的难度?

 

A4:多维度指标分析场景下,用AI可以采用暴力分析的方法,将多个维度进行排列组合,哪个组合结果分析结果有价值就用哪个。

 

图片

获取本期PPT,请添加群秘微信号:dbachen

↓复制链接到vx可回看本期直播

https://weixin.qq.com/sph/Af3S9HMPY

 
最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告