
作者介绍
陈迪豪,顺丰科技AI技术平台负责人。目前负责顺丰科技AI和大模型基础设施建设,曾任第四范式平台架构师和OpenMLDB项目PMC、小米云深度学习平台架构师以及优思德云计算公司(UnitedStack)存储和容器团队负责人。活跃于分布式系统、机器学习相关的开源社区,也是HBase、OpenStack、TensorFlow等开源项目贡献者。
分享概要
一、AIOps 与 RCA 技术演进趋势
二、基于多智能体的运维体系搭建
三、大模型落地多场景根因定位系统
四、DeepSeek等大模型优化与实践
一、AIOps与RCA技术演进趋势
运维技术演进呈现从DevOps到AIOps的发展脉络。

DevOps阶段(自动化运维范式):
以自动化流程为核心,打通开发与运维壁垒,通过持续集成/交付(CI/CD)实现部署、交付周期的优化,提升迭代式效率。
AIOps阶段(智能运维新范式):
基于大数据分析与机器学习,实现异常检测、根因定位和故障自愈,将运维从被动响应转向主动预测,显著降低平均修复时间(MTTR)与业务中断风险。

RCA技术难点主要体现在多模态数据融合、因果推断、数据质量及落地工程化等方面:
1)多模态数据融合难
需整合告警日志等非结构化数据与 APM、CMDB 等图结构数据,实现多源异构数据对系统状态的统一刻画;
2)因果推断复杂度高
组件间依赖关系交织,易受虚假相关干扰,精准推导根因难度大;
3)数据质量要求严苛
噪声、缺失值会直接影响分析准确性,需从源头保障数据质量;
4)工程化落地门槛高
需结合领域知识,缺乏通用框架,模型训练优化成本高且对性能、可解释性要求极严。
解决RCA技术难点的关键:
1)运维数据整合
针对多模态数据融合难题,整合海量多源异构数据(含非结构化、图结构数据),构建统一数据平台,精准刻画系统状态,为根因分析提供坚实数据基础;
2)多智能体协同
面对复杂因果推断,引入多智能体协同机制,通过各智能体分工协作,有效应对组件间复杂依赖关系,减少虚假相关对根因推断的干扰;
3)大模型推理与知识沉淀
优化大模型训练与推理流程,结合私部署大模型及私域运维经验构建专属知识库,同时关注大模型安全性问题,最终提升整个RCA流程的效率与准确性。

总结来说,未来AIOps和RCA的趋势是:
1)多模态数据融合
2)大模型驱动决策
3)自动化修复闭环
4)端到端因果链追踪
5)人机协同演进
6)动态阈值自优化
二、基于多智能体的运维体系搭建

当前,顺丰多智能体平台的GPU集群规模已有1000+卡,通过自研GPU池化技术,可支持最新满血版Deepseek在私有化环境中部署,内部大模型用户达7000余人,模型服务日调用量超2亿次。

顺丰多智能体系统在运维场景中聚焦三大核心应用方向,各有明确价值:
1)根因定位
各智能体协同运用因果图分析等方法,在业务指标异常时快速精准定位系统故障的根本原因,助力运维人员及时修复,保障系统稳定运行。
2)策略推荐
各智能体依据系统状态、历史数据及业务需求,为运维决策提供多样化策略建议,使运维决策更科学高效,提升运维效率。
3)动态阈值
智能体根据系统实时数据和历史趋势,自动调整监控指标阈值范围,适应业务波动和系统变化,减少误报漏报,实现精准告警。
整个项目落地将拆分成不同维度的专项,从底层往上发挥支撑作用。

专项一:多源数据融合的系统横拟拓扑图构建
构建整合CMDB、APM的统一运维数据中台,由运维平台研发部门提供核心支撑。
专项二:多智能体协同诊断能力建设
针对不同单告警类型进行智能体分析,确保单告警的分析效果。现实情况下,可能会出现一个故障有告警风暴或者单个节点多告警的场景,因此要做好异常节点多告警收敛和分析。
专项三:运维知识库和能力建设
聚焦运维知识库搭建,整合顺丰内部运维经验与自动化告警分析系统资源。系统积累了不同基础组件的实战专家经验及分析脚本,脚本融合顺丰特色与外部经验,有效提升根因定位效果。
专项四:多应用场景的AIOps运维工具落地
算法实现后与告警平台集成,在告警处理和分析环节中通过RCA系统及AIOps平台触发根因定位。该算法可作为AI客服或数字化AI工程师,待内部运维知识、定位工具及核心能力完善后,其协助排查故障的效果可媲美专业运维工程师。

根因定位系统较为复杂,真实生产故障通常伴随多个告警,需通过系统按时间维度收集告警并完成收敛。
告警收敛可采用多种算法,基础逻辑为过滤重复和不相关的告警后开展分析,核心是识别告警关联的依赖节点以及判断是否存在共同依赖关系,再基于这些关系构建拓扑图。
例如,当发生网络设备故障时,告警风暴会影响多个节点。若这些节点均依赖同一网络设备,则该网络设备可能为根因节点,识别后将通过多智能体算法校验。
但有时候告警节点未必是根因节点,需借助大模型算法溯源。结合现状、收集的数据以及运维经验判断非根因节点时,架构师与运维人员会参与决策,例如溯源上游或下游节点校验,持续溯源直至定位根因节点。

在多智能体系统的协同机制中,采用“架构师Agent为核心+多领域专属Agent分工协作”的模式:
架构师Agent:承担核心协调者与决策者角色,负责系统级架构研判和整体策略制定,对各领域Agent的分析结果进行整合判断,决策下一个分析节点。
领域专属Agent:围绕架构师Agent,细分出告警分析、云日志、APM链路、基础组件、基础监控、数据库分析等6类专属Agent,每类Agent均具备独立大模型能力、专属知识库及数据获取接口。例如,告警分析Agent可提取“磁盘满”等告警根因信息并通过大模型分析现象与原因;基础监控、数据库、云日志等领域的专属Agent,能针对各自技术组件(如Redis、MySQL、ES等)开展精细化功能分析。
通过这种机制,各Agent分工明确且协同高效,共同完成故障根因定位等复杂运维任务。
三、大模型落地多场景根因定位系统

复杂场景RCA系统按照“四个专项”的路径分步实现:
1)中台数据准备
先推进运维数据中台建设,完成APM、CMDB、告警及上下游查询接口的搭建,夯实多源数据融合的基础;
2)运维知识整合
同步整合运维知识,为智能体提供知识支撑;
3)多智能体实现
基于数据和知识,开发多个领域专属智能体,实现多智能体协同诊断;
4)产品工具集成
将智能体与运维工具集成,例如针对顺丰内部UIOC系统或线上生产故障场景,自动触发工具完成定位排查,实现工具链的智能化落地。

AIOps的关键指标从四个维度展开:
1)数据处理能力
AIOps平台高效收集、整合和预处理多源异构数据,为分析决策提供全面准确的数据基础,实现对IT运维状态的精准把控。
2)定位有效性
借助智能算法快速精准定位故障根因,提升运维效率,减少系统故障时间,保障业务连续性和稳定性。
3)自动化响应
基于分析结果自动触发响应措施,如自动调整资源配置、重启服务等,减少人工干预,提升运维效率和系统可用性。
4)可解释性
直观展示运维数据和分析结果,确保智能分析和决策过程的可解释性,增强运维人员对系统的信任和使用效果。

该根因定位系统以覆盖真实生产故障场景为目标 —— 当生产故障发生时,会同步涌现大量告警与异常节点,需通过告警收敛和异常节点筛选,依据依赖关系定位可疑根因节点后开展溯源。其算法流程如下:
先收集告警,再通过告警类型、节点筛选等多种方法完成收敛。以CPU利用率告警为例,70%、80%、90% 阈值可能触发含义相同的告警,因此需要重新分析这类告警,保留最早出现的记录,只针对CPU高负载的首次告警时间开展分析。
告警映射至多个节点,采用传统多维分析算法对各告警节点打分排序。打分需结合告警数量、节点图中重要性、告警异常链路最短路径等权重因素,经指标加权计算后选取Top-n节点。
针对Top-n节点,可基于海量告警筛选可疑根因节点开展分析。单个节点存在多告警时,先完成同类聚合,再由对应不同告警类型的智能体分别分析,统一通过大模型输出报告。

统一告警面板:
告警触发后,系统按类型调用对应智能体(如Deepseek)或其他知识库获取数据,再由大模型生成总结。

根因定位系统:
系统会按时间维度收集告警并完成收敛,将告警节点映射至图表,借助CMDB图数据库开展多维分析,筛选出权重较高的Top 3节点分别生成分析报告。
此过程主要依托Deepseek与Agent能力,分析节点的异常特征、API信息是否有调用链等问题,以及错误日志能否提取有效信息。
错误日志往往数量庞大且存在重复告警,需进行聚类分析。多数告警与数据库连接相关,据此可定位当前节点连接的数据库或外部依赖存在问题,所以该节点可能为根因节点。针对根因节点,系统会生成策略推荐,如重启或回滚操作。

人工定位分析时,专业运维可直接识别图表拐点及异常信息,大模型虽具备此能力,但受限于推理成本与效率尚未广泛应用。技术上,通过图像大模型提取基础监控异常信息具备可行性,这一方向已纳入探索范围。
人机交互方面,人工台账包含大量交流信息,无需手动输入模型让其生成回答。基于ASR或TTS模型,可实时获取作战实验与作战会议室中的信息,这些信息既可作为模型的输入,也能通过TTS转化为语音输出,辅助根因定位。

顺丰搭建了自己的MCP市场,其中AIOps运维工具会集成MCP开发能力,同时开发运维工具MAC Server。技术组件或运维平台开发者可封装大量运维接口,封装后所有算法和智能体通过MCP统一协议进行对照对接。

1)落地价值
①提升运维效率:快速定位故障根因,减少排查时间,加快故障恢复速度。
②保障业务连续性:及时发现并解决故障,避免业务中断,保障企业运营与收益。
③优化资源配置:通过根因分析发现资源问题,为资源分配和优化提供依据。
④积累经验知识:将故障处理经验转化为可复用知识,构建知识库,提升团队运维能力。
2)技术难点
①数据采集与关联:需采集多源异构数据,确保数据准确、完整,建立数据关联以形成服务闭环和调用链路。
②算法与模型:故障场景复杂,需平衡算法准确率与性能,避免系统资源过度消耗。
③实时性要求:故障根因定位需在短时间内完成,对系统实时性要求极高。
④系统复杂性与动态性:系统结构复杂且动态变化,故障传播路径和影响范围难以预测。
四、Deep Seek 等大模型优化与实践

运维体系包含四大核心模块:
1)运维中台:整合资源,提供运维数据中台查询接口等基础能力
2)自动化工具:DevOps平台支持自动化执行,提升运维效率
3)智能体平台:多智能体为核心支撑,承载大模型与智能体协作
4)根因定位:在智能体平台实现算法,精准定位系统故障根因

1)私有化部署
出于内部运维数据与知识库的安全性考量,私人采购GPU的性能难以跟上行业快速发展的节奏。因此可通过混合云技术部署Deepseek等大模型,将所有数据均存储于本地。这样既保障长期使用,又降低成本。
2)推理优化
目前顺丰与多家云厂商合作,通过PD分离等方案提升KV缓存与优化推理框架。此外,Deepseek的MTP技术也将用于此,来提高大模型的响应速度。

1)多告警收敛
大模型通过语义理解关联多类告警,压缩冗余噪音,提升告警有效性。
2)日志分析优化
大模型在日志分析中表现优异,因此会将智能体与功能模块进行拆分。对于无法通过规则匹配的日志,将基于大模型进行信息提取与判断。
3)根因节点溯源
根因节点溯源采用Deepseek大模型,用于判断节点是否具备足够的数据支撑其为根因节点。若该节点不是根因节点,则排查其上下游依赖,结合节点健康度及自身信息进一步判断。例如,报告提示MySQL连接存在问题时,如果其下游存在MySQL节点,大模型可快速定位需溯源的下游节点。
4)时序数据分析
涵盖异常检测与持续数据分析场景。
5)多智能体协同
通过多Agent规划和协作,利用全局信息优化每个智能体的输出报告。

1)提示词工程
目前使用私有化部署Deepseek-V3 685B大模型,优化提示词后根因定位有效性提升36% 以上,推荐准确率提升50% 以上。
2)知识库集成
知识库与运维经验的引入同样关键。此前基于图的算法缺乏运维经验支撑,只是依据图的配置端口与告警数量开展权重分析。实际场景中,部分告警治理不完善,存在节点重复告警、告警量冗余且重要性不均的问题。
对告警重要程度的判断基于自身的运维经验。借助健康度相关的运维经验与判断逻辑,通过接口接入,可将根因定位准确率提升29% 以上。
3)多智能体协同
在AIOps平台中,智能体协同方案的效果显著优于单智能体方案,且大幅超越基于复杂规则的算法方案,其核心目标是将根因定位准确率提升至90%。
Q1:哪些数据适合微调,哪些数据适合RAG,包括决策树、专家经验或分析CoT等,如何进行分类?多Agent协同时,应选择集中式执行,还是采用动态调度?
A1:微调与知识库并不冲突。特定业务场景下,为保证业务效果会开展微调;而当知识库体量较大,无法全部嵌入提示词时,我们会从知识库构建、提示词优化等维度进行调优。
根因定位场景中,我们目前未进行微调。顺丰内部微调实践多用于意图识别及物流垂类模型,解决意图识别问答任务,该场景对响应延迟要求高。由于7B参数规模的模型微调效果有限,因此微调更适用于对性能敏感、且需沉淀内部知识的场景。
目前顺丰RCA场景未开展微调且短期无计划,当前微调成本非常高,72b及更小参数模型微调效果未必优于通用大模型。
我们了解并探索过了多种相关算法,曾尝试使用Swarm或OpenAI等公司提供的标准Agent SDK,借助大模型能力调度Agent。这个过程需明确了各Agent能力定位,给出具体场景供其选择工具或进行Agent间的协同,但实际效果较差。
当前大模型无法将任务场景拆解为多个步骤,无法自动选择不同Agent完成任务,因此整个多智能体协同架构中仍依赖人工逻辑设计。在具体场景中,例如遇到APM类报警或节点API异常时,会通过硬编码调用APM智能体分析,统一收集各智能体结果后,再由架构师Agent判断是否找到根因,目前相关工作流协作机制都是通过硬编码或工作流实现。
Q2:大模型通常为触发式调用,如何与日志分析、时序数据异常检测这类需要实时监控的场景相匹配?其背后的工作机制是怎样的?
A2:我们并非对所有告警都调用大模型。多数告警可自动处理或运维人员直接识别,大模型分析采用后置触发模式。收到告警并初步获取一些自动化图表信息后,由运维手动触发AI根因分析。
动态阈值采用图像识别算法,因需提前计算各指标次日每分钟上下边界阈值,指标量极大,所以主要采用了传统时序象限图、三周同比等方法计算基础阈值,而不使用大模型进行大规模计算。当阈值触发后,也会对该异常点进行二次分析,再通过CV等大模型微调或训练后的二分类模型来判断其合理性。
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721