直播预告丨AIOps在大模型训练场景的实践

dbaplus社群 2025-10-09 09:57:35

随着大模型训练迈向千亿乃至万亿参数规模,其复杂的异构计算环境与漫长的训练周期对基础设施的稳定性和运维效率提出了极致挑战。传统的运维手段已难以应对训练过程中频发的性能波动与隐性故障。

 

10月13日(周一)19:00蚂蚁集团超级计算技术部AIOps专家汪周飞老师,将带来AIOps在大模型训练场景的实践》主题分享与大家深入探讨如何保障大规模模型训练场景的稳定性。

 

活动信息

 

 

  • 主题:AIOps在大模型训练场景的实践

  • 讲师:蚂蚁集团 超级计算技术部AIOps专家 汪周飞

  • 时间:10月13日(周一)19:00

  • 地点:线上直播间

 

讲师信息

 

 

 

直播地址

 

 

 

 

 

>>>>

更多直播干货

 

 

添加助手获取PPT、加入直播群

 

 

 

更多『智能运维新范式』专题直播

 

在AI和大模型技术加速落地的当下,智能运维已不再停留于“问题发现与告警”,而正演变为以数据为基础、以智能决策为目标的全新体系。大模型赋能AIOps,并让海量运维数据得以被实时洞察、自动分析,生成更精准的决策建议,推动运维从被动响应走向主动优化,最终迈向全网自治的高阶水平。

 

基于上述背景,dbaplus社群携手蚂蚁集团携程多位智能运维专家,分别在10月13/20/27日周一19:00开展『智能运维新范式』专题直播,将聚焦大模型训练、大数据AIOps实践、运维大脑架构设计等智能运维领域的热门议题进行深度探讨。扫码可预约直播:

 

最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告