运维数智化转型:全链路故障诊断、离在线混部、金融规模化监控等逐一攻克丨DAMS峰会

DAMS 2022-09-06 10:29:30
云原生浪潮的来势汹汹,势必让企业的运维模式、运维工具、运维团队构建等发生巨大变化,不得不面临复杂的转型和改造,企业如何提前迎战,并借助云原生带来的便捷和弹性,推动自身的数智化转型?为此,第八届DAMS中国数据智能管理峰会特别精选以下运维领域热门议题,将于10月14日在上海与大家一起进行深度探讨。

 

DAMS中国数据智能管理峰会
 

 
时间:2022年10月14日
地点:国家会展中心上海洲际酒店(上海市青浦区诸光路1700号)
指导单位:中国信息通信研究院、上海市软件行业协会、上海市计算机行业协会
主办单位:dbaplus社群
 
 

 

 
运维主题看点

 

  • 京东、美团、蚂蚁、新浪、携程、vivo、工商银行、华夏银行等互联网名企和大型银行,都是怎么做运维数智化转型的?

  • 如何基于数据库源码的分析,快速、准确定位故障根因?

  • AI算法如何更好地与真实运维场景结合,使运维数据价值升级?

  • 云时代下,如何通过存算分离、离在线混部等设计,满足高并发、高可用、高性能的需求?

  • 金融行业规模化、移动化、无人化运维如何规划与落地?

 

 
演讲嘉宾及议题


京东零售多维分析存算分离的云原生实践

京东 OLAP团队负责人 李阳

 
 

云原生时代下,提供可快速交付、可弹性伸缩的多维分析服务,同时满足高可用、高性能的诉求已经成为业界共同发展的方向。本次分享将主要介绍京东零售多维分析服务在云原生建设过程中的经验、思考与展望,具体包括以下内容:

  1. OLAP云原生建设思路;

  2. 存算分离选型与落地;

  3. 智能化运维实践。


数据库故障分析&性能优化平台建设

美团 数据库自治服务团队负责人 沈裕锋

 
 

分享如何基于MySQL源码的分析来快速、准确定位故障根因以及通过改造MySQL查询优化器源码,基于Cost模型自动给出风险SQL的索引优化建议,具体包括以下内容:

  1. 快速、精准地做数据库故障根因分析;

  2. 快速发现潜在的风险SQL并自动给出索引优化建议;

  3. AIOps在数据库领域的探索及落地经验。


新浪智能数据分析平台建设

新浪 部门主管 高鹏
 

云原生离线在线资源混部技术落地

携程 研发总监 周昕毅

 
 

介绍基于K8S平台进行离线计算集群与在线应用集群的资源混部的技术方案,具体包括以下内容:

  1. Yarn on K8S;

  2. 云原生网络模型;

  3. 统一资源调度;

  4. 大数据平台自动化运维管理。


vivo业务高可用建设实践

vivo 业务运维总监 周甲黎

 
 

随着业务高速发展,vivo对稳定性的诉求越来越高,面临着机房可用性、业务强耦合等多方面的挑战,本次分享将基于这些业务挑战,给大家带来一些高可用建设的新想法和建议,具体包括以下内容:

  1. 影响业务稳定性的因素;

  2. 高可用建设的常用方法;

  3. 在业务标准化、高可用架构应用、预案演练及复盘等四个方向做的重点建设、沉淀的运维方法,尤其是高可用建设的具体落地实践。


工商银行规模化监控系统落地实践

工商银行 数据中心系统三部高级经理 胡继强

 
 

介绍工行全球总分行组织模式下,两地三中心高可用布局的监控体系结构,以及超十万级纳管服务器规模的监控数据采集、处理、预警、通知和自动化处置的方法,具体包括以下内容:

  1. 工行开放平台的监控体系;

  2. 如何适应云环境、分布式、国产化等规模化、差异性的挑战;

  3. 未来,监控系统将何去何从。


京东科技全链路故障诊断智能运维实践

京东科技 智能运维算法负责人 张静

 
 

本次分享将介绍京东科技智能运维整体能力、传统运维与智能运维在故障预警到根因定位的直观比对时间轴,以及智能运维建设的价值。还将详述时序异常检测算法学件在京东科技线上横向业务场景,纵向监控、数据库、网络、资源调度等多个场景的落地经验,并提供以下启发:

  1. 运维算法学件建设经验,持续化迭代训练体系搭建方案;

  2. 运维算法学件与真实运维场景落地结合的实践经验;

  3. IEEE智能运维方向论文收录经验,知识产权创新点挖掘方法。


运维数据价值升级:基于SLO健康度体系探索与实践

蚂蚁集团 AIOps技术专家 徐新龙

 
 

SLO为应用的服务质量定义了明确的目标,帮助团队提供一致的客户体验、平衡功能研发与平台稳定性,改善与内部和外部用户的沟通。本次分享将以蚂蚁集团内部实践为例,介绍如何从0到1构建SLO、如何将AI结合SLO使数据发挥更大价值,以及基于SLO的健康度体系在运维场景下的成功实践,并提供以下启发:

  1. 结合实际场景和需求,定义SLO的意义和出发点;

  2. 通过标准化设计,构建自动化能力,提升规模和场景覆盖,简化SLO配置的复杂度和费力度;

  3. 将SLO应用到日常的应急场景中,结合AI算法在异常检测、故障定位、预案推荐等场景下的使用,提升应急能力和效率。


云数据中心的移动化和无人化运维探索与实践

华夏银行 信息科技部中间件维护组组长 魏中伟

 
 

主要介绍华夏银行云数据中心在向“四层三域一中台”架构演进的过程中,对移动化和无人化运维的探索路径和经验总结,具体包括以下内容:

  1. 华夏银行云数据中心的“四层三域一中台”运维架构是如何构建的;

  2. 华夏银行构建移动化运维体系的搭建方案、安全措施、最新成果;

  3. 华夏银行无人化运维的实现方案、经验总结、最新成效和未来计划。

 

*更多运维主题演讲嘉宾及干货议题在路上,持续更新……

 

 
峰会议程

 

 
报名方式

 

码上报名

 

↓点这里了解峰会更多详情及报名

活动预告