运维转型新解:AIOps、FinOps、SRE、稳定性建设等难题逐一攻克丨Gdevops北京站

Gdevops峰会 2023-06-12 10:22:23
降本增效,近年来成为了运维圈的高频关键词。随着AI、云原生等新兴技术的深化应用,运维数智化转型的进程得以加速,运维也肩负起了降本增效的工作使命。为此,2023 Gdevops全球敏捷运维峰会-北京站聚焦AIOps、FinOps、SRE、稳定性建设等运维热点,精选以下热门议题,将于7月21日与大家一起交流实践经验、探讨发展机遇。
 
Gdevops全球敏捷运维峰会-北京站
 

图片

 
时间:2023年7月21日
地点:北京新世纪日航饭店(北京市海淀区首都体育馆南路6号)
指导单位:上海市软件行业协会、上海市计算机行业协会、中国信息通信研究院云计算与大数据研究所
主办单位:dbaplus社群
 
 

 

 
运维主题看点

 

  • 互联网大厂、国有大型商业银行在智能运维上的建设进展与创新实践;

  • 解析Google SRE中最核心的SLO工程方法论及SLO实施经验;

  • AI4DB作为近年来的热门研究方向,如何构建真正意义上的数据库自治能力;

  • 如何将大模型与向量数据库结合,实现高速数据访问、智能决策及问题快速解决;

  • FinOps如何从概念到落地,实现云成本优化。

 

 
演讲嘉宾及议题

 

 

 
 

本议题将介绍智能运维的机遇与挑战,建设银行智能运维建设的目标、基本框架、主要创新点、具体实践以及智能运维标准的研制情况等,主要包括以下内容:

  1. 数字经济大背景下,智能运维的机遇和挑战有哪些;

  2. 国有大型商业银行IT运维数字化、智能化转型的方向及思路是什么;

  3. 建设银行在智能运维方面做了哪些研究与实践,取得了怎样的效果;

  4. 智能运维标准的研制进展如何。

 

 

 
 

数据库自治指的是数据库具有自我管理和自我优化能力的能力,该能力可以帮助企业节约大量时间和人力成本,同时提高效率和保证数据安全性。AI4DB作为构建数据库自治能力的关键技术,在实践中发挥了非常重要的作用。在此次分享中,我们将为大家详细介绍AI4DB在美团数据库自治能力构建过程中,各方面的应用实践:

  1. AI在DevOps领域能解决哪些问题;

  2. 如何实现大规模时间序列的实时异常检测及诊断、自愈;

  3. 大语言模型LLM能带来什么新的改变。

 

 

 
 

本次分享将介绍京东科技智能运维整体能力、传统运维与智能运维在故障预警到根因定位的直观比对时间轴,以及智能运维建设的价值。还将详述时序异常检测算法学件在京东科技线上横向业务场景,纵向监控、数据库、网络、资源调度等多个场景的落地经验,并提供以下启发:

  1. 运维算法学件建设经验,持续化迭代训练体系搭建方案;

  2. 运维算法学件与真实运维场景落地结合的实践经验;

  3. IEEE智能运维方向论文收录经验,知识产权创新点挖掘方法。

 

 

 
 

新东方集团有几十个地方校和机构,各地散落的存储和计算资源没有统一化管理和流程,我们在此基础上,研发了新东方运维门户系统(Pandora),该系统承载了线上所有业务的云资源申请、基于FinOps的成本控制、数据平台、安全中心等,同时根据新东方业务的特殊性,将基础数据进行了资源整合,形成了运维一体化的安全数据平台,本次分享议题包括:

  1. 系统地了解平台研发设计初期,如何做好服务设计、开源软件与自研结合;

  2. 针对已有数据流程,利用最少的研发成本集成至平台,加快整合速度;

  3. 理解什么是安全开发,并分析其疑难杂症、问题点;

  4. 分享FinOps运维和研发关注的经验和建议。

 

 

 
 

我们一般会用服务可用性和数据可靠性两个指标来度量存储系统的服务能力。对于数据可靠性行业一般会用N个9来表示,但影响数据可靠性的因素众多,比如副本数、硬件等,我们在系统设计中如何控制这些可能会影响可靠性因素的指标,进而达成N个9的数据可靠性设计指标,这对存储系统的架构设计来说是个不小的挑战。本议题将结合vivo存储系统的实际案例来介绍数据可靠性的计算,以及如何在存储系统设计中进行控制。

 

 

 
 

货拉拉的监控体系与监控平台介绍:

  1. 监控平台如何打通Metric、Trace和Log这三个可观测性领域的基本要素;

  2. 监控平台如何设计报警系统,实现一个研发人员易用、运维人员好用的报警平台;

  3. 智能算法在报警规则配置、报警降噪、报警根因分析等方面的应用。

 

 

 
 

传统的业务质量体系建设需要投入大量人力做业务梳理、场景定义、指标计算、异常盯盘等,效率低,成本高,SRE中的SLO工程给出了更科学、高效的质量体系建设方式。本议题将介绍SLO工程方法论、如何实践SLO工程,以及如何围绕SLO工程演进到GOC体系,来建设1-5-10能力和风险控制,主要包括以下内容:

  1. 可用性指标的观测对象、观测方案和落地实践;

  2. Google SRE中最核心的SLO工程方法论及SLO实施经验;

  3. 如何以SLO为核心建设业务质量体系;

  4. 在没有GOC组织的情况下GOC能力如何落地。

 

 

 
 

本议题主要阐述面对交易复杂的业务发展和需求快速迭代,京东到家交易系统架构的演进过程中,如何保障系统稳定性并降低资损风险,具体包括以下内容:

  1. 分享复杂系统的长期维稳工作;

  2. 介绍订单资产正确性验证方案;

  3. 详解订单履约全流程异常追踪方案。

 

 

 
 

数据库的稳定性是业务稳定的基座,因此保障数据库稳定运行是所有DBA的首要职责所在,本次分享将展示知乎如何通过梳理、调优、平台化等手段,保障数据库的稳定和高效运行,主要内容包括:

  1. 数据库稳定性概要:定义+方式方法+指标;

  2. 数据库选型:合适的场景合适的DB;

  3. 数据库优化:DB规范+调优;

  4. 平台化:慢日志+监控报警+数据库巡检。

 

 

 
 

大模型具备强大的语言理解和生成能力,向量数据库能高效存储和索引大规模向量数据。将两者结合,可实现高速数据访问、智能决策和快速问题解决。通过大规模数据分析与大模型预测,我们能快速发现关键问题、优化系统、提升可靠性和效率。本议题将深入探讨原理、优势和应用场景,分享创新解决方案和成功案例,具体包括以下内容:

  1. 智能决策和问题解决:如何利用大模型的语言理解和生成能力,结合向量数据库的相似性搜索,快速做出敏捷决策和解决问题;

  2. 系统优化和故障排查:如何通过对大规模运维数据的分析和挖掘,结合大模型的预测能力,快速发现系统优化和故障排查的关键问题;

  3. 数据驱动的运维策略:如何利用大模型和向量数据库的结合,实现数据驱动的运维策略,提升系统的可靠性、效率和安全性。

 

 

 

*更多运维主题演讲嘉宾及干货议题在路上,持续更新……

 

 
峰会议程(部分)

图片

 

 
码上报名

 

图片

扫码可了解完整议题及报名

 

这里了解峰会更多详情及报名

最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告