直播预告丨B站围绕稳定性、容量运营治理、SLO、风险预警的SRE体系建设

deeplus直播 2023-02-26 11:38:00

稳定性、效率、成本乃SRE三板斧,所有工作都围绕此三方面展开,企业要想构建完善的SRE体系,需要统一规划好三者的能力建设,为此dbaplus社群携手bilibili四位运维专家,围绕“甩掉技术债包袱,B站SRE体系建设与转型实践”这一主题开展线上直播分享,针对稳定性建设、容量运营治理、SLO运营体系与报警、风险预警等内容进行深入探讨,为各行各业的运维转型与SRE体系建设提供更多新思路。
 

图片

 
 
  • 观看方式:线上直播间

  • 直播日期:2023年3月4日(周六)

  • 直播时间:14:00-17:00

 

活动议程

 

图片

 

分享嘉宾及议题



吉翔

bilibili

资深SRE工程师

 

《服务稳定性建设:高可用架构与多活治理》

 

议题要点及收获:

  1. B站高可用架构,包括接入层、数据层、缓存层、消息层等组件的高可用能力和优化演进;

  2. 高可用架构下业务多活改造接入的方法;

  3. 多活统一管控和治理的思路。

 

嘉宾介绍:负责在线业务SRE相关工作,深度参与业务多活建设项目。当前专注于核心业务多活建设推进、多活管控治理等工作。



张鹤

bilibili

资深SRE工程师

 

B站应用降本增效与容量运营治理》

 

议题要点及收获:

  1. 容量弹性伸缩在业务稳定性提升上如何落地;

  2. 降本增效的大背景下,如何平衡稳定性和降本的关系;

  3. 容量运营落地时遇到哪些难点,如何赋能业务。

 

嘉宾介绍:2020年加入B站,先后负责社区/直播/OGV/推广搜相关的SRE工作,深度参与多活、活动保障、混沌工程、容量治理相关建设,主导容量管理平台、混沌平台的架构设计和落地,负责B站S赛、跨年晚会、拜年祭等相关活动的基础架构保障工作,目前主要负责推广搜业务的稳定性建设。
 


武安闯

bilibili

基础架构部SRE负责人

 

《SLO运营体系与报警:如何从工程理论探索到最佳实践》

 

议题要点及收获:

  1. 可用性指标的观测对象、观测方案和落地实践;

  2. Google SRE中最核心的SLO工程方法论及SLO实施经验;

  3. 以SLO工程为核心探讨服务的可用性度量、质量运营与报警治理。

 

嘉宾介绍:先后负责中间件运维、在线业务保障和SRE稳定性工程,《2021.07.13 我们是这样崩的》文章作者。从0到1带领运维向SRE转型,建设B站稳定性体系,主导建设SRE转型、SLO工程、容量管理体系、高可用架构、多活容灾等专项,当前专注于SRE稳定性体系规划建设和落地实践。



谷林涛

bilibili

资深SRE开发工程师

 

《B站风险预警的架构设计及落地实践》

 

议题要点及收获:

  1. 标准预警事件的SOP处理流程、如何抽象整个风险事件的闭环流程以及风险预警的整体架构图和具体落地方案;

  2. 稳定性建设体系构建——事前篇;

  3. 预警事件处理的技术挑战、能力建设和产品整合。

 

嘉宾介绍:B站事件运营中心研发负责人,负责建设bilibili内部稳定性平台产品,提升线上问题的应急协同效能。同时负责工单、封网管控、拓扑定位产品,总体保障业务系统的安全生产。

 

扫码直接进入直播间

 

图片

扫码进入直播间

别忘了点击开播提醒哟

最新评论
访客 2023年08月20日

230721

访客 2023年08月16日

1、导入Mongo Monitor监控工具表结构(mongo_monitor…

访客 2023年08月04日

上面提到: 在问题描述的架构图中我们可以看到,Click…

访客 2023年07月19日

PMM不香吗?

访客 2023年06月20日

如今看都很棒

活动预告