白鳝经验谈,解DBA疑难之惑

dbaplus 2015-10-29 11:52:57


在10月27日子衿技术团队首席架构师白鳝(徐戟)老师带来的分享中,DBA+各城市群的群友们都受益匪浅,纷纷点赞,同时也围绕其分享的主题以及作为DBA的职业规划困惑,向白鳝老师提出了不少问题。以下精选出一部分,由白鳝老师根据资深从业经验亲自解答。

 

 
 
 

Q1:您IT基础架构方面是怎么去专攻的呢?作为一名数据库的从业人员,如果往架构师方向发展,需要积累哪些能力?

 

白鳝:IT架构需要广泛接触,这个和平台有关。如果你所处的平台接触外面的机会少,那是很难有快速发展的。先要广,一专多能。一专是前提,才有多能,广而不精也不行。数据库精其实是一个十分好的点,因为数据库和IT基础架构的各个方面都有关联。

 
 
 

 

 
 
 

Q2:您认为DBA最后的出路在哪里?

 

白鳝:如果做技术的话,DBA往往会往架构师方面发展,因为DBA和IT基础架构的各个方面关系都十分紧密;当然也有一些DBA最后去做IT技术管理了,比如牛新庄现在是民生IT部的老大,这也是DBA的好榜样。其实在《DBA的思想天空》里也探讨过这个问题,有几个出路:1、在某个技术方向上做精,有一定的特色,也就是人无我有,人有我精;2、争取往IT管理岗位转型;3、往架构师方面转型;4、往业务专家方面转型;5、转向全能型选手。我这行干了20多年了,从软件开发到DBA、到Oracle优化、到系统优化,再到IT架构师。

 
 
 

 

 
 
 

Q3:测试环境的搭建都要考虑什么?毕竟测试和生产硬件配置不一致,而且如果数据量很大的话,也不可能都在测试环境还原一下吧?

 

白鳝:这个和测试的内容有关,1:1的测试环境当然是最好的,不过往往在优化工作中很难做到。如果有1:1的环境,SPA做分析,可以得到最佳的模拟效果。但是在条件不具备的情况下,能够导入数据,进行一些类比似的仿真测试。比如这个项目中,在测试环境中测试季度分区和月度分区的性能差异。

 
 
 

 

 
 
 

Q4:数据库的性能可以看一些AWR的值来计算,那么单论存储来说,怎么看存储的性能?看什么参数?值越大存储性能越好吗?在您分享的案例中所说的一些存储相关的参数值比如磁盘IO的响应时间都是怎么计算出来的呢?系统上是从sar、iostat这样的命令计算的吗?能否从Oracle数据库层面和从OS层面、存储监控层面举例说明一下怎么看磁盘IO性能?

 

白鳝:AWR里面有随机读写,顺序读写的相应时间,有LOG FILE PARALLEL WRITE的指标,这些都是很重要的IO性能指标。在IO相关小节,也有IO的负载情况,这些都是十分有价值的。在OS层面,通过sar –d,iostat,glance等命令可以观察OS层面的IO情况。

 
 
 

 

 
 
 

Q5:想知道sar那个监控命令怎么写的?或者说有什么磁盘性能的监控方式?db的磁盘性能响应多快才算正常?

 

白鳝:sar -d,iostat 这些命令都可以用来分析IO性能,各个操作系统会略有不同。如果没有性能问题,传统存储的随机读写响应时间在4毫秒左右。当然如果CACHE够大,数据够集中,可能这个指标是1-2毫秒,甚至更低。

 
 
 

 

 
 
 

Q6:优化的步骤里,为什么存储cache的调整要放到最后调整,中间隔了些时间,而不是一气呵成?

 

白鳝:风险控制,当时也是因为存储工程师没在现场,调整怕出问题没有高手能解决。每个客户的停机窗口都是有要求的,这个客户只有周末才能实施。

 
 
 

 

 
 
 

Q7:多少盘跟cache跟最大io能力这个怎么换算?

 

白鳝:最简单的折算方法,比如一个15000 RPM的SAS盘,IOPS是150-200,100块盘是15000,CACHE命中率是70%,那么IOPS是多少,大家都算得出吧?【Cache就直接读存储cache意思15000只是30%,那IOPS最大可以到50000咯?】是的。【50000就是这个存储的极限。请教当前系统的IOPS用什么看最为准确?】大体就是这样估算。从Oracle层面和从OS层面、存储监控层面看到的IOPS可能会有差异,OS层面的精确度更高一些。但是我们经常是集中式存储,存储监控看到的是一个整体的情况,看不出某个系统的情况(部分高端也可以看),所以很多情况下,通过OS来看。nmon也是不错的工具,包括glance,osw。

 
 
 

 

 
 
 

Q8:小弟最近研究Oracle公有云、私有云较多,感觉建设和管理数据库云、中间件云必然会成为DBA未来工作职责的一部分。也就是说,DBA的工作职能在云时代的驱动下,将会发生巨大的改变,请问这个白总怎么看?

 

白鳝:在云时代下,光靠人力是不行的,要加大自动化运维手段的建设。青云在广州的数据中心,没有专职的运维人员,几百台服务器的规模,靠的是自动化运维工具。一个人管几百台机器现在很常见,网上有不少青云机器人的资料,看看会有些启发的,这个不简单是一些监控工具的问题,而是运维自动化社区。自动化运维今后的需求会越来越大,APM工具大家也关注一下。

 
 
 

 

“DBA+社群”将陆续在各大城市群进行线上专题分享活动,以后的每周二、周四晚上都将成为【DBA+专题分享】的固定时间,欢迎大家积极加入我们。无论是内容还是形式,有好的建议我们都会积极采纳。想参与的小伙伴们可关注我们的微信号:dbaplus

 

 

扫码关注

DBAplus社群

来自各领域的牛逼DBA正在向我们汇聚


最新评论
访客 2023年08月20日

230721

访客 2023年08月16日

1、导入Mongo Monitor监控工具表结构(mongo_monitor…

访客 2023年08月04日

上面提到: 在问题描述的架构图中我们可以看到,Click…

访客 2023年07月19日

PMM不香吗?

访客 2023年06月20日

如今看都很棒

活动预告