一、服务器硬件维护检查(15条)
1、物理状态检查:目视检查服务器外观有无明显损伤、变形;指示灯状态(电源、硬盘、风扇、故障灯)是否正常。
2、电源与供电:
检查冗余电源模块状态是否均为正常(绿灯)。
确认电源线连接牢固,无松动、老化、破损。
检查PDU(电源分配单元)指示灯、电流电压显示是否在正常范围。
3、风扇与散热:
检查服务器内部及机柜风扇运转是否正常,无异常噪音(尖锐声、摩擦声、停转)。
清理风扇及散热器格栅的灰尘(按需,结合机房清洁计划)。
监控服务器进风口、出风口温度(通过管理口或传感器)。
4、CPU状态:通过操作系统命令(如Linux的 top/htop, Windows任务管理器)或硬件管理工具(如iLO, iDRAC, IMM)查看CPU利用率、温度是否在合理阈值内(通常<80%持续高负载需关注)。
5、内存状态:
检查操作系统报告的内存总量是否与物理配置一致。
检查内存使用率、Swap使用率(过高需排查)。
通过硬件管理工具或 dmidecode 等命令检查是否有内存ECC错误报告。
6、磁盘状态:
物理磁盘: 检查硬盘指示灯状态(通常绿色正常,黄色预警,红色故障/离线);通过RAID卡管理工具(MegaCLI, storcli, hpssacli)或操作系统检查所有物理磁盘状态(Online, Predictive Failure 等)。
阵列状态: 确认RAID级别,检查RAID阵列状态是否为Optimal或Normal,无降级(Degraded)或失效(Failed)。
背板/线缆: 检查SAS/SATA/NVMe背板连接、线缆是否牢固。
7、PCIe设备:检查关键扩展卡(HBA卡、网卡、GPU卡等)在操作系统和设备管理器中的状态是否正常。
8、管理接口:测试服务器带外管理接口(如iLO, iDRAC, iBMC)的网络连通性和登录功能是否正常。
9、固件版本:(定期)检查关键组件(BIOS/UEFI, BMC, RAID卡, 网卡)固件版本,评估是否需要按计划升级(非紧急不打补丁)。
10、物理连接:检查所有数据线缆(网线、光纤、存储线缆)连接是否牢固、标签清晰、无过度弯折。
11、日志检查:查看服务器硬件日志(通过操作系统事件查看器、dmesg、journalctl 或硬件管理工具),筛选硬件相关错误(Critical, Error, Warning)并处理。
12、备件状态:(周/月)确认关键备件(电源、风扇、硬盘)库存状态和可用性。
13、资产信息核对:(定期)核对服务器物理位置、资产标签、配置信息(CPU、内存、硬盘)是否与CMDB记录一致。
14、清洁度:(按机房清洁周期)确保服务器表面及周边无明显积尘。
15、螺丝与安全:检查机箱盖板是否盖好,固定螺丝是否齐全(影响散热和安全)。
二、网络设备维护检查(15条)
16、物理状态检查:目视检查交换机、路由器、防火墙等设备外观、指示灯(电源、状态、端口灯)是否正常。
17、电源与供电:检查冗余电源状态、电源线连接、PDU状态(同服务器检查点)。
18、风扇与散热:检查风扇运转状态、噪音、散热口通畅度。
19、CPU与内存利用率:登录设备CLI或Web界面,检查CPU和内存利用率是否在正常范围(通常<70%),高峰时段重点监控。
20.、端口状态:
检查所有业务端口状态(up/up),速率和双工模式是否正确。
检查有无err-disable端口,并查明原因。
检查关键端口(上联、核心互联)的输入/输出错误计数(input errors, output errors, CRC, giants, runts)是否持续增长或过高。
21、链路聚合状态:检查聚合端口组状态是否为up,成员端口状态一致,无端口被踢出聚合组。
22、生成树协议状态:检查STP/RSTP/MSTP根桥位置是否预期,各端口角色(Root, Designated, Alternate/Blocking)是否正确,无异常拓扑变更(TCN)。
23、路由协议状态:
检查BGP/OSPF/EIGRP等邻居状态是否正常(Established, Full)。
检查路由表是否收敛、完整,无异常路由抖动或缺失。
24、ACL与策略应用:(按需)检查关键ACL、策略路由、QoS策略是否按预期应用在正确接口。
25、管理访问:测试带外管理口(如管理网口、Console口)的连通性和登录功能。
26、配置文件与备份:(定期/变更后)检查当前运行配置与启动配置是否一致;(定期)备份设备配置文件到安全位置。
27、日志检查:检查设备系统日志(Syslog),关注Error, Warning级别信息,特别是链路状态变化、协议邻居震荡、硬件故障等。
28、固件/OS版本:(定期)检查操作系统(IOS, NX-OS, Junos, EOS, VRP等)版本,评估是否需要按计划升级。
29、物理连接与标签:检查所有网线、光纤跳线连接牢固,光纤接口清洁(无尘),线缆标签清晰准确。
30、机柜内环境:检查网络设备在机柜内安装是否稳固,线缆整齐规范,散热空间充足。
三、存储系统维护检查(10条)
31、控制器状态:检查存储控制器状态是否均为Online,无Failed或Degraded。
32、电源与风扇:检查冗余电源、风扇模块状态是否正常(同服务器)。
33、磁盘柜与磁盘:
检查磁盘扩展柜状态、链路状态。
检查所有物理磁盘状态(Online, Spare, 无Failed, Predictive Failure)。
检查磁盘槽位指示灯。
34、存储池/LUN/卷状态:检查存储池/卷组状态是否正常(Normal),LUN/卷状态是否为Online,无Degraded。
35、RAID状态:确认RAID组状态为Optimal,无降级或重建中(如有,监控重建进度和性能影响)。
36、缓存状态:检查读写缓存状态是否启用、电池/电容状态(如BBU, FBWC)是否正常(OK, Charged),无警报。
37、前端端口状态:检查主机连接(FC, iSCSI, NFS, CIFS)端口状态是否Online,无错误计数异常。
38、后端端口状态:检查连接磁盘柜的SAS/FC后端端口状态是否正常。
39、性能监控:检查关键性能指标(IOPS, 吞吐量MB/s, 延迟ms)是否在基线范围内,无异常飙升或持续过高。
40、快照与复制状态:(如配置)检查本地快照、远程复制(同步/异步)状态是否正常,无失败或挂起。
41、容量管理:
检查存储池/文件系统的总容量、已用容量、可用容量。
检查容量利用率是否超过预设阈值(如>80%),提前规划扩容。
42、管理接口与日志:检查管理接口(带内/带外)连通性,审查系统告警日志和事件日志。
43、固件版本:(定期)检查控制器、磁盘柜、磁盘固件版本,评估升级计划。
44、物理环境:检查存储设备散热、线缆连接、标签。
四、操作系统维护检查(15条)
45、系统负载与运行状态:
检查平均负载(uptime, w - Linux;性能监视器 - Windows)。
检查关键服务/进程状态是否运行(systemctl status , ps -ef | grep - Linux;服务管理器 - Windows)。
46、CPU利用率:使用 top, htop, vmstat 1, mpstat -P ALL 1 (Linux) 或任务管理器/性能监视器 (Windows) 监控CPU使用率及%idle,识别高负载进程。
47、内存使用:
检查总内存、已用内存、空闲内存、缓冲区/缓存内存(free -m, vmstat - Linux)。
检查Swap使用量(free, swapon -s - Linux;页面文件使用 - Windows),过高Swap使用是内存不足的信号。
48、磁盘空间:
检查所有挂载点的磁盘使用率(df -h - Linux;资源监视器/wmic - Windows)。
识别大文件或增长过快的目录(du -sh * | sort -h, ncdu - Linux;WinDirStat - Windows)。
49、磁盘I/O:监控磁盘读写速率、I/O等待时间、队列深度(iostat -dx 1 - Linux;性能监视器 - Windows),识别I/O瓶颈。
50、网络连接与带宽:
检查网络接口状态、IP配置(ip addr, ifconfig - Linux;ipconfig - Windows)。
监控网络流量(iftop, nload, vnstat - Linux;资源监视器/第三方工具 - Windows)。
检查TCP连接状态(netstat -anp, ss - Linux;netstat -ano - Windows),关注TIME_WAIT, CLOSE_WAIT过多。
51、用户与登录:
检查当前登录用户(who, w - Linux;query user - Windows)。
检查最近的登录记录(last - Linux;事件查看器安全日志 - Windows)。
检查异常用户或提权操作。
52、关键进程资源占用:检查数据库、中间件、应用进程的CPU、内存、句柄数等资源消耗是否异常。
53、系统日志:
集中检查或本地检查核心系统日志(/var/log/messages, /var/log/syslog, dmesg - Linux;事件查看器系统/应用日志 - Windows)。
筛选 ERROR, WARNING, CRIT, FAIL 等级别信息并处理。
54、定时任务:检查计划任务(crontab -l, /etc/cron*/* - Linux;任务计划程序 - Windows)执行状态,查看日志确认是否成功。
55、文件系统健康:(定期)检查文件系统完整性(fsck - Linux;chkdsk - Windows),通常在维护窗口进行。
56、包管理与补丁:
检查可用的系统更新(yum check-update, apt list --upgradable - Linux;Windows Update)。
(按变更管理流程)评估、测试、安排补丁安装。
57、时间同步:检查NTP服务状态,确认系统时间与NTP服务器同步(ntpq -p, timedatectl - Linux;w32tm /query /status - Windows)。
58、安全更新与配置:(定期)审计系统安全配置(如SSH配置 /etc/ssh/sshd_config,密码策略,防火墙规则 iptables/nftables/firewalld - Linux;Windows防火墙/安全策略)。
59、备份验证:(定期)验证操作系统层面的关键配置文件备份的可用性和完整性。
五、数据库维护检查(10条)
60、实例状态:确认数据库实例运行状态正常(sqlplus / as sysdba -> SELECT status FROM v$instance; - Oracle;SHOW DATABASES; - MySQL;SELECT state_desc FROM sys.databases; - SQL Server)。
61、监听器状态:检查数据库监听器是否运行并能接受连接(lsnrctl status - Oracle;SHOW PROCESSLIST; - MySQL;SQL Server配置管理器)。
62、表空间/文件组使用率:检查所有表空间/文件组的空间使用情况,确保有足够空闲空间(Oracle: DBA_FREE_SPACE;MySQL: information_schema.FILES;SQL Server: sp_helpdb / sys.database_files)。
63、性能监控:
监控关键性能指标(活动会话数、逻辑读/物理读、缓存命中率、锁等待)。
识别慢查询(AWR, ASH - Oracle;慢查询日志 - MySQL;sp_whoisactive, 扩展事件 - SQL Server)。
64、备份状态:
检查最近一次全备、增量备/日志备份是否成功完成。
检查备份文件大小是否合理,备份日志有无错误。
(定期)进行恢复演练验证备份有效性。
65、日志文件:
检查数据库告警日志(alert_.log - Oracle;错误日志 - MySQL;SQL Server错误日志)是否有 ORA-, Error 信息。
检查事务日志文件状态和使用率(避免日志满)。
66、作业与调度:检查数据库作业调度器(Oracle Scheduler, MySQL Event Scheduler, SQL Server Agent)中的关键作业(如备份、统计信息收集、数据归档)执行状态是否成功。
67、统计信息:(定期)检查表/索引统计信息是否陈旧,确保自动或手动收集任务正常运行。
68、连接与会话:检查当前连接数是否在合理范围,识别异常或长时间空闲会话。
69、复制状态:(如配置)检查主从复制(MySQL Replication, SQL Server AlwaysOn/Replication, Oracle DG)状态是否正常,延迟是否在可接受范围内。
70、安全审计:(定期)检查数据库用户权限、审核日志,确保符合安全策略。
六、虚拟化平台维护检查(8条)
71、集群状态:检查vCenter/SCVMM/Proxmox VE集群状态是否正常,主机无隔离、无错误。
72、主机状态:检查所有ESXi/Hyper-V/KVM宿主机连接状态、健康状态(CPU, 内存, 存储, 网络告警)、补丁级别。
73、虚拟机状态:检查所有虚拟机电源状态是否预期,无异常(无响应、启动失败、心跳丢失)。
74、存储状态:检查Datastore/LUN/存储池状态、容量使用率、性能指标(延迟、IOPS),确保无数据存储不可访问(APD/ PDL)。
75、网络状态:检查虚拟交换机(vSwitch, vDS)、端口组状态、物理网卡绑定状态。
76、资源池与资源利用率:监控集群及主机的CPU、内存使用率,是否有资源争用或瓶颈。
77、高可用与容错:(如配置)检查HA(高可用性)、FT(容错)、DRS(分布式资源调度)功能状态是否正常。
78、备份状态:检查虚拟机备份作业是否成功完成,备份文件验证状态。
79、管理节点:检查vCenter Server/SCVMM服务器/Proxmox VE管理节点的状态、性能和日志。
80、固件与驱动:(定期)检查宿主机的HBA卡、网卡固件和驱动版本,评估升级需求。
七、备份系统维护检查(7条)
81、备份作业状态:检查所有计划备份作业(全备、增量备、差异备)是否按计划成功完成。重点:检查作业日志中的错误或警告信息。
82、备份数据验证:
(定期)执行备份数据的完整性验证(如果备份软件支持)。
(定期)执行关键数据的恢复演练(粒度恢复、整机恢复),验证备份实际可恢复性。这是最重要也是最易被忽略的环节。
83、备份存储容量:监控备份目标(磁盘库、磁带库、云存储)的存储空间使用率,确保有足够空间容纳未来的备份。
84、介质状态:(如使用磁带)检查磁带驱动器状态、磁带介质状态(清洗带、数据带)、磁带库机械手状态。
85、备份策略审核:(定期)审核备份策略(RPO, RTO)是否仍符合业务需求,备份保留周期是否合理。
86、备份客户端状态:检查所有需要备份的服务器/应用上的备份代理(Agent)状态是否正常、在线。
87、备份软件状态:检查备份服务器/介质服务器的状态、性能、日志。确认软件许可证有效。
88、异地备份状态:(如配置)检查异地复制或云备份任务的状态和同步情况。
八、安全设备与策略维护检查(10条)
89、防火墙状态:检查防火墙引擎状态、HA状态(主备/集群)、接口状态、会话数是否正常。
90、安全策略状态:检查关键安全策略(ACL、NAT、IPS/IDS策略、应用控制策略)是否处于激活状态。
91、威胁检测与日志:
检查IPS/IDS告警日志,分析最新威胁事件。
检查防火墙拒绝日志(deny),分析是否有异常扫描或攻击尝试。
92、VPN状态:(如配置)检查VPN隧道状态(是否up)、用户连接数。
93、防病毒状态:(网络层/终端层)检查防病毒控制台,确认病毒定义更新正常,扫描任务执行正常,无大规模病毒感染告警。
94、漏洞扫描结果:(定期)查看最新漏洞扫描报告,跟踪高中危漏洞的修复进度。
95、日志审计:检查集中日志平台(SIEM)或安全设备本地日志,关注安全事件(登录失败、权限变更、策略修改、高危操作)。
96、访问控制列表:(定期)审计防火墙、路由器、服务器上的访问控制列表(ACL),清理过期或无效规则。
97、证书状态:检查SSL VPN、HTTPS代理等服务使用的数字证书有效期,避免过期。
98、配置备份:(变更后/定期)备份安全设备(防火墙、IPS、WAF)的配置文件。
99、固件/特征库更新:检查安全设备的操作系统版本、IPS特征库、病毒库版本,按计划进行更新。
九、机房基础设施维护检查(10条)
100、温湿度监控:实时监控机房温度和湿度(通常温度22-24°C,湿度40-60%RH),确保在设定阈值范围内。
101、UPS状态:
检查UPS输入/输出电压、电流、频率、负载百分比。
检查电池状态(浮充电压、内阻、后备时间估算)。
检查UPS运行模式(通常应为Normal在线模式)。
102、精密空调状态:检查空调运行状态、设定温度/湿度、送回风温度、压缩机/风机状态、告警信息。
103、配电柜状态:检查配电柜总输入、各输出支路电流、电压、开关状态、指示灯。注意安全,非专业人员勿操作。
104、漏水检测:检查漏水检测系统状态是否正常,探头位置合理,无漏水告警。
105、消防系统状态:(专业人员/维保人员)检查气体灭火系统、烟感温感探测器状态是否正常,压力表指示在绿区。严禁非授权操作。
106、门禁系统状态:测试门禁刷卡/生物识别功能、门磁状态、记录查询功能是否正常。
107、视频监控状态:检查摄像头画面是否清晰、覆盖关键区域(出入口、机柜通道、配电间、空调间)、录像存储正常。
108、物理环境:
检查机房清洁卫生,地面、机柜顶部无积尘。
检查通道(冷/热通道)是否畅通无阻,无杂物堆放。
检查机柜门是否关闭。
109、标签标识:检查所有设备、线缆、开关、配电回路标签是否清晰、准确、完整。
十、文档与流程
Checklist执行记录:每次执行检查后,应有记录(时间、执行人、结果、异常处理情况)。
异常处理流程:对检查中发现的异常,应有明确的报告、响应、升级和处理流程。
定期Review:定期(如每季度/半年)Review这份Checklist本身,根据业务变化、技术演进、故障教训进行增删修订。
知识库更新:将检查标准、常见问题处理方案沉淀到运维知识库。
来源丨公众号:运维网工(ID:gh_b3b43949212c)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721