服务器RAID磁盘坏道修复实战

更新时间：2022-08-15 09:26:04

上周在线监控系统nagios发送了一条报警警告短信，内容大体是磁盘阵列错误

于是乎登陆报警服务器使磁盘阵列检测工具进行了详细的检查，报告显示

Media Error Count :2

既然是警告也就不是特别严重的错误，经过与戴尔工程师的确认，是磁盘出现了坏道，由于是图片服务器且有备份，暂时没有去机房处理。

过了两天又出现了另一台MySQL数据库服务器也发出了同样的警报，可怕的是通过检测报告的

Media Error Count :24

Other Error Count：2

看样子服务器在今年是硬件故障高发期啊，Dell服务器如果不是由厂家进货的话，如果你是维护的人员可就要当心了。

我说的什么意思你懂得！

于是发邮件和总监和开发经理进行沟通，邮件中说了故障的详细情况，并且给出了当前的紧急解决措施（其中图片服务器做了文件的异机备份，数据库服务器由于是主从结构，这个不必太担心，切每天都有备份计划本地和异地）有一点服务器的磁盘是支持热插拔的，也就是说不用停机进行磁盘的更换是没有问题的，但是为了安全平稳经过沟通一致认为在晚上比较合适（其实这完全是没信心导致的，白天处理其实影响不大，可能就是会导致IO负载高一些），避开了业务高峰和访问高峰，这样给我们解决问题提供了充足的时间。

最让我放心的是服务器的阵列配置是通过4块磁盘做的RAID5+hot spare 这样的配置有一个很大的好处就是：如果正常的RAID5中的三块磁盘有任何一块损坏了，RAID阵列暂时是安全的

如果配置了热备盘，那么热备盘会在RAID阵列中某块磁盘算坏的时候进行替补，RAID阵列重建。当损坏的磁盘更换后。热备盘会识别到，然后将自身的数据与新替换的磁盘进行数据同步。当数据同步完成之后就会恢复到原来的角色-热备盘。好神奇啊：）

知道了阵列的工作原理也就不用担心了，第二天晚上按照事先计划好的方案进行

首先进行重要文件的手工备份以保持备份的最新，图片，数据库等备份到异地Ok

然后按照预先的计划，拔下故障磁盘，立即插入新的磁盘，这个时候，新插入磁盘会闪烁几秒钟，这个过程就是主板识别的过程，然后指示一直处于静止状态。

这个时候第四块硬盘也就是热备盘的数据读写灯狂闪，你应该猜到了，热备已经检测到有磁盘掉线了，然后就自动加入RAID进行重建，300G的容量大概重建完成用了30分钟的时间

为了验证我的想法，我把图片服务器进行了重启然后进入到BIOS里面的RAID卡配置工具里面进行查看，这个时候显示的是热备盘参与阵列进行重建，而替换的新磁盘状态是READY

等了大约30分钟后，RAID重建完成。替换的新磁盘的状态马上就变成了 replacing 。这个过程大概同样需要30分钟左右。

在系统中进行检测磁盘的状态是 cpoyback。

最后正常的状态是热备盘的角色恢复成热备模式，阵列完成重建，正常工作。

进入系统重新检测错误消失了

注：以上说道的在系统中检测的具体工具是：

/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll

本文转自andylhz 51CTO博客，原文链接：http://blog.51cto.com/andylhz2009/1348992，如需转载请自行联系原作者

上一篇 : ：PolarDB-X 1.0-API参考-1.0（2019版本）-标签和参数设置-DescribeDrdsParams下一篇 : Spring中的注解

服务器RAID磁盘坏道修复实战

相关阅读

推荐文章