事由
-

近半年多,处理硬盘故障时,经常发现故障的硬盘总是在刚过保一个月内。可能有些先入为主的原因,对在保的机器不太在役,毕竟在保机器硬盘故障了由厂商买单,咱又不肉疼。出于好奇,整理了最近3年来还有记录的故障信息来做个分析
先拿20个故障记录来看看
起先,我拿了最近20起硬盘故障信息来做个分析看看

刚开始取数据源的时候没多大感觉,等到做出这图之后,我惊呆了。原来某厂商对硬盘生命周期已经控制的这么牛逼了,故障的日期与保修截止日期居然这么接近。以至于最近一有硬盘发生故障,我就对同事们瞎忽悠说硬件厂商真的巨牛逼(想让配件啥时候挂,就啥时候挂)

我们再来看看这个图,还是针对这20个故障记录的,居然有60%的故障,发生在保修前后6个月内,而且35%在过保后6个月,这就坑人了,客户自己买单,能不肉疼吗。不过回过头把这重要的一句话说三遍!

请密切关注保修截止日期前后半年的服务器硬盘!做好监控!

请密切关注保修截止日期前后半年的服务器硬盘!做好监控!

请密切关注保修截止日期前后半年的服务器硬盘!做好监控!


再看看近3年的故障记录

我们继续,我又统计了有记录的近3年的故障记录共计48起故障。

看图发现,哦,原来当初我没引起我的注意是因为人家基本都在保修期内(前半段蓝色线基本在中间位置),我不肉疼,自然就没当回事咯。

将数据源放大到近3年后,还有38%的故障发生在服务器保修截止前后半年呢,个人看来还是要引起注意。

将生产日期简直来看看

做完以上的分析后我总觉得少了什么,比如是不是哪个批次的设备故障率特别高呢(厂商内部硬件团队有比较大的调整?),于是,我截取了2013.5-2014.5生产的设备来分析看看


没啥特别的,故障分布没啥规律可寻,再看看饼图

原来,还是有44%的故障发生在过保前后6个月,个人觉得还是该引起足够的重视!


其他想说的

以上的分析由于个人的原因,很多东西没考虑进去,而且数据源太片面,所以可能导致结论不正确,在此表示,此文仅代表个人对近期碰到的硬盘问题所做的YY,如有错误的地方,请勿喷哈

1、硬盘故障本身有很多种原因,有硬盘主板故障的原因,有盘片故障等等

2、未分析故障硬盘的型号,参数等信息

3、服务器的出厂日期和硬盘的出厂日期不是一直的,本文的保修截止日期按照服务器的,毕竟厂商对单独购买的硬盘的保修也是这样,接入在保修期内的硬盘上,则按照该服务器的保修截止日来计算

重点

不论怎样,仅仅想分享给大家的是服务器硬盘是数据的最终存放介质,不论是否做了灾备冗余,硬盘的监控都需要大家的密切关注,这里分享一个如何设置一个硬盘监控的方法http://mp.weixin.qq.com/s/0e7B8v65O8NeiBHTO_E8Ww?scene=25#wechat_redirect