磁盘故障是影响数据中心可靠性的重要因素之一。传统依赖RAID或副本保护的防范机制,仅能在故障发生之后被动处理,存在诸多局限和隐患。利用机器学习技术,可以训练AI引擎结合多种因素,综合分析并准确预测磁盘故障,从而实现主动式故障预防,显著提升系统可靠性。
分享的主题是使用人工智能的机器学习的引擎来实现智能化精准预测磁盘故障。下面将按照三个方面进行讲解:
被动式故障应对的局限和隐患
故障预测的原理、方法和工具
主动式故障应对的价值和意义
一. 被动式故障应对的局限和隐患
数据中心的意外故障,有超过60%都是直接或间接由磁盘故障造成。
磁盘故障时,用户最关心两个问题:
一是应用性能影响
二是数据可靠性影响
然而系统资源有限的时候,二者不可兼得。希望尽快修复数据,就必然占用很多资源,影响前端应用性能;而如果尽量保证前端应用性能,就会延长数据修复时间,增大数据丢失风险。
这个棘手的问题在磁盘阵列年代就一直存在,到了软件定义存储时代仍然没有得到解决,甚至没有得到合理的正视。
目前存储产品厂商只能提供一个Rebuiding Priority选项,让用户自己在性能和可靠性之间做出权衡选择。这实质上并不是解决问题,只是在推卸责任而已。
除了上述性能可靠性互斥难题,数据可靠性本身也有不为人知的隐患。
随着存储系统规模增大,RAID乃至多副本技术,对数据可靠性的保护会变得很脆弱。
图中的公式是个系统可靠性的简单计算模型。
以磁盘厂商提供的平均无故障时间可以计算出单盘健康概率,以此为基础,可以知道2副本可以保护的系统中,磁盘总数不能超过96颗磁盘,如果超过这个上限,系统总体可靠性就会低于99.999%这个企业级可靠性基线。3副本的情况会好一些,但是上限也不过才512颗磁盘。
在今天动辄上PB级的系统中,几十、几百颗磁盘的上限,显然是严重的瓶颈。
综上,要解决性能与可靠性互斥问题,以及大型系统的数据可靠性问题,传统的冗余保护思路已经越来越艰难,需要开辟另外的思路。
我们公司的思路方向是:利用智能技术,提前预判故障的发生,从而把随机出现的意外事件,变成可计划的事件。这样就变被动为主动,所有修复工作可以事前从容安排,对冗余度的要求也没有那么高。
二. 故障预测的原理、方法和工具
我们的磁盘故障预测原理是基于磁盘SMART信息和系统性能负载分析。单纯的SMART信息只能回答“磁盘是否该更换”这个问题,必须复合实际应用负载情况,才能回答“磁盘还可以活多久”的问题。
再深入的原理,其实就是标准的机器学习机制,搭建神经网络,并用大量数据去训练这个神经网络。
我们的分析预测引擎训练过程用到了超过10万颗磁盘在累计4年时间里的状态信息,总共样本数超过6千万。经过这些样本的训练。我们已经可以达到比较理想的预测准确率。具体可以看下图的实际检验结果。
我们的DiskProphet产品在Cisco的公有云中测试运行3个月,每天提供故障预测报告,累计90份报告。报告内容是系统中磁盘的预期寿命,精确到天。在±1天的误差内,最终检验下来,预测平均准确率96.1%,最低也在95%以上,完全可以指导运维人员准备应对手段,甚至可以基于此实现无人值守的故障修复。
三. 主动式故障应对的价值和意义
串行化修复 VS. 并行化预防:
感知能力提升
技术手段开放
简化操作流程
解耦依赖关系
被动式故障修复 vs. 主动式故障预防:
我们对故障的惧怕,其实是对不可测不可知的恐惧,就像徒手走进黑暗的山洞,无奈之下只能拼命用冗余度保护自己,防范任何可能出现的危险。但是实际上,我们真正需要的是照亮黑暗的火炬,故障预测能力正是帮你洞见未来的火炬。
故障并不可怕,只要不再是意外故障。
END
浏览3262次
浏览10380次
浏览3627次
浏览11107次
浏览9799次
浏览2776次
2025-01-08 昆明
2025-04-19 南京
2024-12-27 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈