首页>会议文档 >

先智数据-AI运维实例分享——如何精准预测磁盘故障

page:
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障
先智数据-AI运维实例分享——如何精准预测磁盘故障

先智数据-AI运维实例分享——如何精准预测磁盘故障

所属会议:GOPS 2017全球运维大会上海站会议地点:上海


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

10389次
浏览次数
GOPS 2017全球运维大会上海站所有文档 姜鑫韡-从大象到猎豹 - 自动化运维和性能优化实践 平安证券 袁友高-面向千万级互联网证券用户的事件运维之路 质量工程师 张新-中国银行 DevOps 历程、效果及展望 林栗-Deploy anywhere:Orchestrating of the DevOps toolchain with Jenkins Pipeline 叶璐-去哪儿网机器学习云实践 UCloud 陈文志-UCloud 基础运维自动化平台实践 顺丰科技 陈天宇 -全栈资源下的自动化运维灵魂 资深技术支持工程师 胡俊雅-基于 StackStorm 的携程运维自动化平台 阿里巴巴 刘湘疆-阿里测试环境运维及研发效率提升之道 腾讯 谭用-痛点驱动的 DevOps 实践 携程 张乐-小小配置中心释放大能量 DevOps学院 赵班长-DevOps道法术器及全开源端到端部署流水线 博云 于春晓-云场景下自动化运维演变 国信证券 张浩水-证券行业DevOps第一步:IT资源自动化管理 许颖维&廖君仪-运维助力敏捷交付-我们的运维看板 IT 风控高级经理 赵锐-业务安全 - DevSecOps的催化剂 连尚网络 龚沛华-Android App 的安全保护实践之路 平安科技 董晓琼-企业内部风险管控的破冰与探索 阿卡迈公司 周德振-如何达成稳定安全和极速的海外用户体验 小红书QA 任志超-从0到1:2天搭建互联网电商全链路压测平台 DBA负责人 虢国飞-饿了么异地双活数据库实战 WiFi万能钥匙高级架构师 李春旭-百亿访问量的监控平台如何炼成 王培安-如何通过持续交付驱动技术能力升级_部分1 王培安-如何通过持续交付驱动技术能力升级_部分2 高级运维经理 陈金窗-云网融合,智慧运维 京东网络 王大泳-京东大规模数据中心网络运维监控之眼 杜颖君-巡航太平洋,运维平台实施的苦与乐 桂林-举重若轻 - 半天上线 - 中国人寿数据中心自主研发分布式通用流程平台 孔罗星-万亿交易量级下的秒级监控 中国信息通信研究院主任工程师 栗蔚-解读 DevOps 标准 中国信息通信研究院 栗蔚-云计算运维平台参考框架标准 IBM 黄卫-混合云认知IT服务管理 恒丰银行 柳东-金融云中的x86裸机服务实践 KK-Jenkins and Continuous Delivery Revolution_部分1 KK-Jenkins and Continuous Delivery Revolution_部分2 东方龙马-基于大数据的实时业务监控和预警系统_部分1 东方龙马-基于大数据的实时业务监控和预警系统_部分2 东方龙马-基于大数据的实时业务监控和预警系统_部分3 华为运维部 黄启辉-数据驱动运维—华为消费者云服务的智能运维实践 中国信息通信研究院师栗蔚-发布 DevOps 标准运维标准 清华大学 裴丹-落地生根:智能运维技术路线图 腾讯微信 陈晓鹏-微信海量数据监控的设计与实践 中国信息通信研究院 何宝宏-大会致辞:我对 AI 的一些冷思考 91App 李智桦-由蝴蝶效应谈运维的系统思维 尚航科技 肖玉军-命脉保卫战--核心数据-业务的IDC重保思路 腾讯 赵建春-AI浪潮下的高效运维思考与实践 devops 梁晓聪-B站统一监控系统的设计、演进与实战 擎创科技 擎创-智能运维场景探索与工程实践 运维专家孙杰-从说到做—大型企业智能运维的360度解析

文档介绍

磁盘故障是影响数据中心可靠性的重要因素之一。传统依赖RAID或副本保护的防范机制,仅能在故障发生之后被动处理,存在诸多局限和隐患。利用机器学习技术,可以训练AI引擎结合多种因素,综合分析并准确预测磁盘故障,从而实现主动式故障预防,显著提升系统可靠性。

演讲实录

分享的主题是使用人工智能的机器学习的引擎来实现智能化精准预测磁盘故障。下面将按照三个方面进行讲解:

被动式故障应对的局限和隐患

故障预测的原理、方法和工具

主动式故障应对的价值和意义

一. 被动式故障应对的局限和隐患

数据中心的意外故障,有超过60%都是直接或间接由磁盘故障造成。

磁盘故障时,用户最关心两个问题:

一是应用性能影响

二是数据可靠性影响

然而系统资源有限的时候,二者不可兼得。希望尽快修复数据,就必然占用很多资源,影响前端应用性能;而如果尽量保证前端应用性能,就会延长数据修复时间,增大数据丢失风险。

这个棘手的问题在磁盘阵列年代就一直存在,到了软件定义存储时代仍然没有得到解决,甚至没有得到合理的正视。

目前存储产品厂商只能提供一个Rebuiding Priority选项,让用户自己在性能和可靠性之间做出权衡选择。这实质上并不是解决问题,只是在推卸责任而已。

除了上述性能可靠性互斥难题,数据可靠性本身也有不为人知的隐患。

随着存储系统规模增大,RAID乃至多副本技术,对数据可靠性的保护会变得很脆弱。

图中的公式是个系统可靠性的简单计算模型。

以磁盘厂商提供的平均无故障时间可以计算出单盘健康概率,以此为基础,可以知道2副本可以保护的系统中,磁盘总数不能超过96颗磁盘,如果超过这个上限,系统总体可靠性就会低于99.999%这个企业级可靠性基线。3副本的情况会好一些,但是上限也不过才512颗磁盘。

在今天动辄上PB级的系统中,几十、几百颗磁盘的上限,显然是严重的瓶颈。

综上,要解决性能与可靠性互斥问题,以及大型系统的数据可靠性问题,传统的冗余保护思路已经越来越艰难,需要开辟另外的思路。

我们公司的思路方向是:利用智能技术,提前预判故障的发生,从而把随机出现的意外事件,变成可计划的事件。这样就变被动为主动,所有修复工作可以事前从容安排,对冗余度的要求也没有那么高。

二. 故障预测的原理、方法和工具

我们的磁盘故障预测原理是基于磁盘SMART信息和系统性能负载分析。单纯的SMART信息只能回答“磁盘是否该更换”这个问题,必须复合实际应用负载情况,才能回答“磁盘还可以活多久”的问题。

再深入的原理,其实就是标准的机器学习机制,搭建神经网络,并用大量数据去训练这个神经网络。

我们的分析预测引擎训练过程用到了超过10万颗磁盘在累计4年时间里的状态信息,总共样本数超过6千万。经过这些样本的训练。我们已经可以达到比较理想的预测准确率。具体可以看下图的实际检验结果。

我们的DiskProphet产品在Cisco的公有云中测试运行3个月,每天提供故障预测报告,累计90份报告。报告内容是系统中磁盘的预期寿命,精确到天。在±1天的误差内,最终检验下来,预测平均准确率96.1%,最低也在95%以上,完全可以指导运维人员准备应对手段,甚至可以基于此实现无人值守的故障修复。

三. 主动式故障应对的价值和意义

串行化修复 VS. 并行化预防:

感知能力提升

技术手段开放

简化操作流程

解耦依赖关系

被动式故障修复 vs. 主动式故障预防:

我们对故障的惧怕,其实是对不可测不可知的恐惧,就像徒手走进黑暗的山洞,无奈之下只能拼命用冗余度保护自己,防范任何可能出现的危险。但是实际上,我们真正需要的是照亮黑暗的火炬,故障预测能力正是帮你洞见未来的火炬。

故障并不可怕,只要不再是意外故障。

END

×

打开微信扫一扫,分享到朋友圈