先智数据-AI运维实例分享——如何精准预测磁盘故障

GOPS 2017全球运维大会上海站所有文档
姜鑫韡-从大象到猎豹 - 自动化运维和性能优化实践
6343次
平安证券袁友高-面向千万级互联网证券用户的事件运维之路
5498次
质量工程师张新-中国银行 DevOps 历程、效果及展望
9901次
林栗-Deploy anywhere：Orchestrating of the DevOps toolchain with Jenkins Pipeline
7788次
叶璐-去哪儿网机器学习云实践
3869次
UCloud 陈文志-UCloud 基础运维自动化平台实践
12933次
顺丰科技陈天宇 -全栈资源下的自动化运维灵魂
2742次
资深技术支持工程师胡俊雅-基于 StackStorm 的携程运维自动化平台
3920次
阿里巴巴刘湘疆-阿里测试环境运维及研发效率提升之道
2041次
腾讯谭用-痛点驱动的 DevOps 实践
3448次
携程张乐-小小配置中心释放大能量
10332次
DevOps学院赵班长-DevOps道法术器及全开源端到端部署流水线
3164次
博云于春晓-云场景下自动化运维演变
3570次
国信证券张浩水-证券行业DevOps第一步：IT资源自动化管理
1690次
许颖维&廖君仪-运维助力敏捷交付-我们的运维看板
5675次
IT 风控高级经理赵锐-业务安全 - DevSecOps的催化剂
4224次
连尚网络龚沛华-Android App 的安全保护实践之路
10545次
平安科技董晓琼-企业内部风险管控的破冰与探索
7462次
阿卡迈公司周德振-如何达成稳定安全和极速的海外用户体验
2220次
小红书QA 任志超-从0到1：2天搭建互联网电商全链路压测平台
9471次
DBA负责人虢国飞-饿了么异地双活数据库实战
11822次
WiFi万能钥匙高级架构师李春旭-百亿访问量的监控平台如何炼成
2452次
王培安-如何通过持续交付驱动技术能力升级_部分1
2405次
王培安-如何通过持续交付驱动技术能力升级_部分2
5307次
高级运维经理陈金窗-云网融合,智慧运维
2463次
京东网络王大泳-京东大规模数据中心网络运维监控之眼
7092次
杜颖君-巡航太平洋，运维平台实施的苦与乐
5694次
桂林-举重若轻 - 半天上线 - 中国人寿数据中心自主研发分布式通用流程平台
6539次
孔罗星-万亿交易量级下的秒级监控
4886次
中国信息通信研究院主任工程师栗蔚-解读 DevOps 标准
6688次
中国信息通信研究院栗蔚-云计算运维平台参考框架标准
9222次
IBM 黄卫-混合云认知IT服务管理
1477次
恒丰银行柳东-金融云中的x86裸机服务实践
7058次
KK-Jenkins and Continuous Delivery Revolution_部分1
10937次
KK-Jenkins and Continuous Delivery Revolution_部分2
4655次
东方龙马-基于大数据的实时业务监控和预警系统_部分1
8643次
东方龙马-基于大数据的实时业务监控和预警系统_部分2
7346次
东方龙马-基于大数据的实时业务监控和预警系统_部分3
2271次
华为运维部黄启辉-数据驱动运维—华为消费者云服务的智能运维实践
3747次
中国信息通信研究院师栗蔚-发布 DevOps 标准运维标准
4912次
清华大学裴丹-落地生根：智能运维技术路线图
3399次
腾讯微信陈晓鹏-微信海量数据监控的设计与实践
5222次
中国信息通信研究院何宝宏-大会致辞：我对 AI 的一些冷思考
8512次
91App 李智桦-由蝴蝶效应谈运维的系统思维
10030次
尚航科技肖玉军-命脉保卫战--核心数据-业务的IDC重保思路
4332次
腾讯赵建春-AI浪潮下的高效运维思考与实践
4033次
devops 梁晓聪-B站统一监控系统的设计、演进与实战
10455次
擎创科技擎创-智能运维场景探索与工程实践
3490次
运维专家孙杰-从说到做—大型企业智能运维的360度解析
3659次

先智数据-AI运维实例分享——如何精准预测磁盘故障

所属会议：GOPS 2017全球运维大会上海站会议地点：上海


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

11452次
浏览次数

GOPS 2017全球运维大会上海站所有文档姜鑫韡-从大象到猎豹 - 自动化运维和性能优化实践平安证券袁友高-面向千万级互联网证券用户的事件运维之路质量工程师张新-中国银行 DevOps 历程、效果及展望林栗-Deploy anywhere：Orchestrating of the DevOps toolchain with Jenkins Pipeline 叶璐-去哪儿网机器学习云实践 UCloud 陈文志-UCloud 基础运维自动化平台实践顺丰科技陈天宇 -全栈资源下的自动化运维灵魂资深技术支持工程师胡俊雅-基于 StackStorm 的携程运维自动化平台阿里巴巴刘湘疆-阿里测试环境运维及研发效率提升之道腾讯谭用-痛点驱动的 DevOps 实践携程张乐-小小配置中心释放大能量 DevOps学院赵班长-DevOps道法术器及全开源端到端部署流水线博云于春晓-云场景下自动化运维演变国信证券张浩水-证券行业DevOps第一步：IT资源自动化管理许颖维&廖君仪-运维助力敏捷交付-我们的运维看板 IT 风控高级经理赵锐-业务安全 - DevSecOps的催化剂连尚网络龚沛华-Android App 的安全保护实践之路平安科技董晓琼-企业内部风险管控的破冰与探索阿卡迈公司周德振-如何达成稳定安全和极速的海外用户体验小红书QA 任志超-从0到1：2天搭建互联网电商全链路压测平台 DBA负责人虢国飞-饿了么异地双活数据库实战 WiFi万能钥匙高级架构师李春旭-百亿访问量的监控平台如何炼成王培安-如何通过持续交付驱动技术能力升级_部分1 王培安-如何通过持续交付驱动技术能力升级_部分2 高级运维经理陈金窗-云网融合,智慧运维京东网络王大泳-京东大规模数据中心网络运维监控之眼杜颖君-巡航太平洋，运维平台实施的苦与乐桂林-举重若轻 - 半天上线 - 中国人寿数据中心自主研发分布式通用流程平台孔罗星-万亿交易量级下的秒级监控中国信息通信研究院主任工程师栗蔚-解读 DevOps 标准中国信息通信研究院栗蔚-云计算运维平台参考框架标准 IBM 黄卫-混合云认知IT服务管理恒丰银行柳东-金融云中的x86裸机服务实践 KK-Jenkins and Continuous Delivery Revolution_部分1 KK-Jenkins and Continuous Delivery Revolution_部分2 东方龙马-基于大数据的实时业务监控和预警系统_部分1 东方龙马-基于大数据的实时业务监控和预警系统_部分2 东方龙马-基于大数据的实时业务监控和预警系统_部分3 华为运维部黄启辉-数据驱动运维—华为消费者云服务的智能运维实践中国信息通信研究院师栗蔚-发布 DevOps 标准运维标准清华大学裴丹-落地生根：智能运维技术路线图腾讯微信陈晓鹏-微信海量数据监控的设计与实践中国信息通信研究院何宝宏-大会致辞：我对 AI 的一些冷思考 91App 李智桦-由蝴蝶效应谈运维的系统思维尚航科技肖玉军-命脉保卫战--核心数据-业务的IDC重保思路腾讯赵建春-AI浪潮下的高效运维思考与实践 devops 梁晓聪-B站统一监控系统的设计、演进与实战擎创科技擎创-智能运维场景探索与工程实践运维专家孙杰-从说到做—大型企业智能运维的360度解析

文档介绍



磁盘故障是影响数据中心可靠性的重要因素之一。传统依赖RAID或副本保护的防范机制，仅能在故障发生之后被动处理，存在诸多局限和隐患。利用机器学习技术，可以训练AI引擎结合多种因素，综合分析并准确预测磁盘故障，从而实现主动式故障预防，显著提升系统可靠性。

演讲实录

分享的主题是使用人工智能的机器学习的引擎来实现智能化精准预测磁盘故障。下面将按照三个方面进行讲解：

被动式故障应对的局限和隐患

故障预测的原理、方法和工具

主动式故障应对的价值和意义

一. 被动式故障应对的局限和隐患

数据中心的意外故障，有超过60%都是直接或间接由磁盘故障造成。

磁盘故障时，用户最关心两个问题：

一是应用性能影响

二是数据可靠性影响

然而系统资源有限的时候，二者不可兼得。希望尽快修复数据，就必然占用很多资源，影响前端应用性能；而如果尽量保证前端应用性能，就会延长数据修复时间，增大数据丢失风险。

这个棘手的问题在磁盘阵列年代就一直存在，到了软件定义存储时代仍然没有得到解决，甚至没有得到合理的正视。

目前存储产品厂商只能提供一个Rebuiding Priority选项，让用户自己在性能和可靠性之间做出权衡选择。这实质上并不是解决问题，只是在推卸责任而已。

除了上述性能可靠性互斥难题，数据可靠性本身也有不为人知的隐患。

随着存储系统规模增大，RAID乃至多副本技术，对数据可靠性的保护会变得很脆弱。

图中的公式是个系统可靠性的简单计算模型。

以磁盘厂商提供的平均无故障时间可以计算出单盘健康概率，以此为基础，可以知道2副本可以保护的系统中，磁盘总数不能超过96颗磁盘，如果超过这个上限，系统总体可靠性就会低于99.999%这个企业级可靠性基线。3副本的情况会好一些，但是上限也不过才512颗磁盘。

在今天动辄上PB级的系统中，几十、几百颗磁盘的上限，显然是严重的瓶颈。

综上，要解决性能与可靠性互斥问题，以及大型系统的数据可靠性问题，传统的冗余保护思路已经越来越艰难，需要开辟另外的思路。

我们公司的思路方向是：利用智能技术，提前预判故障的发生，从而把随机出现的意外事件，变成可计划的事件。这样就变被动为主动，所有修复工作可以事前从容安排，对冗余度的要求也没有那么高。

二. 故障预测的原理、方法和工具

我们的磁盘故障预测原理是基于磁盘SMART信息和系统性能负载分析。单纯的SMART信息只能回答“磁盘是否该更换”这个问题，必须复合实际应用负载情况，才能回答“磁盘还可以活多久”的问题。

再深入的原理，其实就是标准的机器学习机制，搭建神经网络，并用大量数据去训练这个神经网络。

我们的分析预测引擎训练过程用到了超过10万颗磁盘在累计4年时间里的状态信息，总共样本数超过6千万。经过这些样本的训练。我们已经可以达到比较理想的预测准确率。具体可以看下图的实际检验结果。

我们的DiskProphet产品在Cisco的公有云中测试运行3个月，每天提供故障预测报告，累计90份报告。报告内容是系统中磁盘的预期寿命，精确到天。在±1天的误差内，最终检验下来，预测平均准确率96.1%，最低也在95%以上，完全可以指导运维人员准备应对手段，甚至可以基于此实现无人值守的故障修复。

三. 主动式故障应对的价值和意义

串行化修复 VS. 并行化预防：

感知能力提升

技术手段开放

简化操作流程

解耦依赖关系

被动式故障修复 vs. 主动式故障预防：

我们对故障的惧怕，其实是对不可测不可知的恐惧，就像徒手走进黑暗的山洞，无奈之下只能拼命用冗余度保护自己，防范任何可能出现的危险。但是实际上，我们真正需要的是照亮黑暗的火炬，故障预测能力正是帮你洞见未来的火炬。

故障并不可怕，只要不再是意外故障。

END

先智数据-AI运维实例分享——如何精准预测磁盘故障

先智数据-AI运维实例分享——如何精准预测磁盘故障

文档介绍

演讲实录

相关会议文档推荐

相关会议