金山孙召增-企业内网APM实战

GOPS 2016全球运维大会 • 北京站所有文档
韩晓光 - 传统运维VS互联网运维：从哪里来到哪里去？
10600次
高级架构师-刘源-大规模分布式存储的开发与实践
10555次
云集智造（灵犀）熊亚军-混合 IT 时代需要什么样的监控系统
5943次
中交兴路车联网许颖维- 中小企业如何优雅地管理多机房服务器账号
2011次
七牛云陈爱珍-七牛百亿级请求量数据处理系统架构演进
10929次
腾讯方锦亮-腾讯大规模集群跨城迁移之术
2735次
eBay 方伟-建立基于Kafka的企业级数据传输平台
10751次
平安证券刘宏霞-券商大数据质量保障之道
10544次
运维自动化-张乐-持续交付：高效率和高质量可以兼得
10562次
蓝鲸党受辉 - 【从零打造百人级别的DevOps团队】等
1453次
光载无限欧曜伟-分布式监控系统的容器化变迁与 CICD 实践
2639次
Google, SRE孙宇聪-Google 运维技术平台与设计思想浅析
5387次
Qunar DevOPS叶璐-去哪儿私有云建设和自动化管理
3349次
云杉网络张天鹏-云网络数据分析及应用
2004次
陈运维自动化-陈尔冬-第三种运维
7854次
迅达云成科技陈震-云计算资源的全球部署经验
8634次
携程胡俊雅-SaltStack在携程万台服务器上的运维实践
11360次
腾讯洪楷-腾讯游戏运维服务体系
7338次
优维科技王津银 - DevOps运维体系框架与其精益实践 —以运维为始，以运营为终，以交付为桥
7105次
乐视邓良驹-乐视电商云高可用架构与实现
5336次
去哪儿网吕晓旭-去哪儿实时流系统实践
5225次
广州尚航尹璐-高可用性自适应安全网络
12164次
京东赵明-手机京东统一与开放的监控体系构建
9830次
ThoughtWorks 金明-建设持续交付容器云平台
2719次
IBM马达-PaaS平台中的资源管理及调度
9585次
DOM-Toda-A Heart of EXIN DevOps Master
7386次
沙盘教练梁定安-凤凰项目沙盘精要
5884次
EXIN 国际信息科学考试学会孙振鹏 - DevOpsDays 即将首次落户中国
9399次
优维科技CEO 王津银王津银-持续交付及互联网实践
9271次
阿里巴巴范伦挺-阿里大数据计算平台运维实践
9738次
优云刘东海-运维演进正确之道 - ITIL+DevOps双态运维
6119次
微信支付莫晓东-微信支付数据库管理和优化实践
3194次
盛大游戏胥峰-盛大游戏万台服务器自动化运维实战
9945次
微信支付周汤-微信支付数据库管理和优化实践
5042次
金融保险-任明-传统企业运维演进及开源实践
9337次
金融保险-张晓诚-平安证券的自动化运维演进
5631次
中信银行周海鹏-“十问”：银行私有云建设若干问题
8912次
博云李亚琼-场景化运维——平台、引擎与自动化
2636次
点乐赵舜东-中小企业 DevOps 实践之路
7962次
360 陈思雨&李福-从漏洞组合攻击看运维安全之殇
4764次
YY直播韩方-YY直播安全运维从“0”到“1”的实践
9243次
奇虎360 王珂&任言-XSS攻击与企业级的解决方案
6512次
凤凰网王建新-大型互联网公司与创业公司的 IT 对比分析
7916次
首都在线周东波-运维背后的逻辑
1196次
HIM陈贻泰-大中型互联网企业 IT 基础架构概览
11611次
高效运维发起人萧田国-DevOps 2.0：重塑运维价值
6085次
主会场-Toda-DevOps & TPS - For success your Business
5559次
蓝鲸党受辉 - 遇见蓝鲸，也许是个机会-
3071次
Google SRE孙宇聪-SRE：Google 运维解密
10963次
中国移动王晓征-浙江移动云运维实践
3326次
KSC视频云魏代政-视频直播运维难点与解决方案
11060次
DevOps Master 白皮书，企业 DevOps 的成功之路
4496次

金山孙召增-企业内网APM实战

所属会议：GOPS 2016全球运维大会 • 北京站会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

10200次
浏览次数

GOPS 2016全球运维大会 • 北京站所有文档韩晓光 - 传统运维VS互联网运维：从哪里来到哪里去？高级架构师-刘源-大规模分布式存储的开发与实践云集智造（灵犀）熊亚军-混合 IT 时代需要什么样的监控系统中交兴路车联网许颖维- 中小企业如何优雅地管理多机房服务器账号七牛云陈爱珍-七牛百亿级请求量数据处理系统架构演进腾讯方锦亮-腾讯大规模集群跨城迁移之术 eBay 方伟-建立基于Kafka的企业级数据传输平台平安证券刘宏霞-券商大数据质量保障之道运维自动化-张乐-持续交付：高效率和高质量可以兼得蓝鲸党受辉 - 【从零打造百人级别的DevOps团队】等光载无限欧曜伟-分布式监控系统的容器化变迁与 CICD 实践 Google, SRE孙宇聪-Google 运维技术平台与设计思想浅析 Qunar DevOPS叶璐-去哪儿私有云建设和自动化管理云杉网络张天鹏-云网络数据分析及应用陈运维自动化-陈尔冬-第三种运维迅达云成科技陈震-云计算资源的全球部署经验携程胡俊雅-SaltStack在携程万台服务器上的运维实践腾讯洪楷-腾讯游戏运维服务体系优维科技王津银 - DevOps运维体系框架与其精益实践 —以运维为始，以运营为终，以交付为桥乐视邓良驹-乐视电商云高可用架构与实现去哪儿网吕晓旭-去哪儿实时流系统实践广州尚航尹璐-高可用性自适应安全网络京东赵明-手机京东统一与开放的监控体系构建 ThoughtWorks 金明-建设持续交付容器云平台 IBM马达-PaaS平台中的资源管理及调度 DOM-Toda-A Heart of EXIN DevOps Master 沙盘教练梁定安-凤凰项目沙盘精要 EXIN 国际信息科学考试学会孙振鹏 - DevOpsDays 即将首次落户中国优维科技CEO 王津银王津银-持续交付及互联网实践阿里巴巴范伦挺-阿里大数据计算平台运维实践优云刘东海-运维演进正确之道 - ITIL+DevOps双态运维微信支付莫晓东-微信支付数据库管理和优化实践盛大游戏胥峰-盛大游戏万台服务器自动化运维实战微信支付周汤-微信支付数据库管理和优化实践金融保险-任明-传统企业运维演进及开源实践金融保险-张晓诚-平安证券的自动化运维演进中信银行周海鹏-“十问”：银行私有云建设若干问题博云李亚琼-场景化运维——平台、引擎与自动化点乐赵舜东-中小企业 DevOps 实践之路 360 陈思雨&李福-从漏洞组合攻击看运维安全之殇 YY直播韩方-YY直播安全运维从“0”到“1”的实践奇虎360 王珂&任言-XSS攻击与企业级的解决方案凤凰网王建新-大型互联网公司与创业公司的 IT 对比分析首都在线周东波-运维背后的逻辑 HIM陈贻泰-大中型互联网企业 IT 基础架构概览高效运维发起人萧田国-DevOps 2.0：重塑运维价值主会场-Toda-DevOps & TPS - For success your Business 蓝鲸党受辉 - 遇见蓝鲸，也许是个机会- Google SRE孙宇聪-SRE：Google 运维解密中国移动王晓征-浙江移动云运维实践 KSC视频云魏代政-视频直播运维难点与解决方案 DevOps Master 白皮书，企业 DevOps 的成功之路

文档介绍



孙召增在会议上发表了主题演讲《企业内网APM实战》，主要内容：APM缘起-目的、APM甜点-成果分享、APM之坑-工具的选择、APM历程-运维平台、APM绩效-工作周报、APM展望-运维智能化

演讲实录

1、前言

我从毕业以后一直在企业里面做 IT 支持，经历这么多年，有一些有感而发，我后面的每一个 PPT，其实都是我的一些深思熟虑，然后给大家交流一些真正的干货。

2、金山剪影

先给大家介绍一下金山，大家听到这个名字首先想到的是 WPS，我们上学的时候就知道 WPS 做办公很好用。

除了金山办公，WPS 这个公司现在还有三个子公司，一个是猎豹移动，主要是做手机端的工具开发，是在美国纳斯达克上市的。还有一个是西山居，玩游戏的朋友都知道这个公司，做了很多漂亮的游戏，不管是 PC 端还是游戏端的，《剑侠》系列的，还有是云服务的金山云。

猎豹移动最新数据统计，月活是6亿多，我们手机端用的一些软件，大家都知道，比如清理大师，驱动精灵，还有评测软件。

西山居游戏《剑侠》系列的手游和 PC 端游戏，都非常有名。

金山云主要是细分领域在视频和游戏，做得非常棒。外面我刚才看了，也有我们团队的一些展台，大家感兴趣的可以去了解一下。

金山办公，这是月活也达到两亿多，这也是最新的数据。详细的大家可以从官网看一些信息。

3、APM缘起与目的

我们说企业里面网络运维为什么要做APM呢？其实是偏系统运维这块，实际上企业各个分支都可以做这件事情，大家知道做IT俗称是IT消防员。

这两张图大家都不陌生，哪里出了火情，我们都要拿着电脑到机房拍照，最后累得满头大汗，这种情况相信大家都经历过，我也经历过。出现这种问题怎么办？

在最初的时候没有什么手段，遇到问题就措手不及，无从下手，和系统运维人员也好，业务人员也好，互相推责任，他说是你的责任，你说是他的责任，这个问题最终怎么办？

最终还是运维人员背锅，大家都体会过。为什么会出现这种状况？

我自己的分析是，我们的运维没有拿出一些东西来，没有拿出有利证据说服别人，是不是我的问题，是不是你的问题，在没有数据支持的情况下，造成互相推诿的局面，最后老板往往把责任推到运维，运维不力，最后上线的工作都是运维的工作。

3.1 解构IT基础设施架构

在一个企业里面，不管是传统企业，还是互联网企业，都有这么一个基础架构。最下面一层是环境监控这些基础设施，再往上一层是网络平台，包括各种交换机、路由器、VPN 设备、无线等等。

在网络系统之上支撑的就是企业应用，这里有各种的应用系统，ERP、OA等系统，还有运营，还有员工有的桌面，电脑、打印机、复印机，都是跑在网络上。

我想这个基础架构对于每个企业来说大同小异，我们运维人员从底层到最上面，都是我们要保障的对象，要做好的事情。那么怎么做好这件事情呢？我觉得要从两方面着手。

第一，我们做好这件事情要有一个指标，要确定一个标准，这个标准每个企业不一样，但是对于我们实际情况来说，应该设计怎样的标准体系。有了这个标准，大家有一个衡量的基线，然后我们再不断优化这个标准，就能用一些流程来衡量，这也方便在绩效里体现我们做得好不好。

第二，这里面还要有一个很好的运维平台，把运维平台做出来让大家能够看到这些东西。我们通过运维平台去实现标准，要有手段去达到这样的指标，保证我们的体系是完整的。

标准和平台这里面坑这么多，我们从哪方面开始着手呢？通常大家根据思维惯性更多是从运维系统着手，要保证它的可靠性、稳定性、连接性。但是往往忽略一方面，系统是跑在网络上面了，如果网络环境不好的话，我的用户环境再好，体验也是差的。

所以我们做的基础是保障这条路畅通，本文里大部分的东西都是围绕网络系统这块如何做 APM，以及怎么把它做好。

3.2 探寻IT运维的痛点

IT运维的痛点是什么，我们运维基础设施这么多，种类又多，随着年限增长，设备越来越老化，老化故障率就会增加，这是基础设施的特点。

但是运维人员碰到这些问题，你没有好的手段，预判力就比较低，当然看到问题，我们只是看到问题表象，想找到它的根本原因往往很难。

3.3 明确IT运维的目标

我觉得在运维的方向，根据我们的实际情况初步设计了三个阶段。

第一阶段可视化

我们对现有网络的系统，不管是交换机、路由器，这些IT设备底运行怎么样，要把它做到从可视化角度一目了然，不只是我们做技术人员能够对它很清楚，用户也能够看出来它是怎样的，现实中业务不可用时，用户看不到背后的原因，出现问题他就会说是不是网络的问题，所以可视化之后，我们可以做到拨云见日。

第二阶段自动化

日常工作当中，天天重复的事情，怎么变成自动化，让我们闲下来多做一些思考性的事情，所以第二阶段我认为是自动化，工作越来越简单。

第三阶段是智能化。

实现IT系统隐患的预判，主动消除隐患。

4、APM成果初现 4.1 实现洞察DDOS攻击

在此给大家做一些成果的分享，我们第一阶段做完可视化之后达到什么效果，看这张片子是 DDos 攻击的例子，这是11月份外网对我们防火墙的扫描，虽然这个扫描不是很多，才500多次。

它的攻击行为我们完全从后台日志记录下来，进行了随时可以看到它的大概数量，来自哪里，都是攻击我的哪些 IP，包括端口，后面还会和我们的 DDos 系统连接起来。

比如一分钟之后我的工具包达到一千或者多少，然后告警告诉我们维护人员干预这件事情，不要等到防火墙破了以后网断了，大家上不去网，这就做不到事前防控了。

4.2 可视化分析防火墙异常连接

这个也是防火墙的连接，只不过不是来自外网，是来自内网，这个图是某一个IP，它上网的行为，通过它的上网数据分析，右上角的连接都是一些TCP的连接，右上角红线是超时的数量，看到这个时间段，大部分的 TCP 外网请求都是超时的，他做了哪些事情呢？

原地址是一个，后面还去了不同目的地，还有端口。通过下面的一些具体分析，确实它是这些地址都去超时了，超时才进行这样的连接，这样连接太多的话，会导致防火墙性能不能提供正常服务。

我们最后定位这个用户是用了免费 VPN 服务，去扫描一个海外的 VPN 资源，不停扫描，其实这些工具资源早就撤了，但是就是因为他一个人耗费了我们大量防火墙的资源。如果要不通过可视化追踪看的话，这些细微数据是看不到的，或者防火墙怎么挂了都不知道。

4.3 监控广域网质量评估稳定性

这张图是对广义网链路的监测，就是丢包率和延时的监控，这是我们租的某个运营商线路，在下午1-3点突然出现大量丢包，包括延迟会增大。

当然我们跑在上面的业务就非常缓慢了，我们事先发现这个问题，通知运营商。因为运营商原来做切割的时候，预案不足，导致出现问题。

像这样的数据我们干嘛呢，因为每年我们都会跟运营商签服务，服务里面都有条款，如果一个月内断了多长时间，都有赔偿的。所以拿这些数据，运营商不会说没有问题，不会推诿。

4.4 可视化分析无线用户掉线问题

下面我举两属于内网无线的例子，相信现在大家都部署了大量无线进行移动办公，移动办公过程中，用户对无线的依赖特别多，很重。

无线质量好与坏，在你日常的运维里面，占有很大的部分。图中是我们内部的掉线分析。

我们的掉线情况可以分为七种，其中比较多的有漫游掉线，还有未认证掉线。用户从一个 AP 切到另一个 AP 漫游的时候，肯定有重连接的过程，这是很正常的。

红线标注的是我们的未知错误，这是我们重点关注的，有两种原因，要么是终端的问题，要么是 AP 的问题。

图中某个 AP 一天有几个时间段会掉线，几分钟内掉线次数达到20次左右，图中被红框标注的绿条表示某一个用户频繁掉线的次数。

事后我们看后台记录日志里面，有更详细的信息说明，通过两个红框可以看到，基本上定位是用户所在的位置，他的 AP 不稳定原因，后来我们把 AP 做了处理，这个问题就好了。

4.5 解决WIFI连接不稳定问题

还有一个也是连接不稳定，不是掉线，不稳定第一个原因是漫游，漫游里面也有不正常的，就是频繁漫游。

这个用户没有动位置，就在他的办公桌面，一天都没动，后台看到它不停漫游，而且在周围几个 AP 来回切，我们从后台抓取数据来看，一个是接入速度低，二是干扰大，这个数据是用 2.4G 接入我们的网络，网卡也比较老，后来我们把它的终端升级到 5G 以后，这个问题就不存在了。

给大家分享一个经验，在大规模网络里面，如果设备部署得比较密集的话，终端最好用 5G 方式连接，因为 2.4G 信道比较少，受干扰还是比较大的。上面介绍的是通过简单可视化分析之后给我们带来的好处，我们做什么事情都一目了然。

5、APM的工具体系

我们当初做可视化工具选择的时候，经历的一些坑，也不叫坑，因为试了不少工具。

上面这两排都是做网络监控的工具，像 ZABBIX、Nagios、CACTI、MRTG 等等，他们都有各自不同的特点，下面是做日志分析的，这些工具都是开源社区里比较有名的，大家用得比较多的。

在选网络监控工具的时候，我们对比了一些平台，最终我们选用的是 ZABBIX，这里面我也罗列了一些优点和差异，ZABBIX 在告警方式我比较喜欢，简单，种类方式比较多，邮件也好，短信也好，包括微信互动也都可以实现。

另外拓扑功能，可以把整个 IT 资源串在一起，你关心的指标，比如流量延时、丢包，还有一些状态，都可以在这张图上呈现，包括线路连接的状态都可以呈现，而且支持中文和多国语言。部署方式非常灵活。

上面的这张图展示的是我们现在这个运维平台的简单运维架构，我们选择工具以后先拿来适用一下，看看它的特色到底适不适合我们，这些工具不一定适合其他朋友，可以做参考，如果找到适合他自己的，把里面你想用的东西提炼出来，不一定要用得多么全，只要你有用就好。

6、APM运维平台建立

我们尝试了一下做二次开发，为什么这么做呢？因为他提交的都是基本功能，你想要的或者想展示的可能不能完全展示，这里面我们做了二次开发就是做了 KPI 指标展示的平台。

用 ZABBIX 做可用性、健康性、告警、自动化，elastic主要集中在实时日志，通过可视化进行原因分析，在这两个工具之上，做到一个开放的平台，然后对我们的指标进行分析。

6.1 APM运维平台的架构设计

上面是我们的架构，ZABBIX 服务器是分布式或者独立部署，然后把数据抓取过来，进行展示。右边的 ELK 是做日志的，上面通过它的 API，我们做了一个 KPI 指标的展示，两侧相应的告警平台是通过 ZABBIX 实现，连接告警邮箱和短信、微信等等。

6.2 建立KPI指标体系

刚才说了很多 KPI 指标，也就是说我们要监控对象什么时候好，什么时候坏，我们指标体系怎么建，下面我主要说一下我的经验。

我们把 KPI 分成两类，一个是用户体验 KPI，这主要是对用户来说，你的系统好不好，他能够看得懂的指标。再一个指标是反映IT系统运行怎么样，我们叫系统 KPI。

这两个指标，围绕着我们的用户也好，还有 IT 系统也好，这是一个闭环的体系。

从用户角度来说，我们先从IT系统来说，我的IT系统要健康良好，怎么用系统 KPI，系统 KPI 好了以后，它的可用性、健康性直接体现到用户 KPI 指标，这个指标好的，自然用户会有很好的感受。

这些指标对于我们系统是能够反映出来的，但是企业里面IT其实是不受重视的，你的资源没有那么多，怎么在成本有限的情况下，把指标做好是问题的关键。

所以这里面也要运用我们的业务部门、用户部门或者领导也好，要把他们沟通好，在这样的情况下，我的指标这个阶段达到什么程度，咱们一步步来，步步为营。

在成本增加的情况下，我们把成本做得更漂亮一些，但是最开始的时候，我们基础环境没有那么好，大家不用把指标设得那么高，你肯定达不到，我们的指标要务实一点，不要为了指标而指标。

6.3 落地KPI指标实例

下面举几个例子，KPI 怎么落地？下面有两个例子

案例一，可用性指标的建立

比如网络好与坏，不管是网络也好，还是线路也好，可以用三个指标衡量，丢包、中断、延时，最重要的是中断，中断以后什么也不能用了。

中断指标比如我们设的是最大3分钟类连通性都是0，最大值都是0，说明线路就断了。在中断次之一点就是丢包，这个指标是三分钟类，最小丢包率大于1%，也就是说，最小值是1%，其他值肯定超过1%了。

延时指标是3分钟内延时值最小值大于50毫秒，这是我们设定的一个指标，当然这个值可能是根据不同情况要进行调整，比如说内网一般延时中几毫秒内。

案例二，健康性的指标的建立

主要是我们DNS解析响应时间，我们这里写了一个脚本解析，抓取里面的解析时间。我们设置的是五分钟内，最小值都超过500毫秒，就认为解析值很缓慢了。

总体来说我们设置的值都很简单，但可以反映当前系统运行情况是怎么样的。

案例三，如何评估KPI指标

刚才说了两个指标，那怎么确定你的值是合适的，我们开始设计一个根据你自己的经验和感觉设置一个值，长时间下来以后，通过一段时间分析，比如我们这个图是对 DNS 解析时间的值设定，为什么设置500？

我们正常情况下，我们连续检测一周时间，发现我们解析的正常值都是小于200毫秒，所以我们在这个基础上又提高一点把阈值设定为500毫秒，这样系统就会认为超500毫秒肯定不可以了。

当然有时候偶尔会超过1000毫秒依旧正常的情况，但是从整体上来看，都是在200毫秒以下，这是正常情况。通过这样历史数据的积累，我们再去优化调节 KPI 指标。

这样就比较贴近于你的系统，当前情况下应该用什么质量来衡量，你也可以跟你的主管说，我们现在系统下能够达到的水平是什么情况，你如果想提高你的指标，做得更好，这时候你就可以要一些资源了，把带宽加大，提高设备硬件性能等。

案例四，KPI展示

最后是一个 KPI 展示，我们IT做支撑服务，对于我们用户也好，对于我们业务部门也好，你要让他看得到把用这个系统好不好。

你以前做得再漂亮，他看不到，出了问题他认为你还是没有做好。所以这个平台就是我们给大家展示，通过这样的展示之后，用户就对我们的系统运行情况就很清楚了。

我选了一个对我们线路状态的监测，绿色正常，红色中断，黄色丢包，蓝色是延时。对每个线路，我还可以继续点击，在里面再去看线路历史的情况，这个线路例子是联通线路一天的数据，线路质量还是不错的。

有了上面这些手段，实现之后，对于我们自己，对于用户来说，都是很轻松了，我们每天上班之后看一些异常，到底什么原因发生的，看一些后台日志，然后看看服务什么原因，剩下时间就可以坐下来喝喝水，研究下一步怎么优化，出现问题怎么去做，这时候就很悠闲了，所以运维就变得很轻松了。

7、运维工作周报

什么要写运维工作周报这件事情？这是我们运维团队，其实做这件事情不是我一个人做，后面有一个团队支撑我们完成这件事。

现在在移动互联网时代下，大家不可能一个人做出很复杂的东西来，需要每个人去贡献他一份力量。我们每周会有团队的例会，在例会上我们有一个工具，就是用我们的工作周报来完成工作上衔接的事情的安排。

这个周报只是给大家看一个例子，这是我们每个人可以看到的，作为每周的计划，完成的怎么样，还有下周的计划，上周的总结。

上面这些黑体字部分，就是我上周制定的计划，我这周完成的怎么样，蓝色的部分是原来没有计划类的，又临时来的一些事情，我把它记录上面了。包括下面是下周的计划，要做什么事情，为什么要写在这个上面，一个是怕忘，事前多了，就怕忘记。

第二个目的，准确性，我们在沟通上，每个人表达和理解是不一样的，你可以表达张三那个意思，李四这个意思，但是我们落在这个平台上，大家就很清楚你要做什么事情，需要配合做什么事情。

任明

中国银联运维总架构师

了解更多 >

金山孙召增-企业内网APM实战

金山孙召增-企业内网APM实战

文档介绍

演讲实录

相关会议文档推荐

任明

相关会议