GrowingIO 王硕 - Auto Scaling System for AWS

2017可信云大会所有文档
北京中油瑞飞孙杰 - 大型企业云化2.0的现状、思考与未来
3613次
广电总局孙黎丽 - 广电云平台视频基础能力需求分析与测试评估
3914次
烽火通信涂文杰 - 烽火FitDP容器解决方案
9447次
北京AA投资王浩泽 - 企业服务的投资逻辑
8334次
中国电信王萧 - 中国电信政务云的探索与实践
5410次
中国信息通信研究院王秀梅 - 云计算在医疗行业应用及医疗云可信选型标准发布
8222次
中联润通肖力 - 大型OpenStack私有云运维项目角度实践
7545次
中国信息通信研究院徐恩庆 - 政务云建设焦点分析和评价机制
5195次
映客直播薛宁 - 映客直播调度系统实践
5119次
中国信息通信研究院闫丹 - 《企业级SaaS服务调查报告（2017年）》发布
6514次
中国信息通信研究院闫丹 - 可信云•企业级SaaS评估
8043次
中国信息通信研究院闫丹 - 云计算在金融行业发展现状
8209次
浪潮云颜亮 - 浪潮云引领中国云浪潮
4570次
腾讯互娱杨文兵 - 从0到1构建企业自动化运维系统的PaaS
10560次
人民在线杨耀武 - 重要业务系统如何顺利上云
9951次
北京邮电大学杨义先 - 《安全简史》之大数据隐私新视角
1804次
七牛云袁晓沛 - 七牛容器云大规模线上实践
10187次
亚数信息科技翟新元 - 现代化的HTTPS运维
4490次
云栈科技张春源 - 容器技术在地震系统中的实践
3211次
企事录张广彬 - 超融合架构及其发展方向
7455次
乐视张建蕊 - 多场景时代的视频云架构
2843次
网易云张亮 - 使用容器应对业务快速迭代和大规模部署的运维挑战
3685次
思科张亦安 - 思科HyperFlex，高性能省硬盘的超融合
8654次
中央国家机关政府张智慧 - 政府采购软件及云计算服务相关政策介绍
12094次
思科朱立新 - 网络全智慧全景洞悉心想事成
10969次
中国通信标准化协会代晓慧 - 可信云认证总体发展情况通报
9380次
迅达云董伟 - 如何打造一款轻量级的在线教育视频解决方案
10831次
国家行政学院杜庆昊 - 超融合应用实践与体会分享
6621次
UCloud 方勇 - 政务云建设的CBA演化
2474次
联通云数据公司房秉毅 - 可信云端与沃共建
5426次
中国信息通信研究院封莎 - 云深不知处——云计算的数据安全能力构建
6788次
中国信息通信研究院韩涵 - 政务大数据建设的推进思路
11372次
博彦科技衡跃辉 - 博彦科技之大数据时代下的混合云应用
1963次
中国信息通信研究院姜春宇 - 大数据产品能力评测-赋能企业大数据能力建设
8534次
联通云靳宏亮 - 云维护面临的挑战和机遇
2086次
百度云李诚 - 公有云的安全产品体系建设
10812次
中国信息通信研究院李海英 - 《网络安全法》与云安全
1779次
中国信息通信研究院栗蔚 - 《中国公有云发展调查报告（2017）》可信云评估观察
8335次
中国电信刘杰 - 推动CDN联盟，共建大视频平台
9409次
恒丰银行柳东 - 基于OpenStack构建金融云实践
9441次
随锐科技罗庆欣 - 瞩目实时通信云架构
7810次
中国信息通信研究院马飞 - 可信云•混合云解决方案评估方法
1284次
中国医学装备协会孟为民 - IHE中国与医学装备信息交互集成规范
9866次
中国信息通信研究院牛晓玲 - 可信云金牌运维专项评估
5849次
云安全联盟钱晓斌 - CSA国际云安全标准暨云安全全球最佳实践
6438次
中国信息通信研究院卿苏德 - 可信金融区块链测试的设计思路
1485次
中国信息通信研究院曹峰 - 超融合发展趋势及云计算超融合架构可信评估情况通报
7393次
云智慧曹国喜 - 云环境下端到端应用运维监控平台
10599次
中国信息通信研究院陈凯 - 云分发评估标准（2017版）解读
4990次
UCloud 陈晓建 - 云汉灿烂，通向U Defined Cloud之路
10337次
中国信息通信研究院陈屹力 - 可信云容器评估方法
10735次
青藤云安全程度 - 云工作负载安全保护最佳实践
3696次
Udesk 程俊来 - Udesk如何帮助企业的客服团队成功
5976次
青藤云崔晶炜 - 网络安全趋势与金融行业云安全思考
1437次

GrowingIO 王硕 - Auto Scaling System for AWS

所属会议：2017可信云大会会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

7837次
浏览次数

文档介绍



GrowingIO干的事情简单来讲就是收集各种各样用户行为数据，基于数据分析去建立模型，帮助你做产品决策、商业决策，这是非常有价值的。DevOps今后的挑战，今天我们来看整个运维行业，如果你只是一个传统的Ops，在大公司做一颗螺丝钉是完全没有问题的，如果你想去一家创业公司，你想让自己变得也竞争力，如果你只是一个Ops，你是完全没有竞争力的，你必须是具有很强开发背景的这样一个DevOps，你才具有比较强的竞争力。而今后不仅仅你是具有很强的开发背景、运维背景等相关的知识，你是一个DevOps，不仅如此，你还要具有Grows思想。

演讲实录

大家好，我叫王硕，来自于 GrowingIO。

刚才听上一个演讲嘉宾讲精益看板很有感触，作为运维来讲，在某些公司有时候会非常痛苦，因为出了问题大家都会先找你，恨不得你就是那个干坏事的人，背锅的人，有些公司出大问题，老板会站在你身后看你去解决问题，而且日常会有很多插入的工作，最终会导致工作不是那么开心。我之前就职的两家公司都是外企，更讲究有效率的工作和加班，其实还是比较不错的，即使加班也会有加班费，法定节假日加班是 3 倍工资。每天工作不会让你干满 8 个小时，6 个小时已经不错了，如果你能高效干 4 个小时已经挺好了。如果你去参加开发者大会经常会听到敏捷这个词，在之前的公司当中，我们就是用 Scrum 来高效的管理 DevOps 团队的。

今天我讲的演讲主题是如何基于 AWS 做自动伸缩系统，AWS 是云计算的鼻祖，是最开始做云计算的。我们在 AWS 还没有提供自动伸缩服务之前我们就已经做出了自动伸缩系统，而且是使用了 Spot Instances，也就是竞价实例。

在进入正题之前先介绍一下 GrowingIO，GrowingIO 是基于用户行为的新一代数据分析产品，无需埋点即可采集全量、实时用户行为数据，数据分析更精细，帮助管理者、产品经理、市场运营、数据分析师、增长黑客等提升转化率、优化网站 / APP，实现用户快速增长和变现。这是一件非常有挑战的事情。放眼今天我们来看整个运维行业，如果你只是一个传统的 Ops，在大公司做一颗螺丝钉是完全没有问题的，但是如果你想去一家创业公司，你想让自己变得有竞争力，你必须成为 DevOps，你必须具有很强的开发背景。而今后不仅仅你要具有很强的开发背景、运维背景等相关的知识，你还要具备 Growth 思想，大数据分析的能力，而 GrowingIO 能够帮助你成为这样的人，欢迎加入 GrowingIO。

进入正题，为什么要做自动伸缩系统，首先集群要承载高峰期的压力，其次也要减少低峰期的服务器成本。DevOps 要干的事情很多，Cost Saving 是其中很重要的一个方面，这是我们做自动伸缩系统的一个目的。

接下来讲一讲 AWS 的 Instnaces 类型，首先最常见的一种是 On-Demand Instances，不管是按小时计费还是分钟计费，说白了起来就计费，基本上国内的云厂商都会支持这种方式。第二种是 Reserved Instances，国内的云厂商大部分也支持这功能。第三种是 Spot Instances，比如说一个机器你出一块钱我出两块钱，价高者得，这是一个竞价的过程。国内实现这个功能的厂商并不多。我们如果想降低服务器的费用，就要很好的利用 Spot Instances。我们就是通过这种方式，节省了很多服务器的费用，当然具体细节还涉及到很多复杂的东西，有可能很小的一个机型，通过不同的竞价反而价钱会比较高。比如说 A 机型本来要小于 B 机型，但也许通过竞价，价钱要比 B 机型价钱高，这里涉及到竞价算法的事情。

讲一讲我们遇到的痛点有哪些。首先，AWS 这么大的云厂商，我们都可能遇到某个机房机器不够的情况，你的自动伸缩系统要有能力 Launch 不同类型的机器、甚至不同机房的机器。第二，有些机器有可能因为某些特殊的原因，他是不能够被关闭的。第三个是网络原因，AWS 在全球市场是做得非常成功，但是在巴西市场做的不是特别好，经常有网络方面的问题。

讲一讲我们做这个系统的几个原则。第一点，我们尽可能的 Launch 竞价实例，这样成本最低。第二，如果其他机型没有了，AWS 机房没这个机型了，我们要有能力 Launch 其他的机型。第三，如果某个机房没机器了，我们可以在另外一个机房 Launch 服务器。第四点，在缩容的过程当中，我们要优先关闭 On-Demand Instances，说白了就是优先关贵的。最后一点，要保证整个集群要有至少那么几台 On Demond 机器来保证正常工作。

接下来讲一下 DevOps 今后的发展方向。如果你只是一个传统的 Ops，其实不太具备市场竞争力，就今天来看，如果你具有很强的开发能力，目前来讲你还能够找到一个比较好的工作，未来你一定要是具有大数据分析的能力，再加上 DevOps，你才能够具备一定的市场竞争力。我之前是在 LinkedIn 工作，做社交的公司都会有做一个 PYMK 的东西，People You May Know，其实就是做人脉的推荐，你可能对这个人感兴趣，他把这个人推荐给你了，或者说国内的很多做酒店的，比如说携程之类的，他也会给你推荐一些酒店。但是 DevOps 有什么场景需要这些大数据分析呢，我们之前做传统运维，你无法预测服务器未来会发生什么。今天每天服务器产生这么多数据，不管是系统级别的还是服务级别的，你怎么样去预测这台服务器明天会不会出现问题呢？能不能基于大数据分析，预测未来哪些服务器可能会出现问题，哪些服务可能会出现问题呢？我们在做面向用户这种产品的时候经常会讲用户的画像是什么，对于 DevOps 来讲，你的服务器相关的服务的画像又是什么？这是一个非常值得思考的问题，也是今后 DevOps 需要做的事情，DevOps 已经转型至 AIOps 了。

有很多数据需要分析，这些数据怎么收集起来的呢，不同公司有不同做法，简单来讲，就是你有 Agent 收集各种渠道来的 Metrics，让后放到一个时序数据库里进行存储，目前国内大公司用的最多的就是 OpenTSDB，我们通过对这些数据进行分析，来对服务器以及服务做一定的画像，预测未来它是否会出现问题。

接下来简单介绍一下 TSDB，这是全球的 TSDB 排行榜，目前来讲排第一的是 InfluxDB，国内用得不是特别多，据我了解目前国内只有七牛和饿了么在用。OpenTSDB 不用说，淘宝、百度、滴滴都在用。TSDB 有几个比较重要的概念，第一个是时间，因为它是一个时序数据库，第二是你的 Metric 是什么，第三是你的 Value 是什么，第四个是你的 Tags 是什么。比如我想统计你的响应时间，Response Time是个Value。但是你想通过不同维度来看这条 Metric，你会有打很多 Tag。你通过 Tag，按照不同维度去聚合，进行一定的数据分析。GrowingIO 这个季度的 OKR 有个指标就是关于系统稳定性的，而首先要做的就是要收集系统稳定性指标，而 GrowingIO 用了一周左右就把整个框架搭建起来了。在 GrowingIO 做事其实是非常快的，这就是创业公司的魅力。

接下来讲我们有了这些数据之后就要开始做分析，简单来讲就是我们通过历史数据，通过不同的 Detection Model，去进行建模，预测未来会是什么状态。异常检测的方式，我们目前还在做，因为现在我们只是把数据收集起来，有相应的图，接下来的工作就是要做 Detection Model 方面的数学建模的事情。

就是以上这些内容，我们现在还在持续招人，欢迎优秀的人加入 GrowingIO，最好有大数据背景，如果大家想加入 GrowingIO 可以给我发邮件或者加我微信。

张广彬

企事录创始人

了解更多 >

GrowingIO 王硕 - Auto Scaling System for AWS

GrowingIO 王硕 - Auto Scaling System for AWS

文档介绍

演讲实录

相关会议文档推荐

张广彬

相关会议