首页>会议文档 >

GrowingIO 王硕 - Auto Scaling System for AWS

page:
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS
GrowingIO 王硕 - Auto Scaling System for AWS

GrowingIO 王硕 - Auto Scaling System for AWS

所属会议:2017可信云大会会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

7443次
浏览次数
2017可信云大会所有文档 北京中油瑞飞 孙杰 - 大型企业云化2.0的现状、思考与未来 广电总局 孙黎丽 - 广电云平台视频基础能力需求分析与测试评估 烽火通信 涂文杰 - 烽火FitDP容器解决方案 北京AA投资 王浩泽 - 企业服务的投资逻辑 中国电信 王萧 - 中国电信政务云的探索与实践 中国信息通信研究院 王秀梅 - 云计算在医疗行业应用及医疗云可信选型标准发布 中联润通 肖力 - 大型OpenStack私有云运维项目角度实践 中国信息通信研究院 徐恩庆 - 政务云建设焦点分析和评价机制 映客直播 薛宁 - 映客直播调度系统实践 中国信息通信研究院 闫丹 - 《企业级SaaS服务调查报告(2017年)》发布 中国信息通信研究院 闫丹 - 可信云•企业级SaaS评估 中国信息通信研究院 闫丹 - 云计算在金融行业发展现状 浪潮云 颜亮 - 浪潮云 引领中国云浪潮 腾讯互娱 杨文兵 - 从0到1构建企业自动化运维系统的PaaS 人民在线 杨耀武 - 重要业务系统如何顺利上云 北京邮电大学 杨义先 - 《安全简史》之大数据隐私新视角 七牛云 袁晓沛 - 七牛容器云大规模线上实践 亚数信息科技翟新元 - 现代化的HTTPS运维 云栈科技 张春源 - 容器技术在地震系统中的实践 企事录 张广彬 - 超融合架构及其发展方向 乐视 张建蕊 - 多场景时代的视频云架构 网易云 张亮 - 使用容器应对业务快速迭代和大规模部署的运维挑战 思科 张亦安 - 思科HyperFlex,高性能省硬盘的超融合 中央国家机关政府 张智慧 - 政府采购软件及云计算服务相关政策介绍 思科 朱立新 - 网络 全智慧 全景洞悉 心想事成 中国通信标准化协会 代晓慧 - 可信云认证总体发展情况通报 迅达云 董伟 - 如何打造一款轻量级的在线教育视频解决方案 国家行政学院 杜庆昊 - 超融合应用实践与体会分享 UCloud 方勇 - 政务云建设的CBA演化 联通云数据公司 房秉毅 - 可信云端 与沃共建 中国信息通信研究院 封莎 - 云深不知处——云计算的数据安全能力构建 中国信息通信研究院 韩涵 - 政务大数据建设的推进思路 博彦科技衡跃辉 - 博彦科技之大数据时代下的混合云应用 中国信息通信研究院 姜春宇 - 大数据产品能力评测-赋能企业大数据能力建设 联通云 靳宏亮 - 云维护面临的挑战和机遇 百度云 李诚 - 公有云的安全产品体系建设 中国信息通信研究院 李海英 - 《网络安全法》与云安全 中国信息通信研究院 栗蔚 - 《中国公有云发展调查报告(2017)》 可信云评估观察 中国电信 刘杰 - 推动CDN联盟,共建大视频平台 恒丰银行 柳东 - 基于OpenStack构建金融云实践 随锐科技 罗庆欣 - 瞩目实时通信云架构 中国信息通信研究院 马飞 - 可信云•混合云解决方案评估方法 中国医学装备协会 孟为民 - IHE中国与医学装备信息交互集成规范 中国信息通信研究院 牛晓玲 - 可信云金牌运维专项评估 云安全联盟 钱晓斌 - CSA国际云安全标准暨云安全全球最佳实践 中国信息通信研究院 卿苏德 - 可信金融区块链测试的设计思路 中国信息通信研究院 曹峰 - 超融合发展趋势及云计算超融合架构可信评估情况通报 云智慧 曹国喜 - 云环境下端到端应用运维监控平台 中国信息通信研究院 陈凯 - 云分发评估标准(2017版)解读 UCloud 陈晓建 - 云汉灿烂,通向U Defined Cloud之路 中国信息通信研究院 陈屹力 - 可信云容器评估方法 青藤云安全 程度 - 云工作负载安全保护最佳实践 Udesk 程俊来 - Udesk如何帮助企业的客服团队成功 青藤云 崔晶炜 - 网络安全趋势与金融行业云安全思考

文档介绍

GrowingIO干的事情简单来讲就是收集各种各样用户行为数据,基于数据分析去建立模型,帮助你做产品决策、商业决策,这是非常有价值的。DevOps今后的挑战,今天我们来看整个运维行业,如果你只是一个传统的Ops,在大公司做一颗螺丝钉是完全没有问题的,如果你想去一家创业公司,你想让自己变得也竞争力,如果你只是一个Ops,你是完全没有竞争力的,你必须是具有很强开发背景的这样一个DevOps,你才具有比较强的竞争力。而今后不仅仅你是具有很强的开发背景、运维背景等相关的知识,你是一个DevOps,不仅如此,你还要具有Grows思想。

演讲实录

大家好,我叫王硕,来自于 GrowingIO。

刚才听上一个演讲嘉宾讲精益看板很有感触,作为运维来讲,在某些公司有时候会非常痛苦,因为出了问题大家都会先找你,恨不得你就是那个干坏事的人,背锅的人,有些公司出大问题,老板会站在你身后看你去解决问题,而且日常会有很多插入的工作,最终会导致工作不是那么开心。我之前就职的两家公司都是外企,更讲究有效率的工作和加班,其实还是比较不错的,即使加班也会有加班费,法定节假日加班是 3 倍工资。每天工作不会让你干满 8 个小时,6 个小时已经不错了,如果你能高效干 4 个小时已经挺好了。如果你去参加开发者大会经常会听到敏捷这个词,在之前的公司当中,我们就是用 Scrum 来高效的管理 DevOps 团队的。

今天我讲的演讲主题是如何基于 AWS 做自动伸缩系统,AWS 是云计算的鼻祖,是最开始做云计算的。我们在 AWS 还没有提供自动伸缩服务之前我们就已经做出了自动伸缩系统,而且是使用了 Spot Instances,也就是竞价实例。

在进入正题之前先介绍一下 GrowingIO,GrowingIO 是基于用户行为的新一代数据分析产品,无需埋点即可采集全量、实时用户行为数据,数据分析更精细,帮助管理者、产品经理、市场运营、数据分析师、增长黑客等提升转化率、优化网站 / APP,实现用户快速增长和变现。这是一件非常有挑战的事情。放眼今天我们来看整个运维行业,如果你只是一个传统的 Ops,在大公司做一颗螺丝钉是完全没有问题的,但是如果你想去一家创业公司,你想让自己变得有竞争力,你必须成为 DevOps,你必须具有很强的开发背景。而今后不仅仅你要具有很强的开发背景、运维背景等相关的知识,你还要具备 Growth 思想,大数据分析的能力,而 GrowingIO 能够帮助你成为这样的人,欢迎加入 GrowingIO。

进入正题,为什么要做自动伸缩系统,首先集群要承载高峰期的压力,其次也要减少低峰期的服务器成本。DevOps 要干的事情很多,Cost Saving 是其中很重要的一个方面,这是我们做自动伸缩系统的一个目的。

接下来讲一讲 AWS 的 Instnaces 类型,首先最常见的一种是 On-Demand Instances,不管是按小时计费还是分钟计费,说白了起来就计费,基本上国内的云厂商都会支持这种方式。第二种是 Reserved Instances,国内的云厂商大部分也支持这功能。第三种是 Spot Instances,比如说一个机器你出一块钱我出两块钱,价高者得,这是一个竞价的过程。国内实现这个功能的厂商并不多。我们如果想降低服务器的费用,就要很好的利用 Spot Instances。我们就是通过这种方式,节省了很多服务器的费用,当然具体细节还涉及到很多复杂的东西,有可能很小的一个机型,通过不同的竞价反而价钱会比较高。比如说 A 机型本来要小于 B 机型,但也许通过竞价,价钱要比 B 机型价钱高,这里涉及到竞价算法的事情。

讲一讲我们遇到的痛点有哪些。首先,AWS 这么大的云厂商,我们都可能遇到某个机房机器不够的情况,你的自动伸缩系统要有能力 Launch 不同类型的机器、甚至不同机房的机器。第二,有些机器有可能因为某些特殊的原因,他是不能够被关闭的。第三个是网络原因,AWS 在全球市场是做得非常成功,但是在巴西市场做的不是特别好,经常有网络方面的问题。

讲一讲我们做这个系统的几个原则。第一点,我们尽可能的 Launch 竞价实例,这样成本最低。第二,如果其他机型没有了,AWS 机房没这个机型了,我们要有能力 Launch 其他的机型。第三,如果某个机房没机器了,我们可以在另外一个机房 Launch 服务器。第四点,在缩容的过程当中,我们要优先关闭 On-Demand Instances,说白了就是优先关贵的。最后一点,要保证整个集群要有至少那么几台 On Demond 机器来保证正常工作。

接下来讲一下 DevOps 今后的发展方向。如果你只是一个传统的 Ops,其实不太具备市场竞争力,就今天来看,如果你具有很强的开发能力,目前来讲你还能够找到一个比较好的工作,未来你一定要是具有大数据分析的能力,再加上 DevOps,你才能够具备一定的市场竞争力。我之前是在 LinkedIn 工作,做社交的公司都会有做一个 PYMK 的东西,People You May Know,其实就是做人脉的推荐,你可能对这个人感兴趣,他把这个人推荐给你了,或者说国内的很多做酒店的,比如说携程之类的,他也会给你推荐一些酒店。但是 DevOps 有什么场景需要这些大数据分析呢,我们之前做传统运维,你无法预测服务器未来会发生什么。今天每天服务器产生这么多数据,不管是系统级别的还是服务级别的,你怎么样去预测这台服务器明天会不会出现问题呢?能不能基于大数据分析,预测未来哪些服务器可能会出现问题,哪些服务可能会出现问题呢?我们在做面向用户这种产品的时候经常会讲用户的画像是什么,对于 DevOps 来讲,你的服务器相关的服务的画像又是什么?这是一个非常值得思考的问题,也是今后 DevOps 需要做的事情,DevOps 已经转型至 AIOps 了。

有很多数据需要分析,这些数据怎么收集起来的呢,不同公司有不同做法,简单来讲,就是你有 Agent 收集各种渠道来的 Metrics,让后放到一个时序数据库里进行存储,目前国内大公司用的最多的就是 OpenTSDB,我们通过对这些数据进行分析,来对服务器以及服务做一定的画像,预测未来它是否会出现问题。

接下来简单介绍一下 TSDB,这是全球的 TSDB 排行榜,目前来讲排第一的是 InfluxDB,国内用得不是特别多,据我了解目前国内只有七牛和饿了么在用。OpenTSDB 不用说,淘宝、百度、滴滴都在用。TSDB 有几个比较重要的概念,第一个是时间,因为它是一个时序数据库,第二是你的 Metric 是什么,第三是你的 Value 是什么,第四个是你的 Tags 是什么。比如我想统计你的响应时间,Response Time是个Value。但是你想通过不同维度来看这条 Metric,你会有打很多 Tag。你通过 Tag,按照不同维度去聚合,进行一定的数据分析。GrowingIO 这个季度的 OKR 有个指标就是关于系统稳定性的,而首先要做的就是要收集系统稳定性指标,而 GrowingIO 用了一周左右就把整个框架搭建起来了。在 GrowingIO 做事其实是非常快的,这就是创业公司的魅力。

接下来讲我们有了这些数据之后就要开始做分析,简单来讲就是我们通过历史数据,通过不同的 Detection Model,去进行建模,预测未来会是什么状态。异常检测的方式,我们目前还在做,因为现在我们只是把数据收集起来,有相应的图,接下来的工作就是要做 Detection Model 方面的数学建模的事情。

就是以上这些内容,我们现在还在持续招人,欢迎优秀的人加入 GrowingIO,最好有大数据背景,如果大家想加入 GrowingIO 可以给我发邮件或者加我微信。

×

打开微信扫一扫,分享到朋友圈