首页>会议文档 >

日志易 陈军 - IT运维分析与海量日志搜索分析

page:
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析
日志易 陈军 - IT运维分析与海量日志搜索分析

日志易 陈军 - IT运维分析与海量日志搜索分析

所属会议:SACC2016 (第八届)中国系统架构师大会会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

4690次
浏览次数
SACC2016 (第八届)中国系统架构师大会所有文档 开九易云拓 朱龙春 - 互联网对传统企业应用架构冲击和机遇 淘宝 郑士汉 - Weex架构简介和性能优化实战 周亚金 - 安卓应用保护技术发展 小米电视工程师朱辉 - ZRAM那点事pdf 小米 朱辉 - 支持任意数量watchpoin的建议 学而思 赵文杰 - 交互式直播推流编码器的设计 搜狗 甄丽霞 - 基于Kafka-spark streaming的数据处理系统及测试 蚂蚁金服 郑波 - 网商银行金融云的架构之路 饿了么 徐巍 - 饿了么基础设施进化史 光载无限 许开强 - CDN直播系统的优化 搜狗 杨剑飞 - 统一数据平台的实践及思考 网易蜂巢 尧飘海 - 网易蜂巢公有容器云架构之路 超多维 郁树达 - 前进的路上,VR有哪些绕不开的坑 美团点评 喻继鹏 - 互联网行业财务系统架构探讨 阅文集团 徐海峰 - 阅文集团自主分布式文件系统 哈尔滨银行 姜岩 - 运维架构调整与运维工厂模式的建立 百度 张建伟 - 百度大数据离线计算平台流式shuffle服务 深圳瑞赛 张平 - 专业化的风控服务平台的技术架构及实践 魔窗 张申竣 - 创业公司的大数据平台选型和进化 去哪儿网 张子天 - Spider-QunarAndroid客户端架构的前世今生 蜗牛云 赵刚 - 京东VRAR实验室在电商VR中的实践 云计算公司技术专家赵伟 - 负载均衡利器HAProxy功能剖析及部署案例 中国移动 王烨 - 中国移动私有云管理平台架构和实践 优酷土豆 宋慎义 - 为全民直播量身定做流媒体平台 Linkedin China Engineer Supervisor魏佳 - 图数据库Neo4J的实践之路 美图 魏家富 - 美图公司运维自动化系统架构设计 阿里巴巴 郝豪 - 阿里Android instant run探索与实践 美团外卖 夏华夏 - 架构师的三个基本要求 爱奇艺 谢丹铭 - 爱奇艺业务风控系统 爱奇艺 刘俊晖 - 爱奇艺大数据平台的构建之路 爱奇艺 刘文峰 - 爱奇艺云架构实践优化 易到用车 刘宇 - PHP高性能服务框架架构与实践 网易 刘长伟 - 网易蜂巢Docker研发实践 刘喆 - 大数据时代AdMaster的运维架构 去哪儿网 路绪清 - 基于大数据的消费信贷平台 中国移动 罗刚毅 - 中国移动异构虚拟化平台统一管理研发与实践 优酷土豆 吕红亮 - 视频精准推荐系统实践 小米VR团队马坤 - VR技术与展望 资深云计算架构师马耀泉 - 云计算的高可用实践探索与分享 袋鼠云 宁海元 - 企业级云数据库管控架构设计与实践 汽车之家 欧阳梦南 - 汽车之家移动APP架构演进与性能优化历程 光载无限 欧曜伟 - 光载无限监控体系的变革与演进 阿里巴巴 袁冶平 - 阿里大数据平台发布管理体系 Hyper.sh 裴彤 - 基于 hyper 容器技术的新一代容器云 58到家 任桃术 - 58到家分布式服务框架 阿里巴巴 桑毅宏 - 互联网公司骨干网规划构 上汽集团 龚瀚申 - 上汽集团基于容器技术的尝试实践 滴滴出行 盛克华 - 滴滴高性能列式KV存储系统实践 京东 寿如阳 - 京东虚假交易识别系统 信泰人寿 章晨曦 - 数据分发平台的架构设计与实践 爱可生 王伟 - 数据之大,云动未来——传统企业从IT到DT的互联网创新最佳实践 上交所 孙长昊 - 上交所基于容器技术的微服务架构技术实践 魅族 覃军 - 魅族基础系统运维之路示 美团 唐义哲 - 美团业务风控系统构建经验 腾讯 程彬 - 腾讯云数据库CDB技术演进之路 一点资讯 王成光 - 轻量级分布式实时计算框架light_drtc 京东 王大泳 - 京东数据中心网络监控实践 农银 王福强 - 农银人寿新一代核心业务系统云平台实践题 Intel 王华峰、毛玮、张天伦 - 分布式流式数据处理框架:功能对比以及性能评估 时速云 王磊 - 容器云平台在企业中的运维管理和场景实践 达乎科技 王茜 - SDN对传统网络的变革和价值提升 搜狐视频 李修鹏 - 搜狐视频个性化推荐架构设计和实践 北京邮电大学 李昕 - SDN向左,WAN向右 蜗牛云 李晨光 - VR沉浸式视频在移动平台的优化技术分析 武汉泰迪智慧科技 李成华 - 深度学习在自然语言中的应用 华胜信泰 李海翔 - 数据库引擎技术架构 360 李纪峰 - 云平台安全架构剖析 蚂蚁金服 李三红 - Java企业应用-性能优化原则,方法与策略 拍拍贷 徐王锦 - 金融行业数据库架构变迁 京东 杨海明 - 京东云的架构实践之路 神策数据 曹犟 - 从日志统计到大数据分析 饿了么 常盛 - 饿了么实时架构演进 DBI 常艳玲 - 架构师现状调查报告解读 华为 陈亮 - Apache CarbonData,实现大数据即席查询秒级响应 百度外卖 师陈霖 - 百度外卖服务化实战 腾讯微信 陈晓鹏 - 微信运维实时监控数据上报及存储设计实践 雪球 单艳蕾 - 雪球运维架构体系探索 证券 董国兴 - 传统金融行业企业架构创新与实践 腾御安 樊付强 - GNU工具链里的漏洞利用缓解技术 国家工商总局 付宏伟 - 工商数据中心架构创新之路 七牛云 何李石 - 七牛融合CDN实践 宜信 侯松 - 大数据全流程平台在互联网金融场景下的实现和借鉴意义 饿了么 张雪峰 - 架构师需要面对的两个【架构】 Apache HAWQ 简丽荣 - 数据仓库架构的变迁

文档介绍

随着IT运维越来越精细化,IT运维管理需要IT运维智能分析,如何把机器学习应用到IT系统每天产生的海量日志上,实现异常自动发现、预测等功能,是每个运维工程师期盼的。

演讲实录

陈军:我今天讲的是IT运维分析与海量日志分析,今天是IDC大会,很多数据需要分析,IT设备需要做运维。我分这几部分讲,什么叫IT运维分析,IT运维是个比较新的东西,日志的应用场景、过去及现在的做法、日志搜索引擎、日志易的产品。

过去做IT运维都讲IT运维管理,IT运维管理做了很多年了,也非常成熟,随着前几年大数据技术的兴起,大家开始把大数据技术应用到IT运维上面做分析,就产生了IT运维分析,把大数据技术用在IT运维分析上的目的是提高数据质量和效率。可用性监控、应用型能监控、故障根源分析、安全审计。权威的调查机构Gartner估计,到2017年15%的大企业会积极使用ITOA,2014年这个数字只有5%,不管5%还是15%,是比较低的比例,ITOA是新出现的东西,正在被市场逐步接受。

ITOA把大数据的技术用在运维数据的分析上,数据的来源就非常重要,ITOA的数据来源主要是四方面:

第一是机器数据,服务器、网络设备产生的数据,其实就是日志。

第二是通信数据,现在网络已经非常普遍了,后台的设备很多都是大型的分布式系统,都有网络的通信,网络通信过去通过网络抓包,通过流量分析应用的情况。网络抓包、流量分析的这类数据又是Wire Data。

第三是代码级别进行统计分析的,像PHP、JAVA这些字节码来插入统计分析的代码,统计它的函数调用情况、堆站的使用情况,从代码级别来进行统计分析,更加精细化的统计化分析,这是代理数据。

第四是探针数据,国内已经有些公司在做这个事情,全国的用户访问IDC的延时是多少,得在全国布点,发起模拟用户的请求探测,进行端到端延时的度量。美国有一家做ITOA的公司,他们做了一个用户调查,四种数据来源使用情况,日志的使用比例非常高,占86%,网络抓包占93%,插入代码代理数据是47%,探针数据是72%。日志跟网络抓包占的比例非常高,占到了百分之八九十,插入代码占不到50%,探针大概是70%。

日志无所不在,所有服务器、网络设备、应用系统都会产生日志,但是日志的覆盖面非常广,日志也有它的特点,不同的应用输出的日志完整性跟可用性不同,因为输出太多日志会降低应用的性能,会关闭一些级别低的日志,只输出级别最高的。输出的日志有多少,数据的完整性有差别。通信数据,网络抓包,从网络流量统计的信息也是非常全面的,但是它也有它的局限性,有一些事件未必触发网络通信,如果没有触发网络通信的话就不会产生网络流量,就没办法抓这些包进行统计。

探针数据,是模拟用户请求,好处是端到端监控,可以从手机访问到服务器端到端的延时,但它的问题不是真实的用户度量,前几年已经开始讲一个概念,真实的用户度量,我们希望度量到用户真正的延时情况,而不是模拟的。移动应用厂商像腾讯、百度他们已经有数以亿计的终端用户,他们可以直接在他们的手机应用端做真实的用户度量,可以看到真实用户的访问情况。2008年汶川地震的时候腾讯QQ客户端实时监测到汶川地区用户QQ掉线,马上知道那里发生了事故,要么是IDC事故,要么是网络的事故,所以可以做真实的网络度量。

日志学术性的说法是时间序列机器数据,为什么叫做时间序列机器数据?因为它是带时间戳的机器数据,它是机器产生的,网络设备、服务器产生的。第二它是带时间戳的,日志包含了IT系统非常多的信息,服务器、网络设备、操作系统、应用软件,甚至包括用户的信息、业务的信息。日志反映了事实数据,美国有个很出名的公司叫影音(音),做职业社交,他的一名工程师写了一篇非常出名的文章,每一个软件工程师都应该知道实时数据统一的抽象的信息,也有中译版,深度解析Linkedin大数据平台,所有对日志感兴趣的工程师可以好好看下这篇文章,这篇文章讲的就是日志是一个企业里最真实的数据,不管是数据中心还是企业里发生的一切日志都会记录下来,通过统计分析这个日志,不同系统之间的通信也可以通过日志来传输这个信息。大数据领域有比较开源的软件Kafuka,当年发明Kafuka的目的就是用来传输日志,Kafuka也是做日志处理里用的最普遍的消息队列软件。

先看一下Apache日志,这是一条Apache日志,它是文本信息,如果不是专业的运维工程师经常看日志的话,大家看到这个会像看天书,不知道是什么含义,使用日志易这个软件把日志做结构化,把它从非结构化数据转成结构化数据得出来的信息。一条日志包含的信息非常多,从这里面统计分析的话会得出多有价值的信息。日志可以用到哪些场景?一个是运维监控,IDC需要进行运维监控,保证系统的可用性,如果出现故障了,能够及时追溯故障根源,及时知道问题。应用性能监控,主要是知道性能的情况,你的网站是不是慢,为什么慢,慢在哪里,这方面属于应用性能监控。数据中心里还有一条很重要的就是安全,要保证数据中心的安全,防止黑客的入侵。这可以用在安全审计方面,主要是安全信息事件管理、合规审计、发现高级持续威胁APT,APT现在也是比较热门的话题。做APT的发现得通过日志、流量,全方位360无死角地进行监控。

日志用在业务和用户数据分析上。过去的做法是日志没有集中管理,散落在各台服务器上,事后出了问题就登录到各台服务器上用脚本命令,用VI去查看日志,有一些水平高的运维工程师用AWK写一些脚本分析程序去分析日志,这样的做法也有问题,因为登录到各台服务器,这些服务器都是生产服务器,一不小心的误操作可能就会导致事故。日志被删除,一个是磁盘满了,日志就被覆盖了,另外运维工程师把日志当做垃圾,看到磁盘快没了首先做的事情就是删除日志,删除日志之后如果事后发现有些措施或者故障需要分析需要追溯又找不到日志了。黑客入侵之后,聪明的黑客第一件事就是删除日志,因为日志记录了他入侵的痕迹,他删除日志就可以把他入侵的痕迹磨除掉。

系统出现故障的时候日志会包含信息,我们希望实时地发现这些信息,当日志出现错误信息的时候能够马上报警,而不是仅仅用在事后的追查上。后来有些公司开始重视日志,他们用数据库存储日志,现在是一个比较普遍的做法,但是用数据库存储日志有什么问题呢?

数据库是用来存结构化数据的,日志是非结构化的数据,数据库有固定的Schema,规定好数据库的表格是当有新的日志表格过来的时候表格又要改。

我看到有一些做法,为了让表的格式最大限度的灵活化,数据库就定义了三列,第一列是产生日志的机器IT地址,第二是时间戳,第三是日志本身的信息,把整个日志的文本当做一个字段放到数据库里,没办法针对日志里的信息进行抽取进行分析。数据库没办法适用TB级的海量日志,现在产生的日志越来越多,每台服务器一天产生几GB甚至几十GB的数据,一个数据中心上千台服务器一天可能产生几TB的数据,数据库没办法处理来。

一讲大数据都离不开Hadoop,Hadoop出来之后大家开始用Hadoop处理日志,首先Hadoop是批处理的框架,不够及时。用Hadoop处理分析都是今天看昨天的数据,或者是看几个小时之前的,最快也只能看到几十分钟之前的,想看几秒钟之前的Hadoop是做不到的。所以Hadoop基本是用来做数据的离线挖掘,没办法做在线数据分析。后来又开始出现Storm、Spark,但这些都是使用框架,我们希望有个东西拿来就可以用。后来出现NoSQL,但没办法全文检索,我们希望对日志进行实时的搜索分析,需要有一个搜索分析引擎,要有几个特点,一是快,日志从产生到分析出结果只有几秒的延时,二是大,每天处理TB级的日志量。三是灵活,Googlefor IT,可搜索、分析任何日志。FastBig Data,除了大之外还要快。

日志管理系统的进化,日志1.0数据库,日志2.0是用Hadoop或NoSQL处理,现在到了日志3.0,实时搜索引擎,FastBig Data。可编程的日志实时搜索分析平台,跟谷歌、百度的搜索引擎非常相似,有搜索框,但这个搜索框又比谷歌、百度更复杂,它定义了很多搜索处理语言。比如有管道符,还有各种命令,可以在搜索框里进行非常复杂的分析。它可以接入各种来源的数据,包括日志文件、数据库、恒生电子交易系统。有企业部署版和SaaS版,SaaS版处理每天500MB日志是免费的。

可以搜索、告警、统计,配置解析规则,识别任何日志,安全攻击自动识别,开放API,对接第三方系统。高性能、可扩展分布式。我们看一下案例,中国平安,使用日志易之前,逐台登陆服务器,无法集中查看日志,无法对海量数据进行挖掘、用户行为分析,日志查询方法比较原始,只能less、grep和awk等常见的Linux指令,无法多维度查询。无法进行日志的业务逻辑分析和告警。使用日志易之后,接入60多个应用的日志。

另外一个案例是山东移动,分析营业厅营业员做业务办理的web请求日志。聚合出每个营业员每项业务的详细操作步骤,对每个步骤的操作时长进行告警、统计分析,这里用到搜索处理语言,这是一条搜索处理语言,这是搜索这个字段,字段后包含了文本信息,这里是一个管道符,通过这个管道符把事务命令串起来,搜索完了进行事务的处理,一笔事务有起始的,对事物的关联通过ID进行,关联之后一笔事务有开始有结束,开始查询作为开始提交作为结束,最长的时间跨度不会超过30分钟,超过30分钟就不去处理了,这样就把每一笔事务都关联起来。这就是分析出来的结果,每一笔缴费业务的结果统计分析出来。

还有一个案例是国家电网,做信息安全与事件管理。终端信息安全事件日志的调查、分析、取证,在各省分公司信息安全事件现场使用,快速排查日志里保留的证据,为事件取证提供支持。客户已经有中国平安、国家开发银行、中国移动、国家电网、小米开放平台、乐视网、有利网这些用户。

我今天的介绍就到这里,欢迎关注我们的公众号。

×

打开微信扫一扫,分享到朋友圈