随着爱奇艺从视频新秀跃居视频行业之首,目前在移动端已拥有3.1亿月用户数(仅次于微信和手机QQ),巨大的数据增速迫使我们的大数据平台快速迭代。在平台开发层面,除了实现海量日志的实时采集、异构数据源的管理及同步、统一作业提交和工作流管理之外,还提供额外的开发部署及调试工具,并提供经过优化的算法与工具库,往往使得业务实现能有数倍的性能提升;成本优化方面,我们通过YARN建立几个大资源池,实现了离线和实时资源的共享,通过源码级别的调优最大化资源使用率,大大节省成本,并向Apache贡献了50+个patch;另外在运维方面,实现了一套QoS系统,精准采集了数百个更细致的指标,可以做到更精准的监控和问题定位,并在部分场景下实现自动化运维。本次演讲将分享我们在大数据平台的构建路线和实践经验,与大家探讨交流。
中国系统架构师大会的第一天下午,我们迎来了主题为“大数据平台架构及应用实践”的专场,今天下午的第四位演讲嘉宾是爱奇艺云平台技术总监刘俊晖,他演讲的题目是《爱奇艺大数据平台的构建之路》。
爱奇艺大数据平台的挑战
随着爱奇艺从视频新秀跃居视频行业之首,目前在移动端已拥有3.1亿月用户数(仅次于微信和手机QQ),巨大的数据增速迫使我们的大数据平台快速迭代。
在平台开发层面,除了实现海量日志的实时采集、异构数据源的管理及同步、统一作业提交和工作流管理之外,还提供额外的开发部署及调试工具,并提供经过优化的算法与工具库,往往使得业务实现能有数倍的性能提升。
成本优化方面,爱奇艺通过YARN建立几个大资源池,实现了离线和实时资源的共享,通过源码级别的调优最大化资源使用率,大大节省成本,并向Apache贡献了50+个patch;另外在运维方面,实现了一套QoS系统,精准采集了数百个更细致的指标,可以做到更精准的监控和问题定位,并在部分场景下实现自动化运维。
平台的构建之路
1.0专业化:专人做专事、规范化
2.0规模化:技术深入、突破规模瓶颈
每一层都要考虑高可用,如果简单分为云平台和业务两层的话,在云平台层面,从数据中心建设(双电、UPS、多DC),到数据库(MHA、NoSQL集群方案),到中间件(消息系统、RPC服务框架),再到访问层(DNS、LVS负载均衡)等,都尽力做到一定程度的高可用。
3.0生态化:平台、工具链、易用性
谈到可扩展方面,这里有两层含义,一个是容量规划上的可扩展,一个是动态可扩展。前者是一个基础,基本上架构的每一层都要考虑到业务发展迅猛甚至井喷的时候,是否能够做到水平扩展,只要添加机器就可以了?而后者是一个更大的挑战,动态可扩展,也是就说具备了伸缩性,前提就是有一个资源池 (比如爱奇艺有基于Mesos和YARN的资源池),可以调度不同计算类型的任务,支持弹性伸缩,这个对于成本节省和抗突发流量是非常有帮助的。
爱奇艺大数据平台架构
其实当我们谈架构的时候,往往已经是在面对一个比较复杂的分布式系统,分布式系统有着CAP和BASE等经典理论,引申出高可用、可扩展、一致性、性能等特点,而衡量一个分布式系统的架构是否成功,则取决于业务需求,对于支付系统来说,一致性是最高标准,而相对于视频播放服务,高可用和性能则更为重要。对于大部分架构来说,最终一致性已经足够,而高可用和可扩展往往是互联网架构的首要考虑因素。
刘老师认为随着云时代的到来,对于云平台架构的采用,无论是私有云还是公有云模式,都将成为所有公司一种必然的发展趋势。资源的集中和人才的集中,有利于云平台技术的发展和对新硬件技术的应用,也有利于业务聚焦在自己的核心逻辑开发上,应该积极拥抱云。
浏览7433次
浏览5253次
浏览4216次
浏览7657次
浏览9599次
浏览1401次
2025-01-08 昆明
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
打开微信扫一扫,分享到朋友圈