清华大学教授陈文光带来的分享主题为《Gemini:基于图计算的高性能大数据分析系统》。 他表示spark在数据模型层面的局限性主要是每次细粒度的数据更新,由于spark基于粗粒度RDD只读的数据对象模型,需要RDD变换,即有大量数据的复制,导致处理效率不高。实现层面的局限性主要是Spark基于Scala语言,运行在JVM上;内存表示冗余,占用内存大;内存分配与回收开销大。 而图计算,作为折衷的大数据分析平台,可以解决上述挑战。他重点介绍了分布式图计算系统Gemini。1.在高效性的基础上支持扩展性,避免没有必要的“分布式”副作用,优化图的划分与计算。2.设计理念的变化:以计算性能为中心的分布式系统,分布式系统有快速的通信网络,计算可以与通信重叠;效率优化,自适应push-pull转换,层次化的分块划分;扩展性优化,局部性感知的分块,基于分块的任务窃取。
浏览3075次
浏览4110次
浏览6219次
浏览7401次
浏览11235次
浏览4325次
2025-01-08 昆明
2025-04-19 南京
2024-12-27 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈