针对当前大数据领域分析场景需求各异而导致的存储冗余问题,Apache CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持OLAP多维分析、快速扫描、明细数据查询等多种应用场景,并通过多级索引、全局字典编码、列存、Cloumn Group等技术提升IO扫描和计算性能,实现多维度任意组合的高性能的数据分析,百亿数据秒级响应。Apache CarbonData开源代码地址:httpss://github.com/apache/incubator-carbondata
目前可供选择的数据存储工具有哪些?
陈亮列出了目前市场上比较流行的几大数据存储工具,比如NoSQL数据库,通过Key-Valve的存储方式,NoSQL可以实时查询,延迟也比较低,大概在5毫秒以下,但NoSQL最大的痛点是无法解决多维度查询,可以以空间换时间,事先统计好数据维度,但维度越来越大的情况下,NoSQL是合适的工具吗?可以解决多维度计算的数据库,可能又无法与大数据生态很好集成,搜索引擎又不支持SQL查询,以及多维度聚合查询。
目前,很多企业都会选择Hadoop上的SQL分析,但陈亮表示,这种方式的主要发力点可能是在计算层,性能往往达不到要求。不难看出,大多技术是与场景一对一的,数据重复性高,很难找到适用于多场景的技术出现,这就是华为发现的业务难点与用户需求点,这就是Apache CarbonData的诞生前兆。
从业界的角度看,可能无法找到合适的技术,换个角度看问题,是很有利于思考的。从数据本身来看,互联网数据属于一个稀疏矩阵的形态,一项大数据即时分析技术的设计会首先想到什么呢?陈亮提出的思路是,具备分布式能力,快速查询秒级响应,高效数据存储方式以及与大数据生态无缝集成。一项与目前的生态环境格格不入的技术,即便性价比再高,客户可能也并不愿意买单。陈亮提到,一项数据存储层技术,要发挥价值,需要与计算层、查询层有效集成在一起,形成E2E生态,才能发挥最大价值。
CarbonData可能只是一项大数据存储层技术,但它所具备的独特的价值特性,却足以引发广大技术人员的深入思考。采用的多种索引(MDK,MinMax,倒排)快速找到目标数据,按需获取数据的方式,以及字典编码概念的引入,有效减少了计算开销,支持行列混合存储,与大数据生态无缝集成,具有HDFS分布式、可靠性等优点,这对大数据存储技术厂商来说,是非常有价值的探索。
Apache CarbonData既然已经走向社区(Apache CarbonData源代码地址: https://github.com/apache/incubator-carbondata),未来一定会在社区的贡献中得到更好的发展,陈亮也对未来的CarbonData发展提出了希冀,比如与Spark 2.x集成,与各种主流BI tools集成,支持流式数据导入,实时查询以及预聚合,与主流大数据生态系统的集成。
如果你选择走得更快,那你可能要孤独前行。如果你想要走得更远,一定要选择同行,这便是开源最好的诠释。随着微软、谷歌等各大厂商越来越开放,开源社区就像众人拾柴火焰高一样,促进技术的不断发展。未来,希望越来越多的企业与技术可以坚持开源的态度。
浏览7433次
浏览5253次
浏览4216次
浏览7657次
浏览9599次
浏览1401次
2025-01-08 昆明
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
打开微信扫一扫,分享到朋友圈