我们开始今天的一个演讲,我前面会讲一下我们整个评测的背景。第二部分我会讲一下整个我们的实践的过程,最后我们讲一下下一步的计划。
谢谢主持人,我是来自主办方单位中国信息通信研究院,刚才主持人没经过我允许就打了一个软广,待会收一下广告费。我今天来客串下来,我今天来讲一下大数据产品能力评测以及我们所做的一些事情。
我们开始今天的一个演讲,我前面会讲一下我们整个评测的背景。第二部分我会讲一下整个我们的实践的过程,最后我们讲一下下一步的计划。
谈到大数据的话,我们可以看到整个技术是围绕着开源展开的,逐渐的它形成了这样的三架马车,MPP数据库 Hadoop生态、Nosql数据库。还有一些跟搜索引擎日志处理的一些技术。大家可以看到整个大数据的领域技术是非常的丰富多彩,非常的有趣。当然我可以小小的黑一下云计算的技术,可能就是Open Stack,(Mas)或者是Docker,但是大数据是非常的蓬勃,发展的非常有趣、有意思。每一个新的需求出来的时候,会有新的组件,但是围绕着Hadoop生态有很多Hadoop系列,包括在实施处理方面的进展,包括在解决方案等等的,这一些技术是不是大家觉得很振奋人心,同时又感到非常的眼花缭乱。 我们总结一下整个大数据技术架构的特点,总体来说是以开源技术为主导的这样一个发展的模式。包括Hadoop贡献的阿帕奇包括Nosql都是在阿帕奇在发展,相当于对Sql和MAsql一个补充。渐渐我们形成了一个形态就是多种技术和架构并重的事实,就是传统的数据仓库、MPP架构Hadoop计算引擎,还有一些搜索和这种日志处理的技术就不再一一列举,总体上一句话就叫one Size Doesn T Fit All,就是一个大小是合适不了所有人的写码,所以产生了多种多样的技术架构,来在不同的场景去发挥它最大的效益。
这样的话就带来一个问题,我们在跟很多的技术厂商在沟通的时候,会发现这样的问题就很多研发大数据技术产品和技术的这一些公司,它都面临一个很大的问就是我跟进这一些技术和选择也一些技术来产品化是非常难的就对于这一些企业来说投人也是一笔非常大资源包括Spark包括组件,新的版本跟进我到底是跟还是不跟,到底选择哪一种,同一类解决方案有好几种,有很多这样的技术我到底选择哪一个,他们可能在不同的点上会有很好的一个发挥。这就要很大的一个资源去研发、或者去研究、选择。
第二部分因为都是开源的产品意味着什么?你怎么体现大家的差异,我都基于一个开源的东西来做一些产品,那大家的差异性到底在哪里。第三个就是竞争无序没有竞争的门槛最后导致就是劣币驱除良币,那到底谁好谁坏,我三五个人一个公司我也可以去卖Hadoop这样的产品,我上百人、上千人提供这样的产品到底谁好谁坏,客户它本质的原因就是底层的平台,离用户太远了,我们接触过很多多种多类的用户他们只关心得救是我这儿有一堆数据你怎么这把一堆数据给我分析好,我不关心你用什么底层技术,所以不关心造就了这技术产品本身拿很多的产品过去的话,他有时候分辨不出来,或者干脆不关心这个谁好谁坏。所以大数据的技术厂商是面临这一些挑战的,在这样一个技术背景下。而用户在选择技术和产品方面,它更是一头雾水,你不要给我讲那么多HDS什么样的技术,你们好像都一样没有什么区别,你们拿的都是开源东西改一改。整个的技术体系又很复杂,人才的储备又不足,我去用的时候我去判断的时候去投人力研究这技术,本质上这一些眼花缭乱的技术不断的诞生不断的发展,那我怎么去搞定这一些。
第三点就是用户的使用和用户的门槛显然也是在增加了。这是我们总结整个大数据技术带来的挑战。 大家可以看这一张图比较有意思这边是供应商这边是用户,中间一座桥把他俩连在一起,我们做标准化和评测的工作,主要的核心达成共识,在技术领域的一个共识,就是大家都觉得这技术应该是这个样子的,它应该是具备这样的能力和这样的一个基本的素养,这样的产品,这叫标准化 。评测就是基于这标准谁好谁坏谁的能力强、谁的能力弱给区分出来。就这么简单一个标准化的过程和评测,我们可以供应商和用户的难点通过一座桥梁联系起来,我们通过共性的标准评估体系和复杂的转化成容易理解的指标。第二点我们就是解决供应商和用户之间巨大的这样一个信息的鸿沟。如果不懂我们制定的这标准它有很多的指标项,你去拿这指标项你去定义这一些厂商的产品。如果它满足了它是合格的如果它不满足它的水平是不行的就这么简单。所以我们做标准化和评测整体上就是要借助这样一个桥梁,把用户和供应商联系在一起。
接下来我在讲一下我们在具体操作的时候,是怎么做的。我们从2015年事实上我们做标准的时候是在2014年的时候就启动了,那时候国内Hadoop法商就是十家以内,但是我们2014年一开始对标准的走向都是跟茫然不知道怎么去落实。但是我们通过一步一步的去多番的沟通、开会把这标准定下来,然后通过去购买机器把测试环境搭起来,一步一步把这测试的整个的流程给跑通了。第一批我们是2015年的6月和8月,可以看到华为、中国移动第一轮的测试,这几家依然是大数据领先的企业。第二批评测是在2016年3月到4月腾讯云、新华三还有新华名略、东方金信博易等参加了Hadoop的评测,还有一些互联网的企业巨头加入进来。第三批是粮价Hadoop基础能力和5家性能,第四批那有意思了,可以发现第四批的厂商规模基本上相当于前三次的总和。这说明了什么?说明这评测得到越来越多的用户和供应商的一个认可。9家厂商参加了Hadoop的评测5家MPP的基础能力的评测。总结来看我们一共有24家的企业到25个产品,通过了评测。其中包括了21款Hadoop的产品和5款MPP的数据库。
第五批我们正在进行之中,目前有10家企业参加的性能,10家企业参加了基础能力。这性能和基础能力稍微做一个区分,基础能力是从功能的完备性来考察这一块产品,就是基于功能性你的可用性怎么样,扩展性怎么样,你的这一些能力有没有具备,性能很简单,你作为一个大数据的平台,你的速度快慢你处理的时效性是非常的重要。所以性能相当于是在基础能力上一个升级版本。它的难度也是不言而喻的。待会我可以细细讲一下性能评测细节,目前我们覆盖了Hadoop和MPP和Nosql数据库。等于说三架马车我们都涉及到
这是Hadoop的2.0因为我们的技术标准从两年的迭代,从1.0到2.0。现在2.0已经到了44项,就是这标准不断的完善随着产品的更迭,在每一步每一步同步的在进化。
这是MPP数据库的能力测试一共是48项可以看到非常的全面,Hadoop性能2.0的分布因为这也是我们现在第三年的测试性能了,这性能的测试标准已经到了2.0的时代,我们总体上按任务来分类,就是一个Hadoop平台,你必须有Nosql处理能力,机器学习的三类处理能力。
现在一共15向,因为Nosql有10项测试能力,SQL测试数据已经到了30TB,Nosql整个的要写入读取的数据在20亿条数据的规模。机器学习就不再详述。这是通过企业的名单,大家可以看一下,我用不同的颜色标注出来了它通过的批次第一批是2015年,然后第二批的话和第三批都是2016年,第四批是2017年,我们第五批还在测试过程中,第五批这测试规模应当比第四批还要多一些,总体上来看一下,整个企业的分布可以看到华为中心、中国移动新华三这样的一些传统IT领域的特别厉害的服务厂商也有腾讯云直接配互联网的这一些企业名字。还有一些通用传统数据库这一些厂商,可以说种类覆盖的非常全面,我们一共22台的戴尔+ 10台的联想。当然测试过程中我们主要的核心手段是去审核,因为审核的手段是保证了整个测试的公正性,我们要检查软件的版本,检查数据、包括它的打下、行树、列举九数、数据内容、建表语句、副本数执行脚本。整个过程的非常详细是确保整个实验室可以还原的。
这我们整个的认证流程,也是公共公开参加的,比较有意思的一点我讲一下测试完以后,会有一个评审会,这评审会是要求厂商互评的。一是出了问题你的对手是非常仔细去检查你的。第二个好处就是通过这过程实现了行业四溅的交流,你有什么做的不错,我在这过程中我可以学到一些知识,达到了促进互相学习和互相交流的这样一个目的。总结来说的话,我们评测有几个特点,第一是权威性、因为我们是联合厂商,而且是多家厂商一起来做的,不是一家厂商的一言堂。第二全面性我们是公正的完备性能,在我们看来已经覆盖了通用大数据的点我们都考虑到了。第三严谨性,我们通过线上的测试、企业的互评保证的整个测试流程是严谨可控、公平公正的。最后还有一个高认可度,就是源源不断的由企业过来一直觉得你们做的标准还挺好的,你们做的这评测业界认可都挺高的,就不断的来去再去做其他的BI工具,做数据挖掘分析平台类的产品标准和评测体系。而且有很多的用户厂商在采购的时候数据联盟的大数据产品评测写进去了作为一个加分项,最近都有这样一个真实的案例。
领先性我们最早做出来统一的平台,我们现在是32台的集群,统一的测试工具、统一的数据、统一的周期和统一的测试规则下进行的。也就是说大家认识是统一的,而且业界领先的测试集群规模和配置,而且10项以上TB级别的数据规模。
我们认为的话衡量一个大数据的产品纬度就是功能完备性、性能。我们的性能测评是在基础能力上的一个更高纬度的考察,就是企业产品本身性能好坏还有团队在这七天的时间里面优的能力,解决问题的能力,因为什么样的问题都有可能在这七天评测发生。如果你没有足够的准备和足够的实力你是不敢来测,因为我们的时间是卡的非常死,这七天到了位,你赶紧走,下一家七天有来了。不存在一天的缓冲和冗余,如果哪一项有问题你的测试就作废,所以说整体来说而且性能考察是现场布局环境和集群规划,包括测试工具的是使用,时间进度的安排集群的故障处理和运行维护你都要去应对和处理。所以对整个参测团队的能力考察是非常非常有锻炼、有意义的。
我们再最后讲一下,我们整个大数据产品能力的评测的下一步计划。我们现在已经覆盖了基础平台层就是Hadoop、MPP、Nosql下一步涉及到内存和时序数据库。第二步跟数据治理和管理相关的一些工具包括评估体系,新的工作组在推进这一方面的事情,因为你有了平台就对下一步治理,为了分析和应用准备。最后我们觉得BI工具挖掘的平台会是下一步的重点,这是我们一个未来评测体系的规划,包括它的云化的产品。目前我们也在相应的工作组里面在做整个大数据平台技术选型指南还有数据管理的实践指南,就是通过这一些总结平台的选型建设中的实施策略,包括在数据资产管理中你需要现在已经做的好的经验,我们梳理总结好,这是我们下一步要做的事情。今天我就讲这么的,谢谢主持人。
浏览4110次
浏览4616次
浏览4041次
浏览11235次
浏览10495次
浏览5677次
2025-01-08 昆明
2025-04-19 南京
2024-12-27 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈