SparkSQL对查询的SQL,需要扫描全部的数据,然后获取满足查询条件的记录。如果在海量的数据中,命中的记录个数比较小,查询的时间主要在读取数据。 为了加速响应时间,我们对存储在hdfs上的海量数据的指定字段,建立索引,存储在Elasticsearch中;对于每一个SQL查询,提取出索引字段的查询条件,然后通过Elasticsearch得到满足条件的记录的路径,Spark直接读取记录,实现了海量数据的查询,秒级响应。
浏览1579次
浏览10358次
浏览8859次
浏览7796次
浏览7614次
浏览11619次
2025-06-20 深圳
2025-09-06 杭州
2025-10-23 上海
2025-06-12 上海
打开微信扫一扫,分享到朋友圈
Text