在大数据、云计算、流式计算为基础的分布式环境下,数据本身的质量问题越发重要。Apache Griffin 项目是eBay发起并贡献给Apache社区的数据质量方案。它试图提供一套可扩展,可伸缩的框架来解决数据质量的几个典型问题:如数据的精确性问题、一致性问题、合法性问题、时效性问题、唯一性问题,以及完整性问题。本次主题主要讲解面临streaming和batch的企业数据环境, Apache Griffin是如何通过提供一整套的流程来定义,测量并汇报数据质量, 以试图解决数据质量问题。同时介绍架构设计, 核心组件的设计与考量等等。最后会通过自助服务来阐述Apache Griffin在eBay 1.2PB的数据环境下的应用场景及流程.
浏览1830次
浏览2277次
浏览5548次
浏览10987次
浏览4312次
浏览7068次
2025-10-16 北京
2025-09-12 杭州
2025-09-04 广州
2025-09-12 上海
打开微信扫一扫,分享到朋友圈
Text