在大数据、云计算、流式计算为基础的分布式环境下,数据本身的质量问题越发重要。Apache Griffin 项目是eBay发起并贡献给Apache社区的数据质量方案。它试图提供一套可扩展,可伸缩的框架来解决数据质量的几个典型问题:如数据的精确性问题、一致性问题、合法性问题、时效性问题、唯一性问题,以及完整性问题。本次主题主要讲解面临streaming和batch的企业数据环境, Apache Griffin是如何通过提供一整套的流程来定义,测量并汇报数据质量, 以试图解决数据质量问题。同时介绍架构设计, 核心组件的设计与考量等等。最后会通过自助服务来阐述Apache Griffin在eBay 1.2PB的数据环境下的应用场景及流程.
浏览1661次
浏览1457次
浏览5268次
浏览10811次
浏览4222次
浏览6906次
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈