数据流水线上需要运行各种任务,包括执行Hive SQL、MR程序、Python数据处理脚本、导出数据、邮件发送数据等。如何保证这些任务按照依赖关系执行是很大的一个挑战。我们用Python开发的任务调度系统能够自动解决依赖,并且能够按设置优先级来执行任务。同时还能解决了数据恢复及由于上游数据问题需要部分执行的问题。
浏览3027次
浏览1407次
浏览5366次
浏览4253次
浏览6952次
浏览1714次
2025-06-20 深圳
2025-04-19 南京
2025-04-22 上海
2025-05-23 上海
打开微信扫一扫,分享到朋友圈
Text