数据流水线上需要运行各种任务,包括执行Hive SQL、MR程序、Python数据处理脚本、导出数据、邮件发送数据等。如何保证这些任务按照依赖关系执行是很大的一个挑战。我们用Python开发的任务调度系统能够自动解决依赖,并且能够按设置优先级来执行任务。同时还能解决了数据恢复及由于上游数据问题需要部分执行的问题。
浏览2861次
浏览1254次
浏览5062次
浏览4127次
浏览6705次
浏览1464次
2024-08-23 上海
2024-09-25 上海
2024-08-22 北京
2024-07-20 上海
打开微信扫一扫,分享到朋友圈