分布式任务调度
宙斯是一个完整的Hadoop的作业平台
从Hadoop任务的调试运行到生产任务的周期调度 宙斯支持任务的整个生命周期
从功能上来说,支持:
Hadoop MapReduce任务的调试运行
Hive任务的调试运行
Shell任务的运行
Hive元数据的可视化查询与数据预览
Hadoop任务的自动调度
完整的文档管理
宙斯开源,不仅仅是开源技术,更是开源产品。
课程介绍:详解Hadoop作业平台宙斯Zeus
课程大纲:
zeus简介
zeus架构
zeus与其他调度系统对比
支持yarn的zeus2
zeus使用注意事项
zeus2的后续计划
【适合群体】 :
1. 系统架构师、系统分析师、高级程序员、资深开发人员。
2. 牵涉到大数据处理的数据中心运行、规划、设计负责人。
3. 政府机关,金融保险、移动和互联网等大数据来源单位的负责人。
4. 高校、科研院所涉及到大数据与分布式数据处理的项目负责人。
5. 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员。
以下是视频过程QA:
这个跟tws调度是不是有些像?
答:对tws不是很了解,具体不太请求,跟oozie比较像
Zeus也是apache的开源组件吗?代码托管到哪了?
答:不是apache的,是阿里的,github地址为https://github.com/alibaba/zeus
Master挂掉之后worker还会继续执行作业吗?
答:Worker会杀死自身的任务,然后连接到新的Master
zookeeper在里面起什么作用?
答:主要是做任务失败通知,不是必须的
taobao不用这个了吗?github上都一年没更新了?Zeus在阿里主要做那块任务?
答:淘宝据我了解一直在使用,代码现在确实没有更新,所有有新版zeus2:https://github.com/michael8335/zeus2
好像淘宝有个开源项目tbschedule任务调度系统,和这个有什么区别?
答:tbschedule也是一个批处理调度引擎,但zeus更专注与hadoop
Worker竞争分布式锁,会不会死锁呢?
答:不会,原子操作
可以举一个Zeus实际的应用实例吗?
答:很多公司都用来做hadoop集群调度,最常用的就是MR和Hive
如果使用用zeus还是zues2好?
答:这个还是根据实际情况来,如果是hadoop1,最好直接用zeus,如果是hadoop2,个人建议使用zeus2
当前正在执行的所有worker的任务清单,存储在哪里?如果当前master宕机,新的master怎么能取到、并重新下发任务?
答:任务每个关键点都会记录在数据库中,新Master直接从数据库中就可以获得
新的Master怎么知道之前所有正在执行的任务,然后下发?
答:新Master可以从数据库的任务历史表中获取正在执行的任务
zeus对算法的管理与调度,支持样本数据的模拟结果吗?因为算法场景和效率区别还是比较大得
答:zeus只是一个工作流引擎,具体的算法是自己的job实现
zeus在淘宝应用规模有多大?请老师再介绍一下宙斯诞生发展的背景过程.
答:这个应用规模不便说,背景主要是为了给hadoop集群提供友好的调度管理
zeus和azkaban和oozie做一下比较?
答:都是hadoop集群的工作流引擎
使用宙斯的任务调度跑HiveQL有时会遇到找不到hive表或者找不到jar包的情况,但是手动执行重跑又可以执行了,请问这个是怎么回事?
答:这个是环境变量没有配置正确的原因
zeus支持yarn吗?想问一下宙斯1现在存在哪些bug?
答:zeus1不支持,zeus2支持,具体的BUG可以到https://github.com/michael8335/zeus2 wiki中查看
宙斯的master和yearn的ResourceManager有啥联系吗?
答:没有
公司在用宙斯任务调度时不时的有任务进入任务队列不执行的情况,然后就只能重启宙斯,这也是宙斯1的bug吧?
答:这个得具体分析,可以私下联系我
请问现在可以对接到Hadoop2.4版本吗?什么时候支持hive0.13
答:没有,暂时没有必要