Oozie分布式任务的工作流——脚本篇

89652511

2016-11-19

关注关注

[blockquote]

继前一篇大体上翻译了Email的Action配置，本篇继续看一下Shell的相关配置。

[/blockquote]

Shell Action

Shell Action可以执行Shell脚本命令，工作流会等到shell完全执行完毕后退出，再执行下一个节点。为了运行shell，必须配置job-tracker以及name-node，并且设置exec来执行shell.

Shell既可以使用job-xml引用一个配置文件，也可以在shell action内直接配置。shell action中的配置会覆盖job-xml中的配置。

EL表达式同样适用于shell action。

注意，mapred.job.tracker以及fs.default.name属性不能再shell action中直接配置。

在mapreduce任务中可以处理一些资源，这样shell就可以使用了。更多的内容参考[WorkflowFunctionalSpec#FilesAchives]``[Adding Files and Archives for the Job]章节。

shell的输出可以被后面的工作流任务使用，这些信息可以用来配置一些关键的信息。如果shell的输出想要对整个工作流任务可用，那么必须满足

输出的格式是标准的java属性文件
输出的内容不能超过2KB

语法

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.3">
    ...
    <action name="[NODE-NAME]">
        <shell xmlns="uri:oozie:shell-action:0.1">
            <job-tracker>[JOB-TRACKER]</job-tracker>
            <name-node>[NAME-NODE]</name-node>
            <prepare>
               <delete path="[PATH]"/>
               ...
               <mkdir path="[PATH]"/>
               ...
            </prepare>
            <job-xml>[SHELL SETTINGS FILE]</job-xml>
            <configuration>
                <property>
                    <name>[PROPERTY-NAME]</name>
                    <value>[PROPERTY-VALUE]</value>
                </property>
                ...
            </configuration>
            <exec>[SHELL-COMMAND]</exec>
            <argument>[ARG-VALUE]</argument>
                ...
            <argument>[ARG-VALUE]</argument>
            <env-var>[VAR1=VALUE1]</env-var>
               ...
            <env-var>[VARN=VALUEN]</env-var>
            <file>[FILE-PATH]</file>
            ...
            <archive>[FILE-PATH]</archive>
            ...
            <capture-output/>
        </shell>
        <ok to="[NODE-NAME]"/>
        <error to="[NODE-NAME]"/>
    </action>
    ...
</workflow-app>

prepare元素，经常用于创建一系列的目录或者删除目录。注意目录必须是hdfs://host:port这种格式的。
job-xml元素，指定shell任务的配置。在0.2的schema中，job-xml元素允许指定多个job-xml文件。
configuration元素，包含了shell任务的配置信息。
exec元素，这个是必填项。包含了shell脚本的路径，并执行它。参数可以设置0个或者多个argument元素。
argument元素，用于传递给shell脚本。
env-var元素，可以设置环境变量，传递给shell脚本。env-var需要包含键值对这种的信息。比如包含$PATH这种信息，那么需要设置PATH=$PATH:mypath这种格式。不要使用${}这种语法，因为它会被认为是Oozie的EL表达式。
shell action也可以创建hadoop的配置。shell应用可以直接读取配置文件。
capture-output元素,用来指定输出端。shell命令输出必须是java属性这种格式，并且小于2kb.通过工作流的定义，输出也可以通过string action实现。

上面这些元素都支持EL表达式。

例子

如何运行shell或者perl脚本。

<workflow-app xmlns=&#39;uri:oozie:workflow:0.3&#39; name=&#39;shell-wf&#39;>
    <start to=&#39;shell1&#39; />
    <action name=&#39;shell1&#39;>
        <shell xmlns="uri:oozie:shell-action:0.1">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <configuration>
                <property>
                  <name>mapred.job.queue.name</name>
                  <value>${queueName}</value>
                </property>
            </configuration>
            <exec>${EXEC}</exec>
            <argument>A</argument>
            <argument>B</argument>
            <file>${EXEC}#${EXEC}</file> <!--Copy the executable to compute node&#39;s current working directory -->
        </shell>
        <ok to="end" />
        <error to="fail" />
    </action>
    <kill name="fail">
        <message>Script failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <end name=&#39;end&#39; />
</workflow-app>

用于提交oozie工作的参数有

oozie.wf.application.path=hdfs://localhost:8020/user/kamrul/workflows/script#Execute is expected to be in the Workflow directory.
#Shell Script to run
EXEC=script.sh
#CPP executable. Executable should be binary compatible to the compute node OS.
#EXEC=hello
#Perl script
#EXEC=script.pl
jobTracker=localhost:8021
nameNode=hdfs://localhost:8020
queueName=default

如何运行java程序并添加jar包

<workflow-app xmlns=&#39;uri:oozie:workflow:0.3&#39; name=&#39;shell-wf&#39;>
    <start to=&#39;shell1&#39; />
    <action name=&#39;shell1&#39;>
        <shell xmlns="uri:oozie:shell-action:0.1">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <configuration>
                <property>
                  <name>mapred.job.queue.name</name>
                  <value>${queueName}</value>
                </property>
            </configuration>
            <exec>java</exec>
            <argument>-classpath</argument>
            <argument>./${EXEC}:$CLASSPATH</argument>
            <argument>Hello</argument>
            <file>${EXEC}#${EXEC}</file> <!--Copy the jar to compute node current working directory -->
        </shell>
        <ok to="end" />
        <error to="fail" />
    </action>
    <kill name="fail">
        <message>Script failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <end name=&#39;end&#39; />
</workflow-app>

提交的相关参数

oozie.wf.application.path=hdfs://localhost:8020/user/kamrul/workflows/script#Hello.jar file is expected to be in the Workflow directory.
EXEC=Hello.jar
jobTracker=localhost:8021
nameNode=hdfs://localhost:8020
queueName=default

shell Action日志

shell action标准输出和错误输出都可以直接输出到oozie的mapreduce任务控制台上。

通过oozie web控制台，也可以看到它的执行日志。

shell action的限制

尽管shell可以执行任何的脚本命令，但是还是有一些限制的。

不支持交互式的命令
命令不能使用不同的用户执行
用户必须严格控制上传的jar包。oozie会把他上传到分布式环境中进行缓存
尽管oozie在hadoop的计算节点执行shell命令，但是可能有一些默认安装的工能是不支持的。因此需要了解，oozie可以支持安装在计算节点的命令。

实战分析

shell可以输出java properties格式的数据，并且可以配合EL表达式，在其他的action中使用。因此它可以作为工作流的初始化任务，以及配置服务。

比如，在脚本中：

#!/bin/sh
a=1
b=2
echo "a=$a"
echo "b=$b"

在其他的节点中就可以通过EL表达式来使用了。

工作流 oozie shell shell脚本

89652511

0 关注 0 粉丝 0 动态

关注关注

【赵强老师】大数据工作流引擎Oozie

工作流就是工作流程的计算模型，即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。Java的三大主流工作流引擎分别是：Shark，osworkflow，JBPM. Oozie Server负责接收客户端请求、调度

WeiHHH 2020-06-28

ABAP工作流(workflow)的调试方式

There are several posts in SCN talking about workflow debugging. Most of them are manually generating an endless loop and then c

82550698 2020-11-09

ABAP工作流(workflow)的调试方式

There are several posts in SCN talking about workflow debugging. Most of them are manually generating an endless loop and then c

mnm0 2020-11-08

java Activiti工作流引擎 websocket即时聊天发图片文字好友群组 SSM源码

工作流模块----------------------------------------------------------------------------------------------------------

柳木木的IT 2020-11-04

微服务分布式 flowable 工作流 springcloud vue.js

按钮权限: 给角色分配按钮权限。

Cheetahcubs 2020-10-28

springcloud 微服务分布式 flowable 工作流 vue.js

按钮权限: 给角色分配按钮权限。

dananhai 2020-10-25

springcloud 微服务分布式 flowable 工作流

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

YLIMHHMILY 2020-10-20

ML Ops：数据质量是关键

ML Ops 是 AI 领域中一个相对较新的概念，可解释为「机器学习操作」。如何更好地管理数据科学家和操作人员，以便有效地开发、部署和监视模型?其中数据质量至关重要。本文将介绍 ML Ops，并强调数据质量在 ML Ops 工作流中的关键作用。ML Op

bingdata 2020-10-15

微服务分布式架构 springcloud flowable 工作流

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

koko0c 2020-09-26

springcloud 项目源码微服务分布式 flowable工作流 vue.js html 跨域前后分离

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

whutjiajiao 2020-09-20

springcloud vue 分布式 flowable工作流前后分离有代码生成器

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

Cheetahcubs 2020-09-13

springcloud 微服务分布式架构 flowable工作流引擎

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

Cheetahcubs 2020-09-07

springcloud 项目源码微服务分布式 flowable工作流 vue.js html 跨域前后分离

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

MrIronHand 2020-09-01

精美前端UI（VUE）界面，ASP.NET通用工作流开发分享

工作流在IT领域算是一个老话题了，最早的工作流思想在上世纪60年代就有人提过，70年代有人开始了初步尝试，但是由于技术的限制，直到80年代才有第一批比较成功的工作流，随后工作流便逐步走向了爆发期，90年代便出现了很多类型的工作流，不过其主旨是不变的，那就是

anaction 2020-08-17

springboot windows10风格工作流整合项目框架源码 shiro 安全框架

此项目为Springboot工作流版本 windows 风格,浏览器访问操作使用，非桌面应用程序。

luckyxl0 2020-08-16

springcloud vue.js 微服务分布式 flowable 工作流

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

summerZBH 2020-08-11

windows10风格 springboot mybatis 项目框架源码 shiro flowable工作流

此项目为Springboot工作流版本 windows 风格,浏览器访问操作使用，非桌面应用程序。

Dullonjiang 2020-08-09

微服务 springcloud vue 分布式 flowable工作流前后分离

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

Cheetahcubs 2020-08-07

springcloud vue.js 微服务分布式 flowable 工作流

按钮权限: 给角色分配按钮权限。

exzhulw 2020-08-05

.net core快速开发平台，learun自主工作流引擎设计规范

一个完整的工作流管理系统通常由工作流引擎、工作流设计器、流程操作、工作流客户界面、流程监控、表单设计器、与表单的集成以及与应用程序的集成等几个部分组成。工作流设计器为用户以及开发商提供了快速绘制、修改流程的方式，工作流设计器的好坏决定到工作流管理系统的易用

chenyanyan 2020-08-06

安科网

Oozie分布式任务的工作流——脚本篇

89652511

Shell Action

语法

例子

shell Action日志

shell action的限制

实战分析

89652511

相关推荐

【赵强老师】大数据工作流引擎Oozie

ABAP工作流(workflow)的调试方式

ABAP工作流(workflow)的调试方式

java Activiti工作流引擎 websocket即时聊天发图片文字好友群组 SSM源码

微服务分布式 flowable 工作流 springcloud vue.js

springcloud 微服务分布式 flowable 工作流 vue.js

springcloud 微服务分布式 flowable 工作流

ML Ops：数据质量是关键

微服务分布式架构 springcloud flowable 工作流

springcloud 项目源码微服务分布式 flowable工作流 vue.js html 跨域前后分离

springcloud vue 分布式 flowable工作流前后分离有代码生成器

springcloud 微服务分布式架构 flowable工作流引擎

springcloud 项目源码微服务分布式 flowable工作流 vue.js html 跨域前后分离

精美前端UI（VUE）界面，ASP.NET通用工作流开发分享

springboot windows10风格工作流整合项目框架源码 shiro 安全框架

springcloud vue.js 微服务分布式 flowable 工作流

windows10风格 springboot mybatis 项目框架源码 shiro flowable工作流

微服务 springcloud vue 分布式 flowable工作流前后分离

springcloud vue.js 微服务分布式 flowable 工作流

.net core快速开发平台，learun自主工作流引擎设计规范

89652511