数据工程-工作流与依赖视图

by prentiss 2021-03-23

工作流与依赖视图

用户进入数据工程,系统默认以工作流与依赖视图的呈现方式进行展现步骤间的依赖关系。初次进入的界面如下:

图例

用户可在左上角看到标识流水线和手动依赖的两个箭头:

  • 流水线:通过实线,表示可根据流水线依赖关系,按顺序自动运行流水线连接的步骤
  • 手动依赖:通过虚线,表示可手动建立步骤间的逻辑依赖关系,且需单独在步骤中直接运行,不能在流水线中统一运行

流水线步骤

系统当前版本支持的流水线步骤包括:

类别步骤名称流水线类型是否需要试运行
数据采集数据库采集流水线是,流水线统一运行前,需试运行一次
爬虫采集流水线是,流水线统一运行前,需试运行一次
数据转换ETL程序流水线是,流水线统一运行前,需试运行一次
数据分析Hive程序流水线是,流水线统一运行前,需试运行一次
Spark程序流水线是,流水线统一运行前,需试运行一次
Saprk SQL程序流水线是,流水线统一运行前,需试运行一次
JupyterNotebook流水线是,流水线统一运行前,需试运行一次

手动依赖步骤

系统当前版本除了以上可以在流水线中统一自动运行的步骤,其他步骤都为建立手动依赖关系的步骤,包括:

类别步骤名称流水线类型
数据采集文件上传手动依赖步骤
URL文件导入手动依赖步骤
数据转换HDFS到Hive导入手动依赖步骤
数据质量数据质量(即将推出)手动依赖步骤
数据管理创建MySQL表手动依赖步骤
创建Hive表手动依赖步骤
数据服务API手动依赖步骤
数据应用Spring Boot应用手动依赖步骤
Tomcat应用手动依赖步骤
Python应用(即将推出)手动依赖步骤
BI报表Superset图表(即将推出)手动依赖步骤

设置流水线调度

用户可通过对调度周期、调度时间等的设定,对整条流水线配置调度属性,从而进行自助、定时按依赖关系顺序调度运行。带调度属性的流水线启动后,可通过挂起流水线并修改调度周期和调度时间等设置,实现流水线调度属性的修改。

点击流水线调度图标,可对调度周期进行设置。

名称内容描述
调度周期*填入Cron表达式不填表示只运行一次。用户可选择系统默认的调度周期(包括:每天运行一次、每小时运行一次、每分钟运行一次、每30秒运行一次、只运行一次);也可自定义调度周期,如指定在每周固定的一天或每天固定的时间段运行等
调度开始时间*必填。记录任务调度的起始时间。当设置的调度开始时间晚于当前时间,则从设置的调度时间开始进行任务调度;当设置的调度时间早与当前时间,则从配置的调度时间开始进行任务调度。
调度结束时间*必填。记录任务调度的终止时间。当到达设置的调度结束时间时,任务将不再被调度。
失败重试次数*不填则默认为3。如单个任务失败重试次数超过此次设置的重试次数,后续的任务将不再被调度。
重试间隔(秒)*不填则默认为60。设置每次重试的间隔时间

保存

点击保存

启动

点击启动,可启动流水线并对流水线内步骤根据依赖关系(流水线),根据设置的调度时间定时统一按顺序运行。

调度实例

可通过调度实例记录查看任务调度的记录,并可指定步骤进行重新执行。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.