数据工程-Spark程序

by prentiss 2021-05-05

用户点击数据处理-Spark程序图标,添加Sprk程序步骤至数据工程步骤列表。点击该步骤编辑,进入Spark程序步骤编辑界面。

1

步骤配置

用户可在步骤主体界面,进行过程编写配置

2

Spark运行参数

信息项内容备注
executor-memory*1g(系统默认)执行器的内存,用户自定义
executor-cores*1(系统默认)执行器内核个数,用户自定义
total-executor-cores*1(系统默认)执行器的内核个数总和
driver-memory*2g(系统默认)驱动参数,用户可自定义
dirver-cores2(系统默认)驱动内核数,用户可自定义

Spark-Python程序配置

3

编写Python语言,使用Spark计算引擎进行数据清洗和整合,批处理的技术手段,性能上优于Hive。

信息项内容备注
主程序*点击【上传】程序包将已制作好的程序包上传,支持添加多个
第三方库依赖文件点击【上传】依赖文件将已制作好的第三方库依赖文件上传,支持添加多个依赖包可支持一个或多个.zip,.egg或 .py文件
程序参数用户根据程序内容,填写需要调用的程序参数

Spark-Java

4

编写Java语言,使用Spark计算引擎进行数据清洗和整合,批处理的技术手段,性能上优于Hive。

信息项内容备注
主程序*点击【上传】本地程序包将已制作好的程序包上传
主程序类*用户主程序类的值
程序参数用户自定义

*高级功能*

信息项内容备注
系统变量默认无系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。
用户自定义变量默认无用户根据需要,自行【添加】变量并设置参数值作为系统

配置完成后点击保存

点击运行,运行Hive程序步骤,并查看运行日志

上下游数据

用户成功执行该步骤后,可通过上下游数据界面查看上下游数据信息。时间同步有时耗,需等待片刻进行查看。

运行记录

用户可通过界面,查看步骤的历史运行记录日志详情。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.