数据工程-Hive程序

by prentiss 2021-05-05

用户点击数据分析-Hive程序图标,添加Hive程序步骤至数据工程步骤列表。点击该步骤编辑,进入Hive程序步骤编辑界面。

作业主体

用户可在作业主体界面,编写Hive程序

高级设置

用户可通过高级功能对Hive作业进行更进一步的配置,目前的高级功能支持:设置系统变量,设置用户自定义变量,上传python文件来辅助计算,设置HQL变量,以及制定计算使用的数据库资源

信息项内容备注
系统变量默认无系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。
用户自定义变量默认无用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。
上传Python文件默认无用户根据需要,上传已编辑好的Python文件 python文件是用户编写的自定义函数,Hive调用python脚本实现数据清洗、统计过程。参考用例:https://dwgeek.com/hive-udf-using-python-use-python-script-into-hive-example.html/
HQL变量默认无用户根据需要,自行【添加】变量并设置参数值 将复杂的HQL拆解成多个子HQL执行,将子HQL的执行结果赋值给HQL变量,然后变量给到其他HQL使用。例如子HQL定义如下:变量名HQLpv_numselect count(view_page) from page_view where page=’首页’uv_numselect count(distinct user) from page_view where page=’首页’主HQL:select {{pv_num}}, {{uv_num}} )

配置完成后点击保存

点击运行,运行Hive程序步骤,并查看运行日志

上下游数据

用户成功执行该步骤后,可通过上下游数据界面查看上下游数据信息。时间同步有时耗,需等待片刻进行查看。

运行记录

用户可通过界面,查看步骤的历史运行记录日志详情

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.