数据工程-Hive程序
用户点击数据分析-Hive程序图标,添加Hive程序步骤至数据工程步骤列表。点击该步骤编辑,进入Hive程序步骤编辑界面。

作业主体
用户可在作业主体界面,编写Hive程序

高级设置
用户可通过高级功能对Hive作业进行更进一步的配置,目前的高级功能支持:设置系统变量,设置用户自定义变量,上传python文件来辅助计算,设置HQL变量,以及制定计算使用的数据库资源

信息项 | 内容 | 备注 |
---|---|---|
系统变量 | 默认无 | 系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。 |
用户自定义变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。 |
上传Python文件 | 默认无 | 用户根据需要,上传已编辑好的Python文件 python文件是用户编写的自定义函数,Hive调用python脚本实现数据清洗、统计过程。参考用例:https://dwgeek.com/hive-udf-using-python-use-python-script-into-hive-example.html/ |
HQL变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值 将复杂的HQL拆解成多个子HQL执行,将子HQL的执行结果赋值给HQL变量,然后变量给到其他HQL使用。例如子HQL定义如下:变量名HQLpv_numselect count(view_page) from page_view where page=’首页’uv_numselect count(distinct user) from page_view where page=’首页’主HQL:select {{pv_num}}, {{uv_num}} ) |
配置完成后点击保存
点击运行,运行Hive程序步骤,并查看运行日志
上下游数据
用户成功执行该步骤后,可通过上下游数据界面查看上下游数据信息。时间同步有时耗,需等待片刻进行查看。
运行记录
用户可通过界面,查看步骤的历史运行记录日志详情
留言
评论
${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}}说 · ${{item.date.slice(0, 10)}} 回复
暂时还没有一条评论.