企业数仓-视频

by prentiss 2021-03-24

BDOS Online提供元数据管理工具,通过对系统数据工程内的结果数据进行一次标签标注,即可实现对动态数据的标签维度的数据透视,创建数据资产的元数据并自动捕捉这些数据资产的相关性及动态数据的关联关系,通过对Ranger的集成实现动态数据资产的权限控制,从而进行全局的数据应用资产管理。助力企业将业务数据化沉淀的数据,通过大数据、机器学习等技术处理进行价值提炼,形成企业数据资产,从而提供决策支持,赋能前端业务。

本演示场景以一个典型的端到端大数据分析实例,通过对数据工程结构数据的标签标注,向用户展示标准、自动化的数仓建设过程。实例步骤包括:数据采集、数据处理和数据分析及数据导出这几个步骤:

第一步(步骤1-3),数据采集:在BDOS Online大数据平台,通过爬虫步骤爬取网易网页新闻,并将这些新闻数据存入HDFS(为方便用户体验,本系统将提供已爬取完成的一个样例数据供用户下载,用户可通过URL文件导入,导入到系统的HDFS);

第二步(步骤4-5),数据处理:在Hive程序步骤中对新闻数据进行清洗并统计;结果数据数据仓库标签标注;

第三步,数据导出:再将统计后的数据导入到MySQL数据仓库中;

第四步,BI报表:使用Superset进行数据探索,将MySQL数据仓库中的统计数据以可视化的方式展示出来,分析网易新闻的受欢迎程度。

数据仓库目录创建

用户通过界面导航【管理-数据资产标签管理】,根据企业业务需要进行自定义数仓目录层级。本示例以数仓分层:ODS、ADM、GDM和FDM为例,进行数据仓库目录创建。

注:本系统体验官机构已为用户创建示例数仓层级,如用户需自定义创建,可参考截图进行操作。

步骤1:克隆项目到个人/机构项目

本系统已为用户准备好完整实验Demo,用户通过点击克隆,即可把完整项目克隆为个人/机构项目,快速体验以端到端大数据分析为例的企业数仓建设示例。

步骤2:URL 文件导入

通过 URL 文件导入的方式,把已准备好的实验数据导入到系统的 HDFS 指定目录中,并可及时查看运行结果。

步骤3:HDFS 到 Hive 导入

通过本步骤把 HDFS 文件导入到目标 Hive 库,并及时查看运行结果。

步骤4:Hive 程序 – 数据清洗

通过本步骤对 Hive 库表数据进行清洗,并存入到新的 Hive 表。同时通过上下游数据,对该步骤结果数据进行标注,即可把数据注册到数据资产,通过企业数仓层级进行透视查看与管理。

步骤5:Hive 程序 – 数据统计

通过本步骤对数据进行统计分析,并把输出写入新的 Hive 表。同时通过上下游数据,对该步骤结果数据进行标注,即可把数据注册到数据资产,通过企业数仓层级进行透视查看与管理。

步骤6:创建个人数据源

通过本步骤,创建个人MySQL数据源。

可参照以下视频链接操作,视频中主机参数为 :

master.innodb-cluster.l4lb.thisdcos.directory

体验官机构添加数据源图示:

步骤7:ETL程序 – 数据转换/导出

通过本步骤,对结果数据进行转换,从 Hive 库转换到目标 MySQL 库。

步骤8:BI可视化展示 – Superset

通过本步骤,对经过ETL程序步骤转换存放至MySQL的结果表,进行可视化展示并保存为看板随时分享。

首先进行Superset个人数据源添加,具体操作参照以下链接。

按照视频进行BI可视化操作。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.