BDOS Online – 端到端大数据分析,全面展示数据生命周期(视频)

by prentiss 2021-03-24

数据开发的目的是使用各种工具来分析数据,从数据中产生可指导行动的商业洞见,是从数据到价值的转换过程。在很多场景下,数据分析人员需要对海量的数据进行快速的分析,性能上要像在传统的数据仓库中运行查询语句一样,在几秒钟内得到数据分析的结果。

本指南将以向导的形式,向大家展示一个典型的端到端大数据分析实例,包括数据采集、数据处理和数据分析及数据导出这几个步骤:

第一步,数据采集:在BDOS Online大数据平台,通过爬虫步骤爬取网易网页新闻,并将这些新闻数据存入HDFS(为方便用户体验,本系统将提供已爬取完成的一个样例数据供用户下载,用户可通过URL文件导入,导入到系统的HDFS;

第二步,数据处理:在Hive程序步骤中对新闻数据进行清洗并统计;

第三步,数据导出:再将统计后的数据导入到MySQL数据仓库中;

第四步,BI报表:使用Superset进行数据探索,将MySQL数据仓库中的统计数据以可视化的方式展示出来,分析网易新闻的受欢迎程度。

步骤1:克隆项目到个人/机构项目

本系统已为用户准备好完整实验Demo,用户通过点击克隆,即可把完整项目克隆为个人/机构项目,快速体验端到端大数据分析。

步骤2:URL 文件导入

通过 URL 文件导入的方式,把已准备好的实验数据导入到系统的 HDFS 指定目录中,并可及时查看运行结果。

步骤3:HDFS 到 Hive 导入

通过本步骤把 HDFS 文件导入到目标 Hive 库,并及时查看运行结果。

步骤4:Hive 程序 – 数据清洗

通过本步骤对 Hive 库表数据进行清洗,并存入到新的 Hive 表。

步骤5:Hive 程序 – 数据统计

通过本步骤对数据进行统计分析,并把输出写入新的 Hive 表。

步骤6:Hive 程序 – 数据转换/导出

通过本步骤,对结果数据进行转换,从 Hive 库转换到目标 MySQL 库。

步骤7:BI可视化展示 – Superset

通过本步骤,对经过ETL程序步骤转换存放至MySQL的结果表,进行可视化展示并保存为看板随时分享。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.