数据工程

by prentiss 2021-03-23

数据工程

BDOS Online 产品基于DataOps的方法论进行设计,以数据工程的方式,帮助用户快速搭建数据流水线框架,包括:数据采集、数据处理、数据分析、机器学习、应用服务、API服务和BI报表。用户进入BDOS Online,即可开始构建个人/机构的数据工程项目,快速搭建数据流水线,让数据高效流转。

数据采集

数据库采集

BDOS Online当前版本支持数据库(例如:MySQL类型)的数据源连接。用户可连接MySQL数据源进行数据采集。

文件上传

BDOS Online当前版本支持Excel、CSV等格式的本地文件上传至系统,进行数据采集。采集的数据会放至系统默认指定的HDFS文件目录。

机构项目文件上传HDFS默认文件目录: /org/xxx(xxx为机构名)

个人项目文件上传HDFS默认文件目录:/user/xxx (xxx为当前登录用户名)

查看系统HDFS文件目录权限详情

URL文件导入

BDOS Online提供URL文件导入的方式,方便用户在线导入数据至系统指定HDFS目录。

爬虫采集

BDOS Online提供爬虫采集功能,借助Scrapy框架,支持用户快速编写爬虫程序,通过系统高效、稳定地运行这些爬虫程序,将其结果存放到HDFS。

HDFS到Hive/MySQL导入

BDOS Online当前版本,提供HDFS向Hive的导入汇聚,为数据处理和数据分析提供原始数据准备。用户可将通过多种采集方式采集至HDFS的数据,通过本步骤导入到目标Hive库,以便后续的数据处理和分析。

数据处理

Hive程序

BDOS Online提供编辑Hive主程序的入口,可在同一界面运行并查看结果。运行完成后,系统会记录该步骤的上下游数据,用户可通过对下游数据结果进行标注,注册该数据至系统的数据资产目录,进行统一、全局的数据资产管理。

Spark程序

BDOS Online提供上传Python、Java主程序包的入口,用户可在界面自定义Spark配置参数,运行并查看结果。运行完成后,系统会记录该步骤的上下游数据,用户可通过对下游数据结果进行标注,注册该数据至系统的数据资产目录,进行统一、全局的数据资产管理。

用户可点击下载实验用Python主程序包进行体验;

也可下载实验用Java主程序包进行体验,填写配合实验用的Java主程序包参数:主程序类:SimpleApp、程序参数:/tmp/gen-stores.sh /output 进行体验。

Spark SQL程序

BDOS Online提供编辑Spark SQL主程序的入口,可在同一界面运行并查看结果。运行完成后,系统会记录该步骤的上下游数据,用户可通过对下游数据结果进行标注,注册该数据至系统的数据资产目录,进行统一、全局的数据资产管理。

数据导出

ETL程序

BDOS Online提供ETL程序进行数据转换,将多个关系型数据表进行join和过滤,使得结果表更容易被后续程序处理。系统会记录该步骤的上下游数据,用户可通过对下游数据结果进行标注,注册该数据至系统的数据资产目录,进行统一、全局的数据资产管理。

BDOS Online当前版本支持用户把经过处理、分析后的Hive库表数据转换导出到MySQL进行存储。

机器学习

JypyterNoterbook

Jupyter Notebook是一个基于Web的交互式数据分析工具,方便具有一定编程能力的数据分析人员可以使用这类工具来运行数据分析的代码,比如在Jupyter Notebook上运行Spark或者Python程序。

数据服务

API

BDOS Online提供根据用户自定义配置,⾃动生成数据对外接口服务功能,实现数据接口自动发布。系统支持用户基于数据源MySQL、Redis、ElasticSearch的API创建,解决系统由于对接的中间存储不同,涉及的访问API各异导致的数据接入效率低下的问题,同时数据服务为数据开发屏蔽了形式各异的中间存储,应用开发使用统一的API接口访问数据,避免了烟囱式开发模式,实现数据开发和数据应用解耦,从而提高数据应用的开发效率。数据接口API发布后,用户可在上下游数据版快,

数据应用

BDOS Online提供标准化的分发流程,用户可以按照标准化的发布方式自助进行数据应用发布、运维、更新的全生命周期管理,高效稳定的数据应用发布及运行流程,大大缩短应用发布时间,从而进行快速的大规模数据应用发布,应用发布模块功能包括:

  • 所有应用可以一键安装,用户可通过Docker image方式自主安装和发布应用;
  • 应用配置全部通过Web UI方式实现;
  • 应用实例由集群动态分配资源,无须绑定服务器;
  • 应用负载均衡由系统自动实现,无须配置;
  • 应用的运维由系统自动实现,包括自动弹性扩容、迁移和重启。

BDOS Online 当前版本支持Spring Boot和Tomcat两种类型应用发布,版本迭代会支持更多类型数据应用以适配不同的数据业务场景应用。用户可对应用进行标签标注,即可注册至应用资产,进行统一的资产管理。

Spring Boot应用

用户可点击下载实验用Spring Boot Jar包进行体验

Tomcat应用

用户可点击下载实验用Tomcat War包进行体验

Python应用(版本迭代中)

BI报表

Superset图表(当前版本暂未在数据工程界面提供)

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.