深度剖析数据中台技术架构

by Tina 2020-05-31

5月10日下午,在五一假期过后的第一个休息日,智领云联合创始人&CTO,前EA(艺电)大数据平台高级工程经理宋文欣博士再度直播开讲,为观众深度剖析了数据中台的技术架构。

数据中台的定义

在介绍数据中台技术架构之前,宋文欣博士表示,在谈到设计数据中台建设需要的体系架构时,首先需要明确企业对数据中台的需求以及数据中台的定义。宋文欣认为,数据中台在一个企业的不同层面会有不同的需求。

从业务部门来看,数据中台应该能够高效地进行数据的采集和存储,提供一系列的工具,让业务部门可以很方便地去开发数据流水线、进行流式或者实时的数据处理,并把数据看板、BI报表等数据应用能够方便地共享出来,还要能很方便地构建数据服务和模型服务,并通过API将服务开发出来。最关键的是,业务部门要能够随时自助地使用这些功能,不需要依赖企业的大数据部门,也不需要申请特别的资源,从而实现新功能的快速实现、验证、迭代、共享和复用。

从管理层来看,数据中台首先应该能够实现数据产品的快速迭代。其次,数据中台应该能够避免各业务部门重复造轮子。第三,数据中台要能够提供完善的ROI管理,即企业在数据中台建设过程中投入大量的时间和财力,投入产出比如何衡量。第四,在数据中台的架构下,应该实现每个产品线的数字化运营标准,构建一个全方位的,覆盖所有业务系统的数字化运营模式。最后,数据中台必须有一个完善的数据标准及数据应用资产管理,打通各个业务线的数据,最大程度发挥数据价值,支持企业的重要决策。

基于以上两方面的总结,宋文欣给出了数据中台的定义:数据中台是公司数字化运营的数据能力平台,为公司各个部门提供自助式的数据运营工具,同时在公司层面能够管理数据能力的共享、抽象和复用。

数据中台与大数据平台

给出了数据中台的定义以后,宋文欣又对大数据平台和数据中台做了比较。他表示,一个典型的大数据平台具有大数据基础的能力,在基础组件上面会运行一套数据流水线,进行数据采集、数据处理、数据分析,再加上一些机器学习的能力。而数据中台,其实是包含大数据平台的,它们的不同主要体现在下面这张表上。数据中台的建设其实就是要在一个包含大数据平台的架构下,通过一系列工具和方法论,弥补大数据平台的缺陷和局限性,实现数据中台的建设目标。

智领云原生数据中台架构

本次直播,宋文欣重点介绍了智领云BDOS数据中台架构。在具体解析智领云数据中台架构之前,宋文欣首先解释了与智领云数据中台息息相关的云原生的概念。云原生包括了微服务和容器技术以及一套DevOps和CI/CD的流程,而智领云数据中台则是云原生的数据中台架构。

接着,宋文欣详细介绍了智领云的云原生数据中台架构。如上图所示,整个架构的最底层是硬件资源层,在硬件资源层之上,左侧是应用基础能力平台,右侧是数据基础能力平台。其中,蓝色标注的子系统,如数据基础能力平台,是智领云技术团队通过容器化集成到数据中台中的。绿色标注的是智领云技术团队自主研发的子系统,而浅蓝色部分是智领云与合作伙伴合作开发的应用系统。

宋文欣强调了整个架构设计中一个很重要的方法论,就是全局的应用和数据管理。应用基础能力平台可以把所有应用的生命周期在一个统一的平台管理起来。数据基础能力层与应用基础能力层是统一融合的,而在传统的大数据平台中,一般并没有统一管理的应用基础能力平台。这两个基础能力的融合能够以一种低门槛的方式为用户提供一个大数据应用的开发、集成和发布的统一平台,方便用户进行数据能力的共享、抽象和复用。而数据应用管理平台做的是全局的数据资产管理,能够让管理层、业务部门和数据分析部门,从一个全局的视角进行数据探索,进行全局的ROI管理,并提供一个全局的运营指标去评价数据中台建设的价值。

总结起来,智领云数据中台BDOS的核心功能,首先是一个大数据容器云平台,把大数据及AI应用以统一的容器化方式运行在高效的云平台架构上。其次是数据应用资产管理,全局地管理数据及应用的目录、元数据、版本管理等。此外还有数据应用集成,实现了系统自动配置所有的组件,提供单点登录、多用户支持、安全、监控报警等功能。BDOS还支持协同数据开发,针对于不同层次的数据分析人员和数据科学家都可以统一使用可配置的UI在一个系统中进行数据应用的开发、共享和复用。BDOS的数据集成中心支持多种及自定义数据集成引擎,可以很方便地进行工作流的管理,以及数据服务开放。最后,贯穿整个数据中台有一个端到端的运维体系,提供全面高效的大数据运维支持,可以提升整个系统的可用性,降低查错成本和时间。

在介绍完BDOS的整体架构和核心功能后,最后宋文欣又分别介绍了BDOS的各个子系统,包括BDOS数据集成开发平台、全局的数据应用运营平台、应用基础能力平台,并对每个子系统的整体架构、技术选型以及对数据中台的意义都做了详细的阐述。

篇幅所限,未能详细介绍全部直播内容,如果读者对本次直播的详细内容感兴趣,请在智领云科技公众号下回复关键字“PPT5下载”即可下载本次直播的PPT。

直播问答精选

1.Mesos和K8S谁更加优秀?
应该说它们虽然都是两个云计算的核心技术,但是其重点是不同层次的管理,K8S的优点在容器调度方面,在此框架上发布容器应用非常方便,Mesos的优点在集群管理,并已经在大规模集群得到验证。Twitter很早就在生产中管理万台主机的集群,抖音用Mesos管理单集群近十万节点的集群。而且目前来说,Mesos对大数据的分布式应用支持也是比较成熟的,Spark的分布式调度原生就是在Mesos上开发的。一个是分布式资源管理以及有状态服务的支持,一个是容器调度以及无状态服务的管理,两者各有长处。

2.数据中台如果没有沉淀行业数据,在产品落地中会遇到各种困难,无法构建其中的竞争力,如何看待这个问题?
我们的产品并不是一个开盒即用的数据中台,主要是提供一个基础架构。企业根据这个架构在其基础上进行开发,并根据企业自己的状态进行调整、实现。这个底层架构,基本上都是硅谷的高科技公司所采用,并作为自己数据平台的基础,在数据中台的建设中验证是可行的。智领云的工具可以帮助企业搭建自己的数据中台、同时提供方法论的引导,从而进行数据抽象、共享、重建,最大限度的开发其数据价值。

3.在数据中台中,开发的数据应用测试和业务应用测试有何不同?
业务应用,其运维排除是技术层面的。数据应用不仅仅是技术层面的,也很可能是数据本身的问题,要求开发数据应用的技术人员非常了解业务数据。在智领云的平台中,不仅提供代码浏览,还提供数据浏览。

4.应用云平台为什么没有选择Helm,而是选择Mesos?
Helm本身不能算一个云平台,它是用来管理K8S应用发布的一个工具,我们在系统中也有用到Helm来发布应用,但是目前它提供的功能比较有限,主要比较适用于无状态应用。我们自己的应用发布系统要求对于有状态和无状态应用的发布同时管理,比它的要求更复杂一点,所以我们可能会把Helm集成进来统一管理,但是目前还没有应用到生产系统。

5.平台底层哪些在物理机,哪些在虚拟机,哪些在容器中?
我们的底层可以是物理机,也可以是虚拟机,看客户的预算和配置要求,这个对于我们的平台是没有影响的,主要是看客户IaaS层运维和对大数据组件的要求。我们自己系统里基本所有大数据基础组件都在容器中(Ranger、Kafka、Spark等),但是有些组件的具体实施要看项目具体情况。例如HDFS这种存储和网络要求都比较密集的组件从原理上来讲肯定是运行在物理机上比较好的,但是客户有时候处于管理的需求还是想运行在虚拟机上,我们对两种选项都是提供的。

6.多租户在Hadoop集群上为多租户分配资源,如何控制额度?
Hadoop上HDFS和Yarn都有自己的quota系统,配置资源还是比较简单的。在Hadoop之外,智领云系统内有一个全局性的资源管理系统,在应用资产管理系统中可以清晰看到。该系统是针对全局的、所有云资源的限额管理。

7.从业务价值上来说,数据中台与大数据平台、数据仓库有什么区别?
传统的数仓对大型数据处理的瓶颈,导致诞生了大数据平台。数据中台的出现,是为了解决传统大数据平台建设中的一些问题,例如重复开发、浪费资源、标准不统一、成本高、数据应用孤岛等等。所以可以说数据中台是合理建设大数据平台的一种方式,从本质上来讲和大数据平台的目的是一样的。我们一直在讲,硅谷只有大数据平台,没有数据中台,就是这个意思。如果要说数据中台和我们所谓的传统大数据平台的业务价值上的差异,应该是说数据中台能够提供更快的市场反应速度,提高数据应用的开发效率。

8.数据血缘具体是如何实现的,应用级别、表、字段等级别如何体现?
DAAM中保留了元数据,可以在Hive中做分析器,抽取其中的元素(字段、表名等),清晰分析其上下游。我们的元数据管理还以图的方式,保存在Neo4j中,直接展示其依赖关系。应用通过数据服务访问数据,谁、哪个应用、通过哪个IP访问哪个数据,并把这些关联放入Neo4j中。可以把应用调度的关联关系进行统一采集,存储并展示,系统还支持对关联关系的元数据进行采集。

9.传统的大数据组件,无法对元数据进行分离、采集Ranger+K8S可以实现对每个SQL的审计吗?
需要Plugin的支持,Ranger提供审计功能,有个审计的元数据写入;K8S审计在对每个作业提交时需要keytab,并进行记录。这些审计都是可以实现的。

10.数据基础能力平台是部署在物理机还是Cloud上?
可以部署在物理机上,但是现在很少这样做,主要是因为需要利用Cloud的优势。

11.BDOS的典型案例中,甲方多还是数据服务人多,与同类产品的竞争优势体现在哪里?
我们在医疗、教育、司法等行业都有应用场景和案例,我们有两类客户:1.大数据应用的开发商,提供应用服务,在我们的产品上做二次开发,或者作为合作伙伴进行合作开发。2.直接的甲方。在这类客户上,我们的方式是扶上马,带一程,然后再让其自己走,长期来讲我们负责解决核心数据技术问题,客户自己解决业务问题。
我们的数据中台架构突出的是针对业务痛点,数据能力的快速落地,共享,复用,全局的管理。这里面涉及到的全局管理,数据和应用的统一管理,协同开发的管理,都是比较重要的。作为一个开放式系统,能够给企业快速解决实际业务痛点,全局赋能,是我们平台架构的优势。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.