什么是理想的数据中台架构? | 第三期图文直播文字回放

by June 2020-11-30

11月26日晚,智领云第三次社群图文技术直播和大家“见面”了。本次直播中由智领云高级产品经理王龙飞就为什么说数据中台的构建是数字化转型的设计模式创新?数据中台在市场主体数字化转型到底有何效用?选择数据中台的原则是什么?数据中台建设的目标是什么?数据中台究竟应该如何去落地等开发者关心的话题,与社群内的技术小伙伴们进行了深入细致的探讨与交流。  

一、数据中台到底是什么? 数据中台是企业数字化运营的统一数据能力平台,能够按照规范汇聚和治理全局数据,为各个业务部门提供标准的数据能力和数据工具,同时在公司层面管理数据能力的抽象、共享和复用。 数据中台要解决的问题是清楚及真实存在的: 

  • 各个部门重复开发数据,浪费存储与计算资源;
  • 数据标准不统一,数据使用成本高;
  • 业务数据孤岛问题严重,数据利用效率低。

 根据数据中台要解决的问题,我们可以确定数据中台建设的终极目标。数据中台首先是一种IT系统,而IT系统建设的最终目标是服务企业,因此数据中台的建设遵循我们常说的以业务为导向的路径。虽然企业的发展目标多种多样,但是,这些大目标都有一个共同的子目标,即最高效地实现资源的合理配置和利用,创造最大的企业利润,简单来讲就是精细化运营,开源节流。

二、业务部门眼中的数据中台是什么样的?

在业务部门来看,数据中台应该能够高效地进行数据的采集和存储,提供一系列的工具,让业务部门可以很方便地去开发数据流水线、进行流式或者实时的数据处理,并把数据看板、BI报表等数据应用能够方便地共享出来,还要能很方便地构建数据服务和模型服务,并通过API将服务开发出来。 最关键的是,业务部门要能够随时自助地使用这些功能,不需要依赖企业的大数据部门,也不需要申请特别的资源,从而实现新功能的快速实现、验证、迭代、共享和复用。

三、公司管理部门眼中的数据中台是什么样的?

从管理层来看,数据中台首先应该能够实现数据产品的快速迭代; 

其次,数据中台应该能够避免各业务部门重复造轮子; 

第三,数据中台要能够提供完善的ROI管理,即企业在数据中台建设过程中投入大量的时间和财力,投入产出比如何衡量; 

第四,在数据中台的架构下,应该实现每个产品线的数字化运营标准,构建一个全方位的,覆盖所有业务系统的数字化运营模式; 最后,数据中台必须有一个完善的数据标准及数据应用资产管理,打通各个业务线的数据,最大程度发挥数据价值,支持企业的重要决策。 

四、智领云的产品差异化在哪里呢?

智领云产品是在云原生架构下的实践,智领云的BDOS大数据操作系统是基于Mesos的资源管理,支持Marathon和Kubernetes的容器编排框架,采用云原生架构的数据中台。底层是对容器化的支持,以及对Hadoop、Spark、Kafka、Tensorflow、Hive等这些大数据开源组件的容器化发布。 

用“大数据的操作系统”来定义智领云的产品更加直观准确,智领云的“大数据的操作系统”建设分为三步,第一步是“打地基”,智领云通过开源的Docker、K8S、Mesos等技术,对主流的Hadoop、Hive、Spark、Kafka等多种大数据技术组件进行了容器化集成,实现大数据应用与底层运行环境之间的解耦,推出了应用云平台(PaaS)与容器大数据平台。

智领云做的第二步,就是把“盖房子的工具”做好。智领云推出的数据集成开发平台,包括数据采集、数据共享、数据探索、数据服务、数据治理、数据开发等多项工具。数据集成开发平台与应用云平台(PaaS)与容器大数据平台打包交付。 

第三步,“在盖好房子的基础上进行精装修”。对于有大量数据沉淀、已经建立了大数据平台的企业,如银行这类大客户,智领云也针对性地在2019年底推出了一套完整的解决方案——数据资产运营平台,也就是Total Insight。该平台可以单独发布和使用,也可以单独售卖。 

至此,智领云完成了这套“大数据的操作系统”的构建,并且已经服务了能源、教育、医疗健康、物联网、金融等领域的数十家客户,据智领云透露,他们的客户复购率为100%。

五、智领云云原生数据中台架构介绍 云原生包括了微服务和容器技术以及一套DevOps和CI/CD的流程,而智领云数据中台则是云原生的数据中台架构。  

智领云的云原生数据中台架构 整个架构的最底层是硬件资源层,在硬件资源层之上,左侧是应用基础能力平台,右侧是数据基础能力平台。 

其中,蓝色标注的子系统,如数据基础能力平台,是智领云技术团队通过容器化集成到数据中台中的。绿色标注的是智领云技术团队自主研发的子系统,而浅紫色部分是智领云与合作伙伴合作开发的应用系统。 

六、什么是云原生? 

简单来说,云原生是一种专门在云上(而不是传统的数据中心)构建和运行应用程序的方法论。企业的业务或应用生在云上,长在云上,即Cloud Native。 

因此,云计算是云原生的基础,没有云计算就谈不上云原生。云原生的核心要求之一就是所有的应用都必须能够以类似于“容器”的方式,无差别地在任何一个节点上运行。 

只有基础的云服务足够普及,企业才会意识到自己存在着进一步对云上数据应用和管理的需求,而这一需求,会被一种“云原生”的方式加以解决。从技术角度来说,云原生的兴起是为了解决企业IT系统越来越复杂而带来的管理难题。

七、系统架构和数据、应用孤岛之间的关系 

在非云原生的架构之下,当企业想要扩展业务、增加应用的时候,需要添加额外的服务器来运行这些异构的应用,添加的应用越多,整个IT系统就变得越来越复杂,这也是数据孤岛产生的原因。 

同时大多数中国的大企业出于数据安全等因素的考量,往往会采用混合云将核心业务放在私有云上,将非核心业务放在公有云上,甚至会选择采购多家服务商的公有云,这就产生了“多云管理的需求”。这对企业内部跨平台、跨系统之间的数据传输、同步和管理提出了挑战。 

八、解决的突破口在哪里? 

上述这些问题都可以通过容器的方式来解决,这也是最近几年云原生技术大火的原因。 

容器的第一个好处是能更高效地使用计算机资源,其实质是一种虚拟化的技术,是虚拟机的“升级”。一台主机可能只能虚拟出上百台虚拟机,但可以虚拟出上千个容器;同时,容器的启动时间更快,占用空间更小,而且可以根据实际应用的大小来弹性分配资源,企业无需额外采购服务器。 

容器的另一个好处则是满足了多云管理的新需求,它就像一个水瓶,可以把水当做应用“打包起来”,这样,当企业开发新应用时,就不需要直接调度“水”,仅需调度水瓶,实现在公有云、私有云之间的无缝发布。 

同时云原生理念中所用到的Docker、Kubernetes(简称为K8S,在2014年由Google贡献给云原生开源社区CNCF)、Mesos等技术,则让数据中台的建设变得非常简单,可谓是最佳组合。 

九、如何应对大规模集群的管理? 

大部分公司可能更多基于K8S的方案进行深度定制,智领云的特殊之处则在于,团队还对使用Mesos管理云原生大数据平台有丰富的经验。大部分创业公司可能更多基于K8S的方案进行深度定制,而智领云选择了K8S与Mesos的深度融合。 

Mesos和K8S都支持大规模集群管理,不过Mesos可以调度的集群节点更多,可以轻松调度万级以上节点。一般说来,如果只是用于容器集群管理无状态应用,K8S更加合适;如果定制需求比较多,或者要搭建包含很多有状态组件的大数据平台,架构相对松耦合的Mesos更加合适。在不少生产系统中,例如联通,浙江移动,都采用了Mesos+K8S的技术架构,来应对业务系统和数据平台的混合调度需求。 

Mesos在大规模生产系统中已经有较多的实际验证,在国内,也有不少公司选择了Mesos,比如爱奇艺、中国联通、三一重工、去哪儿、携程、当当等,爱奇艺用Mesos管理着大约2000台物理机,联通的“天宫”平台支持6200+的集群节点。 

十、架构设计重要的方法论即全局的应用和数据管理 

“分布式”、“可伸缩”的统一集群管理、统一数据洞察加上可以实现DataOps方法论的数据开发流程是数据中台架构的核心要点。 

应用基础能力平台可以把所有应用的生命周期在一个统一的平台中管理起来。 数据基础能力层与应用基础能力层是统一融合的,而在传统的大数据平台中,一般并没有统一管理的应用基础能力平台。 

这两个基础能力的融合能够以一种低门槛的方式为用户提供一个大数据应用的开发、集成和发布的统一平台,方便用户进行数据能力的共享、抽象和复用。 

而数据资产运营平台做的是全局的数据资产管理,能够让管理层、业务部门和数据分析部门,从一个全局的视角进行数据探索,进行全局的ROI管理,并提供一个全局的运营指标去评价数据中台建设的价值。 

十一、智领云数据中台BDOS的要点功能介绍 

2005年在硅谷时,要做一个大数据集群,需要十几个博士,几千万美元才能搭建起来,现在,用云原生的技术搭建同样的系统,只需要30分钟。 

智领云标准化的产品即可快速实现一个典型的大数据平台,同时平台被搭建之后,数据驱动的IT架构带来的能力会源源不断而来:首先是一个大数据容器云平台,把大数据及AI应用以统一的容器化方式运行在高效的云平台架构上。 

其次是数据应用资产管理,全局地管理数据及应用的目录、元数据、版本管理等。此外还有数据应用集成,实现了系统自动配置所有的组件,提供单点登录、多用户支持、安全、监控报警等功能。 

BDOS还支持协同数据开发,针对于不同层次的数据分析人员和数据科学家都可以统一使用可配置的UI在一个系统中进行数据应用的开发、共享和复用。 

BDOS的数据集成中心支持多种及自定义数据集成引擎,可以很方便地进行工作流的管理,以及数据服务开放。最后,贯穿整个数据中台有一个端到端的运维体系,提供全面高效的大数据运维支持,可以提升整个系统的可用性,降低查错成本和时间。 

直播问答精选数据中台和传统大数据平台区别,能否理解为SaaS模式和传统项目模式? 

有这种说法,数据中台可以理解为企业内部的一种DaaS(Data-infra as a Service)。但是我们认为数据中台的建设实际上也是需要各个业务部门参与和持续维护的,与一个拿来就用的SaaS模式还是有一定区别的。 

数据中台,抽象的对象到底是数据还是能力? 

都是必须的,既要抽象数据,也要抽象能力。中台思想是需要思考什么东西可以抽象、共享和复用,这是个思考角度。能力则包括技术能力、业务能力等。 

有很多企业建立了数据中台,但是失败的案例也不少,那失败的原因可能是什么? 

失败的原因有很多,例如实施中的很多细节不到位。目前还存在对中台概念、工具、方法论和规范认识的匮乏,误导性的市场宣传,以及有实际中台建设经验的人员十分欠缺,以上都是可能造成中台失败的原因。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.