数据中台建设的产品方案与路径参考

by Norman Wang 2020-04-08

4月1日晚,智领云技术直播第三期又在晚上8点准时播出。在前两期的直播中,主要讲述了医疗行业信息化和数据中台建设以及什么是数据中台、如何建设数据中台。不过,可能还是有一些朋友觉得数据中台和他们相距甚远,但实际情况却并非如此。其实,只要换一种说法,可能大多数朋友就会知道,数据中台并不陌生,也不遥远。实际上,数据中台与我们经常谈论和熟悉的数字化转型息息相关,数据中台的最终目的,就是帮助企业高效实现数字化转型,成为一家数据驱动的企业。而未来,90%的企业都将成为数字化企业,没有实现数字化的企业将更容易就被时代所淘汰。因此,能够帮助企业实现数字化转型的数据中台能够成为近些年来业界炙手可热的热点,并不意外。

因此,在智领云第三期的技术直播中,我们邀请了智领云销售总监王德文来详细讲解数据中台与数字化转型的关系、企业建设数据中台的产品选型和路径,以便给想要或者正在进行数字化转型的企业一个参考。

数字化转型的现状解析

在现在的特殊时期,疫情蔓延,人员也不能流动,只能依靠数字化工具来进行交流,我们从来没有像现在这几个月一样,如此依赖数字化服务。而对于企业与机构这些市场主体来说,它们更加迫切的需要以数字化的服务来解决他们目前的困境。

而事实上,并不是因为目前这个特殊的情况,才需要数字化。在疫情之前,许多企业和机构,早已存在许多的痛点,需要数字化去应对。因为企业发展阶段不同,相应的诉求也不同。企业初期信息化强调的是业务软件的开发和功能的实现,以解决具体的问题。随着系统的增多,各种应用的烟囱效应理所当然的出现了。同时在数据使用和利用方面也出现了相同的问题。数据不会用,用不好,成了当前企业所面对的共同挑战。基于这些挑战,产生了一些典型的问题。

这些典型的问题包括:多业态的管理混乱、系统分散、 信息零碎、数据同步不及时、报告数据不准确、效率低下。举一个例子,最近,我们帮助一个大型国企做数字化转型的项目,他们的主要业务是为设备做检测。由于这个业务涉及的流程比较复杂,涉及的部门繁多,每个部门又有自己的业务系统需求,要把这些分散的系统、零碎的信息进行统筹管理,是一个很大的挑战。同时,数据的同步、数据的分析也是一个大问题,所有部门的数据标准不一致,每一个部门的报告都有不同的内容,谁对谁错无法溯源,更谈不上为决策分析做参考,提高效率了。因此,他们迫切的希望能够实现数字化运营。

实质上,数字化运营就是通过数据的支撑,为决策、产品、运营这个闭环的运作来做赋能。决策需要对市场有一定的预知能力,而这种能力需要数据的支撑。有了数据,就能量化市场属性,为决策提供更多的依据。对于市场主题来说,决策的目的无非就是提供盈利能力或者提供更好的服务和产品,那么通过数字化就可以解决决策的支撑问题。同样,产品也需要更多的数据抽样来做优化设计,那么数据从哪来?当然也是从数字化服务中来。还有运营,同样需要精准的客户指引和用户群体分析。如果这些数据能够提前准备好,就可以省去很多运营成本。

其实,在实现数字化之后,企业的一切动作都是用数据服务管理的,这样,通过数据抽样来研发产品给用户使用,用户使用产品的运行数据反馈回来,反哺到数据支撑平台,从而形成一个循环的数据闭环,这就是数字化运营的实质所在。

那么,对于企业和机构这些市场主体来说,实现数字化转型的意义是什么?我们认为,首先,企业和机构通过数字化,形成整体业务的数据闭环,从而能够为企业提供数据/AI的赋能。其次,通过数字化,企业或者机构就可以掌握最全面、最及时、更多维度的业务现状。第三,通过数字化,可以更加快捷地提升业务应用的迭代和发布速度。第四,通过数字化,可以打通数据壁垒,消除数据/应用孤岛和烟囱。第五,可以提高数据能力/价值的复用率。最后,数字化可以为企业提供量化的ROI,精确监控和计划资源的使用。

用一句话来总结,市场主体数字化转型的目标就是借助人工智能、大数据、云计算技术整合多业务场景,打造数据层,实现市场主体的“简IT,轻管理,敏经营”,从而支撑“增长收入,降低成本,提高效率,控制风险”等经营绩效的形成。

数据中台与数字化转型

那么,既然数字化运营如此重要,为什么许多企业或者机构在执行数字化项目时仍然步履维艰?

我们认为,这是由于市场主体在数字化转型中遇到了如下难点:

首先,是成本测算问题。数据类的项目属于基础服务,基础服务类的项目都是成本项目,管理者很难估算这个成本投入是否能够得到更多的回报,而如何让这个成本项目变成一个盈利项目,这是一个很现实的问题。很多企业就是由于成本测算的失位,从而导致数字化转型无疾而终。第二,横向业务数据流转困难。这是因为部门之间业务连接不畅,形成隔阂,从而导致数据人力耦合度很高,简单的讲,就是谁的数据谁知道,其他人都看不懂,协调困难,也让项目很难执行。第三,技术能力不足。这一点很多企业应该深有体会,非IT行业的企业,其技术水平一般比较薄弱,这样的条件对于数字化转型过程中的技术准备是难以为计的,最终的结果,要么是外包技术人员,要么是大规模的扩展项目预算,招聘员工,组建团队等等,这就很容易造成项目的成本结算超标,导致转型失败。第四,业务系统异构。这可能是一个普遍的问题,因为大型企业和机构都害怕被绑定,因此,其业务系统通常由多个厂商来开发,年久失维。同时,形成了大量的异构数据,在数据标准上难以统一,治理难度就变得很大。最后,就是信息化不足。比如有一些企业仍然使用纸质或者Excel来记录数据的流转,这显然效率不会太高。

那么,在数字化转型中遇到的如此多的困难,应该如何解决?众所周知,我们已经由传统的信息化时代进入到了云时代,又从云时代走到了大数据/AI时代。但大多数的企业和机构,对于数字化转型的理解还停留在信息化的层面上,因此,对于他们来说,要实现数字化,就要先实现信息化。因此,一般的路径是先建设计算、存储、网络,安全等各种基础设施,然后建立虚拟化或者云化的服务,接着去构建应用中间件、数据层,包括各种关系型数据库和非结构化的数据库。还有一些企业构建了大数据平台,然后,去开发应用服务。如果按照云计算的模式来划分的话,就是IaaS、PaaS和SaaS。这样的建设路径,相信大多数的企业用户是认同的,也符合逻辑。但是根据我们的走访和调研,大多数用户在通过这个路径进行数字化建设时,他们的数据部门都会十分痛苦,为什么?

这是因为,本来云化建设的目标就是要去破除信息壁垒,打破数据烟囱,但现在的情况是,物理壁垒打破了,一个一个的逻辑壁垒又产生了。我们看到所有的系统事实上还是一种烟囱式的结构,只不过原来的烟囱式架构是建筑在物理层面之上,而现在则是建立在逻辑层之上。而且随着业务的增长,系统越来越多,每一次业务系统的构建,就要从数据库层开始向上重复的构造,于是,各种烟囱式的架构又产生了。

那么,有没有一种新的模式能够让数据标准统一起来,数据存储高效完成?这个答案是肯定的,就是数据中台。数据中台的构建是一种创新的IT信息化设计模式,是数字化转型的设计模式创新。这主要是因为:

首先,从业务形态上来讲,传统的市场主体信息化模式已经存续多年了,业务系统突飞猛进,数据量,数据存量大而繁,其设计模式亟待创新。其次,从市场环境深度来看,市场主体的降本增效和增值创新的趋势目标是把现有的数据变现,并且要支撑业务快速发布,来抢占市场先机,因此,而能够帮助企业或者机构实现这些目标的数据中台的引入是市场主体数字化转型过程中的一个必然选择。

数据中台的构建路径与产品方案

那么,数据中台在市场主体数字化转型到底有何效用?这里做了几点总结:

首先,最重要的是,通过数据中台的建设,可以统一化对企业或机构制定各类数据标准,让企业和机构的数据标准统一起来。数据标准的重要性不言而喻,它是数据持续生态的一个基础。第二,就是数据资源的统一、编目。没有业务属性的数据就是一堆数字,毫无价值,所以可以通过数据中台建设完成数据治理,并且统一编目,让数据和业务属性关联起来循环管理。第三,就是数据的进化和ROI。大部分的企业和机构,经过多年的数据化运作,数据量已经很丰富,它们都希望能够实现数据变现。而通过数据中台对数据的流水线进行全流程的监控,让数据流转起来,数据服务的盈利点就会显露而出,进而可以实现管理的ROI化。

其实数据中台建设的一个重要目标,就是专业的数据人员做数据层的事,让业务开发者只专注于他们本身的业务开发。如果企业或者机构有了数据中台,形成了标准数据的仓库或主题库,那么后期的业务应用开发,就没有必要去重复建设冗余的库表,只需要去增量的建表或增加一些字段就可以了,业务应用的发布也就可以变得更加迅捷。

下图是数据中台在数字化转型中运行闭环的图解。从右侧来看,企业和机构的当前数据基本上都是运行在业务应用中,数据中台通过采集数据,获取数据源。通过数据交换,也就是多种多样的数据采集方式,汇聚到贴源库(ODS)中。所谓贴源库就是这两年经常说的一个名词——数据湖。

再看一下左侧的数据服务,它贯穿整个数据流水线,这就是数据中台建设的核心之一。它包含了数据采集、编目、共享、交换。顺着数据流继续往下看,通过数据的循环治理,根据业务属性对外提供各种不同的服务,比如说像接口服务、DB级别的链接服务、文件传输,甚至是DP协议层,为上层的应用提供开发支持,再由业务服务生成的数据来反哺数据源,从而形成了一个完整的数据生态。我们认为这才是一个完整的数据中台的服务结构。

数据中台的构建路径参考

那么数据中台究竟应该如何去落地呢?在这里,我们根据自身的实践经验提供一个构建数据中台的路径参考。

构建数据中台第一步要做的,就是顶层规划和设计。这需要我们梳理现有的核心业务和数据,并根据梳理的结果,完成既定的模型展现和应用,还要抽取核心业务生产数据,形成采集、加工、梳理的全自动化流程和相应的数据仓库。并在这些工作的基础上,形成一到两个典型业务场景。这样,数据中台的生态就形成了。第二步,是数据应用的建立。要结合第一阶段的数据成果,形成一到两个典型业务应用,并兼容现有历史数据,全面形成以数据中台为基础的数据加工流程体系与报表体系。第三步,数据驱动业务。根据业务开展扩充数据应用的开发,形成多视角多主题的客户画像、资源画像、任务单画像等。然后,企业和机构的管理者就可以通过数据指导业务系统的建立,通过数字化来做决策。最后一步,就是数据服务供应。通过建立完善的数据使用流程,以前期数据成果作为输出,以数据沙盒的安全使用形式对外提供数据服务。同时,不断完善数据应用和模型,准确设计预测模型,指导市场、投资、采购、生产等行为。这样,市场主体就能够通过数据中台建立起一整套的数据生态,从而把传统数字化转型的痛点一一解决。

选择数据中台的原则

既然数据中台能够解决企业或者机构在数字化转型中的各种痛点,那么,是不是就可以随便选择一家数据中台厂商合作?答案当然是否定的。大部分的市场主体在数据中台建设中的需求,有一个很明确的需求,就是要“快而全”,他们要快速的实现数据变现。因此,在选择数据中台时,有几个原则还是需要遵循的。

首先,要选择云原生的底层架构。这是因为,企业或者机构选择数据中台,本身就有一定的成本压力,他们希望能够快速的见效。而云原生数据中台的特点就是云化编排、实施快捷、部署高效,因此,可以充分满足企业或者机构“快”的需求。其次,就是数据汇聚要平滑。因为我们知道,企业或机构在做数据汇聚时,行政压力是很大的,因为业务系统多态对于汇聚的要求会更高,比如要支持多种数据类型,汇聚过程中需要按需编辑,因此,要求数据中台具有这些“第一层”的治理能力。再者,当前的企业和机构都清楚的知道自身数据的价值,对数据的治理和维护也将更加精细化。那么,在选择数据中台时就应该选择具有全流水线的监控、报警、链路管理、血缘监测等功能的数据中台。最后,数据处理的最终目的是为业务来提供服务。因此,在数据的流转过程中,必须安全可靠,同时也要提供灵活多样的数据服务方式。比如说像文件FTP的传输方式、JDBC的数据链路传输方式,API的接口传递方式,还有多租户隔离,安全策略的符合标准等等。

智领云数据中台解决方案

而作为一家始终关注于企业数据中台建设的厂商,智领云科技自主研发的BDOS就具有上述所说的数据中台的各种能力,并已经为包括能源、金融、制造业、医疗等各行业在内的众多用户快速打造了数据中台,助其实现了数字化运营。针对企业和机构在数字化转型或者数字化建设过程中是存在的差异和不足,智领云可以提供灵活的适配方案,既可以从0开始,为用户实现渐进式的数据中台服务,也可以帮助企业在原有数据平台的基础上,迭代升级数据中台。

BDOS的核心功能如上图所示。我们看到,整个BDOS平台是纯粹的云原生架构,底层的资源调度使用的是云原生的Mesos。Mesos是国外很多独角兽企业,如Linkin,Twitter等硅谷大厂一直在使用的稳定的系统。在国内,字节跳动,中国联通等大型国企和私有企业也有着数量庞大的Mesos集群。BDOS的容器调度可以使用Marathon,也可以使用Kubernetes。

BDOS的整体设计采用的是微服务来架构,从图上可以看到,蓝色部分就是容器化支撑的部分,绿色部分,包括数据集成开发平台和应用平台都是我们自主开发,我们还可以和客户一起共同开发行业数据应用、BI和报表这样可视化的内容。而且无论从应用能力的组建,还是数字能力的组建,都是高度集成的,完全符合数据中台的整体闭环。

总结来说,BDOS首先是一个云原生的数据平台,它高度集中,能够保证数据中台的快速部署。其次,基于容器化的管理,BDOS具有很强的扩展性和敏捷性。也具有简洁的统一管理界面,能够大量减少代码的编写。第三,BDOS数据集成服务的采集、存储形式多样,支持在线编辑,并能够完成第一层的治理,快速完成数仓和主题库的构建。第四,BDOS能够实现数据资产的管理,将用户原数据应用整体的链路整合,能够让企业和机构的管理者从各个纬度,快速的查看整个业务系统。

下面,介绍一下BDOS的几个重要组件。首先是Flowman。Flowman是一个数据集成平台,它是为了解决数据抽样的问题应运而生的。Flowman以流水线的方式来集成数据,集采集、清洗、计算、转换为一体,是一个为用户提供数据开发服务监控、展示和质量管理的数据调度与集成的综合平台。它的主要的特点,一是能高效的处理数据汇聚。前面谈到,数据汇聚中会碰到很多异构的环境、异构的数据存储方式,那么在进行数据交换的时候,就需要去做各类转换,Flowman就提供了这样的一个环境。它提供了Hive、Spark这样的工具,可以在线编辑、处理作业。另外,它也可以灵活的采集各种结构化、非结构化的数据,甚至还支持HDB、广义网采集。而且整个数据处理的过程都是全程监控的,遇到问题随时报警。再一个就是安全有保证。我们知道,安全治理分为物理安全和逻辑安全,由于BDOS本身是云原生的,任务调度是容器化的,微服务运行在各自的Docker容器之中,本身就是隔离发布的,所以安全性不仅符合国标标准,而且安全逻辑也十分可靠。下图是Flowman的界面,都是配置化的管理,使用非常便捷。

我们总是说为企业提供赋能,那么专注的数据赋能到底怎么做呢?下面介绍的BDOS组件DAAM(数据应用资产管理),就是专门来做数据赋能的。企业管理总是希望能够更全面、更快捷、多纬度的掌控业务数据,智领云的数据应用资产管理平台DAAM就可以为企业提供这样的管理平台。DAAM提供的是一个多视图的观察纬度,可以从多个视图来查看整个平台的运行状况和使用情况,并且可以通过灵活的查询接口,找到所需要的信息。数据应用资产管理平台还可以使用探索的方式,对某一个事件主题进行关联性分析,帮助用户做出运营层面的决定和市场决策。总结来讲,数据应用资产管理平台的目标,就是将系统中的所有实体、用户数据、服务资源统一进行数字化的管理,让客户把自己的数据战略特质真正发挥出来。

智领云BDOS的另外一个组件,叫做数据服务中心,顾名思义,它的主要功能就是为业务提供支撑服务,智领云数据服务中心的主要优势是什么呢?首先,它是一个微服务的架构,支持不同数据库类型的数据查询。同时,还可以让任何部门的用户在标准化的数据中台进行自主服务。说白了,它就是一个容器模型,只要提供容器环境就能使用。比如,有客户提到这样一个需求,他们的数据很多,有国外的同类厂商想进行合作,使用他们的数据,但是客户担心数据泄露,问我们怎样才能让这个合作达成,同时还能够保证数据的安全。企业和机构对于数据都有一个预期,就是核心数据不可见、敏感数据可加密、服务数据可扩展。我们给出的方案就是通过数据服务中心构建一个数据沙盒,在这个沙盒空间里,所有的组件都是封装好的,国外的厂商直接灌入他们的算法模型就可以了,客户的数据放在沙盒里面运行,结果数据输出给国外厂商,这样就完美的解决了双方的安全问题。所以这就是云原生,微服务架构带来的好处。除此之外,数据服务中心还能够基于微服务快速构建各种不同的数据提供方式,比如API的调用、文件传输、数据库链接等,而且支持包括MySQL、HBase、Redis这些结构化和非结构化的数据源类型。更为重要的是,智领云数据服务中心有着企业级的安全机制和审计监控,非常契合企业的数据安全保障期望。

智领云的产品策略

实际上,之所以介绍智领云BDOS的三个重要的组件,主要是为了契合智领云构建数据中台的宏观逻辑,用三句话来表述,就是“数据进的来,数据能处理,数据出的去”,这正好就对应到数据集成中心Flowman,数据应用资产管理平台DAAM以及数据服务中心Data Service所提供的服务。当然,我们还有很多其他的功能组件,可以为用户提供数据筛选、数据标准管理、可视化展现等服务。

其实,智领云的产品策略一直是开放和灵活的,这主要得益于智领云产品的松耦合架构,这使得智领云的任何一款产品都可以为客户提供独立的服务。这在我们的产品策略里面也有体现。简单的讲,智领云的产品策略可以从四个方面来讲:

第一是一揽子的产品解决方案,就是说如果需要构建一套完整的数据中台,智领云可以提供整套的解决方案和产品,并且配合客户,完成从调研到运维的整套软件工程的流程服务。另外,就是组合产品解决方案,我们可以根据客户的要求,按需来提供服务产品,比如说有的客户已经有了数据采集服务,只需要数据应用资产管理平台和数据服务平台,那么我们也可以解耦供应。第三种就是单一产品的供应和定制开发。我们知道,每个市场主体的数字化情况是有所差异的,智领云的产品也可以根据客户的需求做调整,而且智领云是以技术团队为主的公司,完全有能力为客户提供这样的服务。最后就是OEM,我们的产品完全可以嵌入到合作伙伴的产品解决方案之中,从而实现与合作伙伴的双赢。

数据中台建设案例分享

下面,以一个数据中台实际的案例,来介绍一下智领云数据中台的落地实践。这个案例的客户背景是一家国有企业,主要的业务是汽车的检测服务,业务部门众多。该企业遇到的困境,就如同前文所描述的那样,信息化管理薄弱、各类标准缺失、各种系统的业务依赖严重、历史数据的量庞大、数据管理是基于Excel甚至是纸质的、数据要么是存储在业务人员本地的机器之中,要么是存在独立的服务器上、数据和人员的耦合性很高。

这样的情况,显然谈不上数据的交换流动,更不用说数据的共享交换了。不过,这个客户对于数字化转型有着非常积极的态度,企业领导对此也很配合和重视,把所有的业务部门的数据都提供出来供我们做数据调研,也总结出来一些需求模型,比如像客户应用服务模型以及市场应用的服务模型。我们就是从这两个模型做切入点,搭建了一个小而美的数据中台。

上图是我们为此客户设计的数据中台的架构模型。可以看到,在底层的数据源有许多不同的数据存储模式,通过我们的数据集成中心,做了汇聚、治理、编目,反过来形成数据集市。在这个过程中,通过数据应用资产管理平台,把数据的质量,模型血缘全部管理起来,再通过数据服务平台,为业务应用开发厂商提供数据服务。而在做业务应用时,开发厂商基本上都是使用我们的PaaS云来做CI/CD和调度的,从而节省了大量的时间成本,大幅提升了开发的效率。下面是该客户案例的一些效果展现。

直播问答精选

1.大数据基础平台,如Hadoop、MPP、MOM等是虚拟化集群,是否使用分布式容器集群方式部署更合适?

目前大数据组件使用容器化方式发布的好处是便于管理,但是处理不好容易存在存储和网络性能损耗的问题。Mesos对大数据的组件支持比一般K8S+Docker方式要好。如果对性能要求非常高的IO-intensive的组件,目前数据存储放在物理机上会比较好。未来的趋势是计算组件由容器化编排工具管理,存储和网络使用专门的分布式容器化接口。

  1. 容器编排调度是否解决了作业调度的问题?

容器编排一般解决的是服务的调度(long-running service), 作业调度一般指的是批处理(run-to-finish)任务的调度。两种调度是面向不同的应用的。我们的Flowman是一个基于容器的作业调度系统,上层处理批处理作业的调度逻辑,底层使用容器编排来实现,是一个完全云原生的作业调度系统。

  1. 智领云产品的部署形式,是否支持私有化发布?

智领云产品的部署是很灵活的,可以支持公有云发布,也可以支持私有化发布。如果客户已经有了大数据平台,我们可以与现有大数据平台对接,也可以提供解耦的组件。如果客户是从0开始,我们可以提供一整套的PaaS云环境+大数据平台安装。

  1. 是否小规模的系统用物理机部署,大规模用容器云?

不是的。我们在硅谷的经验表明,使用云原生的架构可以完美支从小规模集群到大规模的发展。选择使用物理机和容器云一般是出于性能和管理的考虑。

  1. 怎么解决容器云挑战性高的问题?

我们的系统采用的是经过硅谷大厂应用实践所验证的架构,是主流大厂选择的成熟PaaS模型和大数据平台技术,我们是沿用了Twitter、Uber、Facebook等大厂使用的已经稳定的模式,引入到国内做适配,将很多底层的技术细节封装起来。当然,这也是非常有挑战性的,我们已经在很多生产系统中经过验证。现在,我们在30分钟之内就可以部署出一套完整的大数据平台。

  1. 中台强在复用能力,请问中台技术和业务能力是怎么展现的,从而在新的业务到来时可以快速响应?

一般业务数据能力的复用体现在数据服务,数据共享。以银行业务举例,银行有很多部门需要构建用户画像,他们各部门自己也都有一些用户数据。我们看到很多地方都是每个部门建一个大数据平台或大数据仓库来完成这项工作。而如果构建了数据中台,中台中有客户模型,各部门可以贡献数据,完善模型,同时可以使用模型的结果,这就是数据能力的复用和共享,体现在业务上就是快速响应。这个过程就是数据集成,数据流转后形成数据共享,对业务的支持能力就能够得以体现。

  1. 智领云现在的主要竞争对手是谁,和其他竞争对手的差异在哪里?

市场上现在有些提供中台产品的公司,但是比较专注做数据中台的不多,很多同时也做业务中台。我们认为,如何提升现有的业务系统是一个直接需要解决的命题,业务中台的搭建是一个更大规模更侵入式的流程,二者的切入点和着眼点是不一样的。我们主要传递的是一种实现数字驱动,助力数字化转型的方法论和承载这个方法论的系统,和友商的差异主要是方法论上的差异。

9.数据中台对其中的热、冷数据以及分析数据的边界是如何划分和规划的?

数据中台有存储的功能,管理很多大数据平台,数据中台可以帮助企业做大数据平台的维护。如果每个大数据平台一个团队去维护的话,需要建立很多维护团队。数据中台本身具有管理大数据平台的能力。冷/热数据处理是根据大数据平台的边界来划分的,可以有数据中台来调度,但并不是数据中台来存储。

10.智领云的平台可以在哪些云环境运行?

我们在Amazon,阿里云,华为云、腾讯云等主流云平台上都发布过生产系统,也在客户的私有集群上发布过。

11.接口元数据、贴源数据的关系以及是否在资源目录上统一进行一致性管理?
我们有专门的元数据统一管理模块,资源目录是利用元数据管理资源,目前主要是数据治理,我们的DAAM产品,不仅维护一致性,还在用户,接口,数据等多个角度去关联,能够给大数据做一个全局的资源视图。

12.建设一个数据中台对人员的配置有何建议?

一般需要:
– 大数据平台的研发和运营团队(data platform),主要理解和使用大数据组件的data engineer;
– 数据建模工程师(DW engineer),负责公司业务数据的建模和梳理
– 数据分析师(BI Analyst).,负责业务数据分析,BI报表的生成
– 数据科学家(Data Scientist),负责实现机器学习算法,产生更多商业洞见
第一,客户如果有自己的数据团队,我们可以提供培训。
第二,客户没有自己的数据团队,我们可以提供产品及相应的运维人员。

14.本次直播介绍的几款组件是模块还是单独的产品?

我们介绍的BDOS三款组件主要是针对数据中台的不同功能,每个产品都是解耦的,可以单独提供。

  1. 企业建设数据中台的最佳路径和方法是什么?

我们一般会建议建议从主要痛点着手,先在小范围运转,解决实际业务痛点,在此基础上迭代扩展。云原生的数据中台可以很容易的从小而美发展成大而全。

16.流水线式处理,是否以Kafka这类存储转发为纽带,统一接入结构化、非结构化数据?

Kafka是消息队列,流水线式处理包括接入,加工,处理多个阶段。Kafka只是接入的一种方式。Kafka可以作为统一接入的入口,但一些非实时的数据采集的批处理,用Kafka是很费资源的,非结构化数据一般不走Kafka,例如音视频数据。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.