再谈数据中台 | 图文直播文字回放

by June 2020-10-26

9月24日晚,智领云首次社群图文技术直播和大家“见面”了。直播中由智领云市场总监Michael就数据中台的相关概念、数据中台与传统大数据平台的区别、中台建设的坑、中台技术要点等开发者关心的话题,与社群内的技术小伙伴们进行了深入细致的探讨与交流。

究竟什么是中台?

中台主要分为业务中台和数据中台,虽然有些大公司还有所谓的技术中台,但从大部分企业的角度来说,业务中台和数据中台更具有普适性。

实际上,中台并不仅仅是技术,更是一种思想,体现在企业中间就是一种文化,同时它也是一种思维模式,这种思维模式决定了企业的行为方式、战略决策甚至是组织架构的变革。

体现在技术上,就是一种全面快速的数据服务能力、业务协调能力,这是中台的关键点。

中台是对行为的抽象,比如我们去做一个订单,订单实际上是一个动词,因为它的背后是销售行为,销售就是一个动词,动词就是一种行为,业务中台就是对这种行为的抽象。

而数据中台就是参与这些业务,这些行为的实体的抽象,比如说我们参与了一个销售的行为,在销售的行为中,商品、订单、用户甚至优惠券都参与了这个行为,他们实际上都是一种实体,是参与整个销售行为的实体,所以说数据中台是对参与行为实体的抽象。

另外,数据中台的建设一定是自上而下的、是由业务驱动结合战略的,它是企业对自己的业务和数据的一个自省的过程,即企业到底有哪些资源,需要些什么样的业务。

数据中台,很像是一个数据中心,每天甚至每时每刻都在收集、挖掘各种各样的数据。一般来说它的产出是外界看不到的。用户画像或者说用户的需求画像是它的产出。然后各种小前端通过数据接口来孵化新的应用。

而业务中台,则是一个能同时支撑多个业务,让业务之间的信息形成交互和增强的机制。

中台建设的核心

第一,中台的建设一定是自上而下的,自上而下就是说中台的建设一定要依赖于强有力的行政支持,部门的配合,并结合企业战略规划。它一定是一把手工程,从企业战略的高度来看待,因为企业战略规划决定了我们中台的高度。

第二,复用只是表现,核心是对业务域的划分以及对业务域能力的暴露。

这句话什么意思呢?就是说当你看到企业可以快速的去支撑某个前端业务的开展,其核心实质上是底层,只有把我们所有的数据资源、业务资源规划好,才能具有这种能力。

第三,一定要站到“上帝视角”的高度,去全面梳理整个公司现有业务以及数据在各个部门的分布。

第四,中台驱动力一定是自上而下,从外至内,从全局出发的企业级工程。

企业到底需不需要数据中台?

作为一家企业的管理者,您是否希望您的企业能够比竞争对手更快、更好、更多的盈利?如果答案是肯定的话,那么,我们认为数据中台对您来说就是非要不可的。

纵观企业发展的历史,当企业发展到一定规模时,必须要比同行业竞争对手能够更有效、更快速地提供符合市场需求的产品和服务。

企业能否通过数字化运营制定出更好的竞争与运营策略,从而帮助其在激烈的竞争中取得优势,并在此过程中为企业创造出真正的价值尤为重要,而想要达到这样的目的,现有业务与新业务的数字化转型就成为了当务之急。

不过,由于不少企业在数据开发与应用开发之间存在着Gap,这就导致企业的数字化转型举步维艰,进展缓慢。

数据中台的出现,则弥补了数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题,从而能够帮助企业快速的实现数字化转型。

什么样的企业需要打造数据中台?

一般来说,拥有多个事业部、多个产品线,需要在众多产品线中形成数据共享和复用的企业,可以最大化数据中台的投入产出。当多个产品线、多个业务部门形成数据合力之后,数据的作用将得以最大化。数据中台的一个好处就是在开发一个新产品的时候,可以重用现有很多数据功能,新产品线在接入数据中台的情况下,能够快速构建上线。

实际上,企业是否应该使用数据中台,与企业规模并没有必然的联系。即使是规模很小的企业,也需要正确方式和架构来建设自己的数字化运营体系,数据中台正是提供了这样的方法论和体系架构。不过,虽然目前并不是所有企业都需要立刻使用数据中台,但从未来数字化驱动发展的趋势来看,仍需要为数据中台做准备,因为大多数企业的发展轨迹都是从单一业务线发展到多条业务线。

需要特别注意的是,建设数据中台并不是企业的最终目的,也不要为了建设数据中台而建设数据中台,更不能盲目跟风。数据中台的最终目的是要帮助企业实现数字化运营,成为真正数据驱动的企业。

基于此,我们认为数据中台作为一种方法论和体系架构,建议任何需要做数字化运营的企业,在建设之初就采用这样的方法论和体系架构。以此促使企业能够快速响应市场,比对手更加稳准狠的了解市场需求,快速生产出更适应用户需求的产品,达到在任何浪潮下都能够比竞争对手先行一步的目的。同时,数据中台所强调的精细化管理与低成本的生产,更能为企业节省不少的开支。

究竟什么是数据中台?

数据中台概念的出现,很大程度上是原来的大数据系统建设的ROI (投资回报率)不如人意,企业投入了大量的物力、财力和人力建设了大数据平台,却发现并没有给企业带来应用的价值,大数据平台更多的沦为“形象工程”,甚至产生了新的数据孤岛,更不用说实现数据能力的全局抽象、复用和共享了。

而数据中台可以说是为此类大数据平台打了个“补丁”,其全局的数据仓库、大数据协调共享等能力,真正解决了重复开发、数据标准不统一、数据孤岛等问题,从而提高了数据价值实现效率和ROI。

数据中台的发展过程

需要强调的是,数据中台的核心能力就是数据能力的抽象、共享与复用。

数据中台主要解决了什么?企业是否遇到了以下窘境?

企业在迈向数字化转型的道路中,往往因动力不足而力不从心,其主要原因表现:

1、企业管理过程中,存在人的任务分配、信息共享与交流等一系列问题。尤其是当前企业变化迅速,原有的组织架构、管理过程、规范都有可能面临调整、打破甚至重构;

2、无序且落后的企业IT架构,常常导致系统重复建设与维护,从而带来不必要的投资;

3、传统烟囱式的系统架构形成“信息孤岛”,导致业务系统不能横向扩展,难以支撑业务快速创新;

4、业务越来越复杂,而数据现状却仍表现的“脏乱差”,无法高效的进行数据治理,让企业在“数据黑洞”中无法自拔 。

除此之外,传统企业还面临着牵一发容易,动全身难的窘境,或许只是改动一个接口,却需要与众多供应商共同商议逐个修改。整体来看,企业数字化转型还面临着难度大、成本高、时间长等问题。

数据中台、数据仓库、数据集市、数据湖,它们到底有什么区别和关系?

数据仓库与数据集市的出现,就是为了解决信息化阶段OLTP(联机事务处理过程)在分析场景下的局限性,它们将OLTP中的数据采集过来,做成面向历史、主题、分析的一些数据集,从而可以轻松地做出OLTP难以做出的分析。

但是,随着互联网时代的到来,数据仓库的数据来源只在业务系统功能中,提供一些汇聚的业务信息,无法提供个性化的信息以及一些非传统业务数据源的信息。

另外,一些非传统业务数据源的信息一般存储在服务器日志中,那么大量且无效的数据如果都存储到数据仓库中,其效率之低和限制是无法想象的。

此时,数据湖和大数据平台的出现改变了上述局面,在这个阶段的数据仓库和数据集市,则基于大数据技术取得了进化,也就是说数据仓库不能解决的问题,我们用大数据数仓(基于大数据技术实现的数据仓库)来解决,大数据数仓解决不了的,我们用大数据平台来解决,大数据平台解决不了的问题,就需要数据中台来解决。

应该说数据中台是建立在数据仓库和数据平台之上的,让业务部门可以更好、更有效率的使用数据的运营管理层,并强调从工具和机制上支持对数据能力的抽象、共享和复用。

数据中台与传统大数据平台的区别

为了叙述方便,我们将传统的大数据平台定义如下:

  • 大数据基础能力层:Hadoop, Spark, Hive, HBase, Flume, Sqoop, Kafka, ES….

  • 在大数据组件上搭建的 ETL流水线,包括数据分析,机器学习程序

  • 数据治理系统

  • 数据仓库系统

  • 数据可视化系统


传统大数据平台架构图

我们可以看到,这里是传统的大数据平台的核心功能。在很多大数据项目里,把这些系统搭起来之后,每天可以生成业务报表,包括实时大屏,就算大数据平台搭建成功了。

数据中台提供的功能应该是大数据平台的一个超集。在大数据平台之上,数据中台应该提供下面的系统功能:

  • 全局的数据应用资产管理

  • 全局的数据治理机制

  • 自助的、多租户的数据应用开发及发布

  • 数据应用运维

  • 数据应用集成

  • 数据即服务,模型即服务

  • 数据能力共享管理

  • 完善的运营指标

综合上面的讨论,除了阿里提出的OneID, OneModel, OneService之外,我们认为,数据中台还应该符合以下要求:

  • TotalPlatform:所有中台数据及相关的应用应该在真正的统一平台中统一管理。如果有数据存储在中台管理不到的地方,有人在中台未知的情况下使用数据,我们就无法真正地实现对数据的全局管理。这也要求数据中台能快速支持新的数据格式和数据应用,便于数据工具的共享,而无需建立一个分离的系统。

  • TotalInsight:数据中台应该能够理解和管理系统中数据的流动,提供数据价值的定量衡量,明确各个部门的花费和产出。整个中台的运营是有序可控的,而不是一个黑盒子。用户可以方便地理解全局的数据资产和能力,从系统中快速获实现数据变现。


智领云云原生的数据中台架构

建立数据中台是否需要推倒原有的数据架构?

这是很多企业担心的问题,数据中台的建立并非将一些数据系统“推倒重来”,而是采用“渐进式”的方式,数据中台的部署需要根据企业的业务与管理成熟度、企业的总体规划以及技术发展趋势小步迭代,而数据的应用也会在迭代中逐步演进。

数据中台有两种建设思路,一种是顶层设计模式,一种是迭代设计模式。这个取决于企业目前的情况,企业在还没有任何IT资产或者数据积累的时候,可以考虑自上而下的顶层设计,因为一切正好刚刚开始;

如果企业已经有IT系统在运行,或者存在了数据烟囱的现象,那么推荐选择是迭代的模式自下而上的来进行中台的构建。这里有2个关键点:

第一,选择场景进行数据集成、开发和数据服务,达到效果后再慢慢合并其他业务/部门。

第二,需要一个能按需扩展的集群、管理和数据驱动的IT架构支持。

建设中台的坑

中台建设中最大的坑,就是数据成本、系统和人员成本未被计入中台建设的规划。

如果中台建设,只是单纯考虑业务整合、数据开发,但是忽略了数据、应用、环境,用户,数据IT资产的物理资源利用率的成本核算,那么其实是搭建了一个伪中台。

因为原本中台的目的是为了降本增效,以提升ROI,但是如果不提供以上这些成本的核算路径,那么ROI要么算不出来,要么更低;

另外一个坑是数据中台里的数据孤岛,数据中台一个重要的任务是打通不同的数据源,看似天经地义的事情, 其实是一个技术和操作难点 ;

再有就是数据源过多,造成数据治理陷入泥潭。不同格式,不同优先逻辑,不同上游来源,以及频次不等的上游更新频率等数据质量问题,都会造成中台的产能受阻;

最后则是中台不稳定,运维成本激增。“管杀不管埋”的中台模式对企业造成的伤害和没有中台其实是等价的,中台是一种模式,其背后是一整套完备的IT系统运作,只管中台应用, 不管中台运维,中台工程很容易做成面子工程。

中台的技术要点

数据自助、自主化(self-service data platform)是中台的一项重要功能,而这项功能的背后需要云原生的基础架构作为基础,以提供5项基础能力Scalability、Elasticity、Self-service and collaboration、Cost efficiencies 和 Monitoring and usage-tracking capabilities。

中台功能输出的另一个重要依赖是多租户管、安全性,以及依赖算法(而非人为)的资源分配策略,不然那么多人在平台上运行查询,很容易把资源消耗殆尽。

另外,中台的责任之一是避免企业重复造轮子,那么企业就必须要了解自己有什么轮子,分别创造到了哪里?数据门户提供的语义描述视角、结构查询视角和上帝全局视角,以及其关联的元数据管理需要自动的进行更新匹配,并且通过算法来进行告警和调优,以此能够清晰地展示出企业究竟有什么轮子,又分别创造到了哪里。

直播问答精选

1、哪些行业更适合使用数据中台?

其实,数据中台的建设并没有行业之分,业务相对复杂、渠道多、供应链复杂的企业适合建设数据中台。

2、硅谷的数据中台和传统大数据平台,还有国内的数据中台,怎么区分?

硅谷是没有数据中台这个概念的,但是硅谷企业的大数据平台大都体现了数据中台的思想。

3、智领云的平台可以在哪些云环境运行?

我们在Amazon,阿里云,华为云、腾讯云等主流云平台上都发布过生产系统,也在客户的私有集群上发布过。

4、智领云怎样帮助用户建设数据中台,在中台落地中起到什么帮助?

智领云可以帮助客户在没有大数据平台的情况下从0-1快速落地、持续迭代,或者是基于现有大数据平台建设中台的一整套方案,并结合硅谷方法论,帮助企业用户建设数据中台,发挥数据价值。

5、数据中台的理念近几年很热,做相关产品的公司也挺多,智领云的产品差异化在哪里呢?

智领云产品和竞品从技术上讲最大的区别就是云原生,容器化。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.