为什么说 DataOps 才是数据中台的关键点?

by June 2022-05-27

近几年,在疫情下的冲击下,那些想要求生、转型、寻求商业机会的企业,往往都绕不开“数据驱动”四个字。

步入数据化时代,企业如何借助数据驱动业务,商业模式、数据中台,以及最近大火的DataOps再次被推上热搜。

Salesforce让我们认识到SaaS商业模式的巨大潜力;而在国内风靡一时的中台,一直在肯定与质疑声中不断徘徊;崛起的DataOps又为何能成为数据中台的关键点,下面我们详细说来。两年前我们就曾发表过文章讨论过这个问题,《数据中台初探:热潮之下,企业究竟要不要做数据中台?》其实在硅谷的很多企业中,其变革应用程序架构、调整企业组织架构等方式与国内的中台建设不谋而合,并运用的相当成功。只是硅谷确实没有中台一词,‘中台’这个词可以说是国内特有,但是硅谷很早就开始‘中台’建设了。

而在《一文读懂 | 数据中台的核心能力》也曾详细说明过数据中台的核心能力。作为曾先后担任Twitter大数据架构师及技术带头人,Ask.com工程总监,拥有20余年软件开发,并在大数据与中台方面有着丰富实战经验的彭锋,正是因为在其任职Ask.com期间初识数据的威力,并在加入Twitter后更加深刻的认识到数据平台对于企业发展的重要性,如今彭锋博士将硅谷的“数据中台”方法论带入国内,创立了智领云科技,寄望于让更多企业看到云原生与数据中台成为IT架构趋势的必然性,更能够运用其技术与方法论快速帮助企业实现企业数字化运营。

在《智领云CEO彭锋博士深度诠释数字化转型及数据中台建设》中彭锋博士曾介绍过,2011年,自己加入了硅谷最早以数据为驱动的公司Twitter,他主要负责大数据平台组件,要做的事情就是让公司所有人不用再重复开发相关数据组件,就可以共享数据能力。正是利用硅谷典型的大数据平台架构,支持数据能力的复用与共享,短短三年间,Twitter就从80台机器的Hadoop集群发展到了8000台的规模。

图片图:Twitter大数据平台架构(来源:《云原生数据中台:架构、方法论与实践》) 

Twitter的大数据平台,为全公司提供了一个数据开发运维的平台,所有部门都在这个平台上做各种各样的数据应用,比如用户画像是增长部门开发的,产品部门用它来精准推荐产品,广告部门用它精准推送广告,其他部门用它精准定位用户。显而易见,全渠道的数据能力抽象、共享和复用就在该平台得以实现。整个公司建立在数据决策基础之上,利用数据驱动所有的产品与商业决策,且从未出现过数据孤岛与应用孤岛的问题。

那么,在数字化转型的道路上,企业数据智能一般会经历3个发展阶段:大数据平台建设阶段、数据管理及应用阶段和数据能力中台化阶段。目前大部分企业已经完成第一、第二阶段,那么第三阶段作为关键点,如何顺利完成则绕不开一个关键方法论的帮助——DataOps而它则是很多硅谷公司在解决第三阶段问题时普遍采用的方法论。 

在《数字化转型架构:方法论和云原生》一书中明确提及,云原生应用平台的发展将经历DevOps—DataOps—AIOps的演进路径。接下来我们将重点介绍以下几方面,怎样用对、用好数据中台?目前大火的DataOps究竟是什么?构建DataOps所需的通用平台,需要什么?以此来看看为什么说 DataOps 才是数据中台的关键点。

怎样用对、用好数据中台?

数据中台的价值更多地体现在与企业业务结合的能力矩阵维度,而不是简单地做一些数据标准化和工具。所以我们经常会听到寻求数字化转型的企业有这样的疑问:我们为什么要建数据中台?我们怎么用对、用好数据中台?

彭锋博士表示:“我们绝非为了建设数据中台而建中台,而是为了建设一个企业级的数据能力共享和复用平台,以此抢占先机,提供出比竞争对手更快更好的产品。” 

任何企业的商业目的都是为了盈利,尤其是在网络时代,很多产业形成了赢家通吃的局面,所以比竞争对手提供多快好省的产品才能够先行一步。而要取得竞争优势的关键则在于,一、快速响应市场,更快更深入地了解市场需求;二、精准服务用户,提供个性化符合用户最优体验的产品;三、降本,即以更低的成本生产,获取更大范围的试错机会;四、增效,即比对手更快地生产高质量的产品。

彭锋博士强调:“我们现在之所以要谈数据中台,是因为传统大数据平台在建设的时候没有建好,数据中台就是为了给传统大数据平台打补丁。”

数据中台的出现,弥补了数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题,从而能够帮助企业快速地实现数字化转型。 

Twitter就是最好的例子,在2011年以前,Twitter开发和发布产品的流程非常冗长,产品经理需要到各个部门调研可以使用的数据,并协调数据的生产化问题。在数据平台推行后,Twitter整个产品的开发和迭代流程从以月计改为以周计,活跃用户数也从2011年不到1亿,增长到2014年接近3亿。 

如今的环境也是一样,随着自助服务分析和机器学习的迅速发展,公司里的管道数量也随着数据分析师、数据科学家、数据工程师以及数据使用者业务部门增多而增多,问题的关键是,几乎每一个都需要专门的数据集和数据访问权限才能产生内容,而协调这些工具、技术和人员是一项巨大且耗费精力的工作,特别是在规模庞大的开发团队里,这也解释了为什么DataOps会发展起来。

大火的DataOps究竟是什么?

DataOps是硅谷公司在解决第三阶段问题时普遍采用的方法论,同时也是数据中台建设必须参考的一个方法论,这在一定程度上证明了DataOps的可行性。这在智领云曾发布的文章《一文读懂DataOps》中曾详细说明过。

在2018年Gartner发布的《数据管理技术成熟度曲线》报告中,DataOps概念被首次提出。 

维基百科对DataOps的定义是一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期,简而言之,就是提供一整套工具和方法论,让数据应用的开发和管理更加高效。但Gartner也指出,DataOps虽然可以降低数据分析的门槛,但并不会让数据分析变成一项简单的工作,与DevOps的落地一样,实施成功的数据项目也需要做大量的工作,比如深入了解数据和业务的关系、树立良好的数据使用规范等。 

图片图:Gartner对DataOps的定位(来源:Gartner官方)

DataOps的诞生并不是偶然,IBM商业价值研究院曾有过一份研究:数据科学家往往需要花费大量时间准备、验证和清理数据源,然后才能使用这些数据源训练数据模型,因此他们只能用极少量时间,去设计用于将数据转化为价值的AI模型。据估计,AI部署过程中有80%的工作都用于准备数据。

其实,我们发现DataOps与数据中台需要解决的问题是相类似的,它们都希望能更快、更好地实现数据价值,实现数字化运营,但两者侧重点却有所不同。

前者强调的是数据应用的开发和运维效率提升,后者强调的是数据统一管理和避免重复造轮子,是对数据能力的抽象、共享以及复用。也就是说数据中台描述的是最终目标,而DataOps对此提供一条最佳路径。 

图片图:DataOps架构(来源:Diving into DataOps: The Underbelly of Modern Data Pipelines韦恩·埃克森) 

因此,在大数据时代,DataOps才是数据中台成功的关键点。 

构建DataOps所需的通用平台,需要什么?

DataOps 的主要方法论仍处于快速发展阶段。像 Facebook 和Twitter 这样的公司通常会有专门的数据平台团队(Data Platform Team)处理数据运营并实现数据项目。但是,它们的实现方式大多与公司现有的 Ops 基础设施集成,因而不适用于其他公司。不过我们可以从它们的成功中学习经验,并建立一个可以由每家公司轻松实施的通用大数据平台。要构建 DataOps 所需的通用平台,一般需要以下技术。

云架构:必须使用基于云的基础架构来支持资源管理、可扩展性和运营效率。

容器:容器在 DevOps 的实现中至关重要,在资源隔离和提供一致开发、测试、运维环境中的作用也至关重要。

实时和流处理:目前来看,实时和流处理在数据驱动平台中变得越来越重要,它们应该是现代数据平台中的“一等公民”。

多分析引擎:MapReduce 是传统的分布式处理框架,但Spark 和 TensorFlow 等框架日常使用越来越广泛,应该进行集成。

集成的应用程序和数据管理:应用程序和数据管理(包括生命周期管理、调度、监控、日志记录支持)对于生产数据平台至关重要。DevOps 的常规实践可应用于应用程序管理,但是数据管理及应用程序与数据之间的交互需要很多额外的工作。

多租户和安全性:数据安全性可以说是数据项目中最重要的问题,如果数据无法得到保护,数据使用也就无从谈起。该平台应为每个人提供一个安全的环境,使每个人都可以使用这些数据并对每个操作进行授权、验证和审核。

DevOps 工具:该平台应为数据科学家提供有效的工具,以分析数据并生成分析程序,为数据工程师提供大数据流水线的工具,并为其他人提供消费数据和结果的方法。

图片
图:DataOps开发流程(来源:智领云官网)


践行云原生DataOps,需要正确的方式和工具。 

就像前文所述,虽然DataOps可以降低数据分析的门槛,但不会让数据分析变成一项简单的工作。DataOps的使用与发展,也是一个需要有正确工具和正确思维加持的持续过程,它的目标是用正确的方式实现数据智能项目落地,解放数据的功能属性,形成生产力。 

在数字化浪潮里,企业想要利用“数据、数据平台、DataOps”成功,不得不借助平台及工具的力量。所以,当下我们能否用一款工具及平台解决目前繁杂的数据分析及开发问题,在实践中降低数据分析门槛?答案是有!

践行DataOps,它就是由智领云自主研发的一款即开即用,快速搭建数据工程的轻量级云原生大数据开发平台–BDOS Online,这款简单、易用、轻量级的自助大数据开发与运营平台,无需下载、无需配置,注册即可开箱使用大数据工程所需核心功能,帮助开发者及企业开启大数据之旅。

现在您就可以扫描下方二维码,全面了解BDOS Online的功能和价值,免费注册BDOS Online,尽享28天的免费使用权益。

图片

#智领云公司简介#

武汉智领云科技有限公司成立于2016年8月,专注于云计算、大数据领域前沿技术的研发。公司创始团队成员来自于推特(Twitter)、苹果(Apple)和艺电(EA)等硅谷知名企业,是硅谷最早一批从事云计算和大数据研究与实践的技术专家,拥有十多年的云计算、大数据系统的系统架构和系统开发经验。公司作为拥有云计算、大数据领域核心技术的高科技企业获得了来自硅谷和国内知名投资人和投资机构的投资。公司于2019年4月获得线性资本数千万元pre-A轮融资,2020年7月获得由金沙江联合领投、线性资本跟投的数千万元A轮融资。

公司为企业级客户提供以云原生DataOps为底座的大数据平台数据中台/大数据平台数据中台系统解决方案;帮助企业搭建数据和AI中台实现云原生DataOps,轻松打造业务数据能力闭环,掌握全面、及时、更多维度的业务现状,提升数据驱动应用的迭代和发布速度;实现系统资产(人/资源/数据/应用) 在同一系统中的统一管理,建立数字化运营体系,并最终完成数据驱动的数字化转型。

公司在能源、教育、医疗健康、物联网、金融等行业同国内外很多知名企业和上市公司建立了合作关系,包括:D2IQ、埃克森美孚(中国)、一汽集团、极狐(GitLab中国)、南瑞信通、万达信息股份、中亦安图、深圳智宇、长江云通、湖北楚天云、万方数据股份、天喻教育、广州畅驿、上海和今、南京赛信等。公司与合作伙伴在多个领域中展开紧密的合作,充分利用各自的优势,共同为企业客户提供更有价值的云计算和大数据产品和技术服务。

文章来源:

《云原生数据中台:架构、方法论与实践》作者: 彭锋 / 宋文欣 / 孙浩峰 

《为什么说数据管理的下一步是DataOps》作者 | 彭锋  策划 | 褚杏娟

《智领云CEO彭锋博士深度诠释数字化转型及数据中台建设》作者 | june

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.