享受云原生技术红利,大数据不应该被落下

by June 2023-05-11

2021年8月,Databricks获得了16亿美元H轮融资,距离10亿美元的G轮融资刚过去7个月,这一轮融资之后,Databricks身价达到380亿美元,成为一家超级独角兽。

Databricks是一家大数据软件公司,提供用于数据集成、数据清洗、数据管理以及其他基于Spark的云服务。Databricks的成功给在大洋彼岸的众多中国创业者极大的信心,智领云CEO、联合创始人彭锋正是其中之一。

Databricks在数据层面的工作给予了彭锋很大的鼓励,多年在Twitter、Ask.com等硅谷公司从事大数据工作的他也非常看好Databricks。2016年彭锋从美国硅谷归来,创立了智领云,主要提供大数据相关产品和服务。

在Databricks大获成功的同年5月,智领云对产品进行了优化升级,加入了对Kubernetes的支持,推出了基于开源技术的云原生数据平台Kubernetes Data Platform(简称KDP),大大简化大数据应用的部署,为大数据应用拥抱云原生技术铺平了道路。这是一个创新同时也是大胆之举,开源的大数据组件繁多,技术门槛很高,而Kubernetes也以复杂著称,当大数据遇到Kubernetes,挑战可想而知。为何要推出这样一个平台?在如此复杂的状况下,智领云是如何推出一款可靠、易用的平台?彭锋对这些问题进行了解答。

云原生大数据平台来袭

毫无疑问,云原生是技术的发展趋势。由于云原生支持快速部署、具有跨平台能力等诸多优势,近年来得到快速普及。根据CNCF 2022的调查报告,有44%的组织已经在企业的生产环境中规模化部署云原生技术,35%的组织在生产环境中部分部署,没有尝试云原生技术的企业现在已经不到10%。

在拥抱云原生技术的过程中,不同类型应用的进展是不同的,其中无状态的应用(如Web服务)在云原生的路上走得最早,而有状态的应用(如数据库、大数据)则相对慢一些。背后的原因在于早期Kubernetes对于数据库和大数据这些有状态应用的支持不太好。

“但这个趋势是一定的,不管是有状态的Web应用还是无状态的数据库和大数据应用最终都会云原生化。”彭锋表示。

驱动这一趋势的正是云原生技术带来的诸多好处。一旦企业实现了部分业务云原生化,尝到了云原生技术的甜头之后,让数据平台实现云原生化也成了顺理成章的事情。彭锋认为,实现大数据平台在Kubernetes上运行有四个好处:

第一,统一管理。所有的工具都是统一的,所有的策略调度也都是统一的。

第二,资源的高效利用。以前,大数据平台和其他业务平台的资源是各自独立的,两个都要预留资源。现在资源统一混排,资源可以实现共享,大大提高了资源的利用率。

第三,弹性扩展。传统大数据平台主要依赖人,扩展时也需要人参与。现在可以借助Kubernetes的能力实现自动部署和扩容。

最后,简化运维,提升整个系统的稳定性。因为所有的应用都在Kubernetes上,那些在Kubernetes上开发的运维工具,在大数据应用中也可以用。

彭锋介绍,智领云KDP是目前市场上第一款公开的完全基于Kubernetes搭建的容器大数据平台,也是首个真正的Kubernetes云原生大数据平台。这里之所以强调“真正”二字,是因为KDP中的所有组件,都通过容器进行了重构,并纳入Kubernetes的标准管理体系。

为什么是现在?

当前,Kubernetes已经成为了云计算事实上的标配,也成为了云原生的最佳拍档,因此,加入对Kubernetes的支持,对产品进行升级,使得KDP成为了市场上首个可完全在Kubernetes上部署的容器化云原生大数据平台,这其实是顺应了技术的发展趋势。而真正支持智领云这样做的原因其实有两方面,首先,是Kubernetes对有状态应用的支持越来越成熟,很多数据库和大数据软件开始支持Kubernetes。特别是进入2021年,大数据领域出现了两件标志性事件,先是2021年3月Apache的Spark支持Kubernetes,随后的5月Kafka也公开支持Kubernetes,这意味着最核心的大数据组件现在都支持Kubernetes。

其次,是Kubernetes的接受程度已经达到了“比较适合在Kubernetes上做大数据的阶段”,目前已经有很多头部客户比较迫切地在寻找这样的解决方案。

当然,KDP支持所有主流的开源大数据组件,比如HDFS、Hbase、Spark、Flink、Kafka等,企业可以根据自己的需要选用这些组件。彭锋介绍说,智领云所做的一个重要工作是在Kubernetes和这些开源组件之间建立起了一个统一的中间层,打通了各个组件的联系,实现各个组件统一的管理和调度。

这件事做起来并不容易,尤其是在大数据组件标准化、统一资源管理,以及在Kubernetes环境中运行所有工作负载都是比较复杂的工作。比如要打通Hadoop、Hive、Spark之间的用户,在传统大数据平台上都需要复杂的手工配置,而现在,基于Kubernetes的KDP可以轻松打通用户管理,实现标准化,新组件只要一接入,就可以跟现有的系统方便地进行通讯。

彭锋解释说,智领云实际上做的是一个中间的管理层。这个中间管理层在此之前之所以难做,是因为Hive、Sprk、Kafka……都有自己的发布方式,大数据组件不标准,要实现统一管理非常困难。而现在在Kubernetes的支持下,所有发布管理方式都得以标准化,这也让构建一个中间管理层成为可能,而KDP就相当于一个中间管理层,打个比方,大家一定用过Windows的资源管理器,KDP就像是大数据组件的资源管理器,将所有大数据组件管理起来,让用户能够更加方便地使用,从而大大提升系统运行效率,降低运维成本。 

KDP管理界面图

具体而言,KDP能够标准化配置管理,即采用统一的Kubernetes文件配置方式,对大数据组件进行标准化的配置管理,简化大数据组件与Kubernetes集群的集成;实现资源高效利用,集群资源作为一个可共享的资源池,实现实时、离线作业的混部,集群资源利用率相较于传统大数据平台的30%提升到60%;弹性扩展,利用Kubernetes的弹性扩容技术,从容应对计算作业的性能瓶颈,实现计算资源及集群资源的动态扩容;简化运维,基于Kubernetes标准的Operator操作方式,统一运维界面完成大数据组件的部署、升级、扩容、备份等操作,提升运维效率。

KDP恰逢其时

很长时间以来,Hadoop一直是大多数企业的首选大数据平台。随着Hadoop日渐式微,特别是Cloudera宣布不再继续维护和升级自己的Hadoop版本CDH和HDP之后,大数据平台呈现多样化的特性,这给用户的选择带来一定困扰。再叠加大数据技术本身的复杂性,特别是基于开源的大数据平台,每个开源的组件都有自己的安装流程和运维机制,其安装和运维都对技术人员有着很高的要求,要把这些组件搬到Kubernetes上面临相当大的挑战。

用户的痛点也正是创业者的机会。作为一家根植于大数据市场的创新型公司,当很多人还在担心这项技术的成熟性时,智领云顺应技术趋势,打造云原生的大数据平台,这一步迈得可谓大胆且坚决。

彭锋说,和市场的其他大数据平台产品相比,智领云的大数据平台KDP的最大亮点是,可完全在Kubernetes上部署的容器化云原生大数据平台,将大数据组件及数据应用纳入Kubernetes管理体系,标准化系统管理;同时,KDP快速且易于与客户现有的各种系统和架构进行对接和适配。

“我们不是要给企业提供一个独立的大数据技术架构或者基础能力,而是给企业现有的开发数据平台上添加数据能力,这更轻量,也更符合云原生容易融合统一管理的发展趋势。”彭锋表示。

智领云KDP推出以后,受到了市场头部客户的积极响应。彭锋说,未来KDP会开源,走上以咨询和服务收费的模式。他的目标是通过KDP让更多的企业把数据平台迁移到Kubernetes,同时提供企业级安全、企业级的运营管理以及企业级的开发工具支持,最后把KDP变成一个解决方案的发布平台。

“如果这个平台的使用量足够大,我们可以为用户提供半成品的AI模块和大数据模块,用户可以通过很简单的方式,把AI和数据的能力组合成他们需要的业务应用,这是我们的终极目标。”彭锋说。

当下,大数据应用向云原生平台迁移的趋势也十分明显。根据Gartner的预测,部署在云原生平台上的数据应用将由2021年的30%增长到2025年的95%,也就是说到2025年,95%的数据应用都会运行在云原生平台上。CNCF的调查数据也佐证了这一趋势。根据CNCF 2022年的市场调查,71%的组织在Kubernetes中使用数据库,同比增长48%;35%的组织使用大数据,同比增长36%。从这些数据上看,智领云KDP可谓恰逢其时。

关于LinkTimeCloud 智领云 

智领云是国内云原生大数据技术的创新领导者,为企业级客户提供以云原生大数据平台为底座的云原生DataOps产品系列,包括云原生数据集成开发平台和云原生数据资产运营平台。智领云通过产品及服务帮助企业搭建数据和AI中台,轻松打造业务数据能力闭环,建立数字化运营体系,并最终完成数据驱动的数字化转型。

智领云已经服务了能源、教育、医疗健康、物联网、金融等行业国内外多家知名企业,与多个合作伙伴在云原生生态领域中展开紧密的合作,充分利用各自的优势,共同为企业客户提供更有价值的云计算、大数据产品和技术服务。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.