“纯K8s”才是大数据的味道
“云原生大数据平台的标准,就是能否部署在K8s环境中,不管是私有云,还是公有云。”李峰不想纠缠在“云原生”或“伪云原生”的技术争辩。他只想强调很简单的“标准”——无需反复折腾物理架构的配置,也无需熬夜改造平台代码,只要能将整套大数据平台顺利部署在K8s之上,就是“云原生大数据平台”。
开发者的梦想
“云原生是几代开发者的梦想。”李峰是智领云高级研发经理。他们这代四十不惑的开发者都有梦想——不想看着团队的小伙伴,在新系统上线时“烧香拜佛”,因为那种保佑一点用处也没有;也不想看见软件工程师再去分心物理基础架构复杂的配置,因为那与他们的主业无关。
“智领云的软件架构从未改变,云原生正在引导大数据走在正确的路上。”李峰就职于智领云。这家公司的两位联合创始人,均来自硅谷最早的大数据团队。从2008年开始,他们先后在Ask、Twitter、EA三家知名公司,负责组建大数据平台。改变出现在2016年。
云原生概念是由Pivotal公司的Matt Stine在2013年提出,随后CNCF(云原生计算基金会)于2015年成立,并定义出容器、微服务、DevOps、CI/CD等云原生的基本特征。智领云则成立于2016年,属于典型的云原生一代企业。
这条简单的时间线,就勾勒出智领云的技术特征。虽然当时K8s还不像现在这么火,但在Mesos上运行Spark已经得到大规模验证,这至少说明容器这条路能够走通。或者说,延续容器技术路线的智领云,没有经过Hadoop的蜕变,也无需进行痛苦的云原生改造,这家公司就是那种“生于云原生、长于云原生”的企业。
活的云原生大数据
“我终于见到了活的云原生大数据。”其实,每当听到用户这样的反馈,李峰脑子里首先想到的就是“节奏”。5年前的中国企业,或许还不会愿意为“云原生”的大数据平台埋单,但现在他们苦“非云原生”久已,企业希望进一步提高计算、存储等资源的利用率,也不再能忍受部门间相互的“抢占”资源。
确实如此。
中国初代大数据企业,多诞生于2012年前后。在经过最初两年无底线的近身肉搏后,能够活下来的企业都是好样的,在技术上应该都有两把刷子。但受当时技术条件限制,传统大数据平台的短板和种种弊端,也开始逐步显现。
例如,多个部门共用集群,没有资源隔离和限制,且互相影响;系统依赖复杂的手动部署,且运维运营成本较高;资源利用率低,且难以集成既有数字化系统;没有标准的大数据组件发布流程,无法形成客户的自主数据能力。
云原生是从“根”上解决了上述问题。“云原生大数据平台”可以实现存储与计算分离、多租户之间的资源隔离,资源动态扩容和缩容、计算引擎支撑多数据源、湖仓一体,并与传统数仓兼容。
但“理论”上的功能,也可能只是PPT上的理想。这也才有了文章开篇所述的“云原生”与“伪云原生”的判定“标准”——无需反复折腾物理基础架构的配置,也无需代码改造,能顺利部署在K8s环境中,就是真正的“云原生大数据平台”。
不能否认,多数大数据企业已在K8s方面做了很多工作,但智领云的差异化在于,其构建的是首个真正的“纯K8s”云原生大数据平台。平台中的所有组件,都通过容器进行了重构,而不仅仅是一部分。
这样做的价值也显而易见。或者可以类比,卡塔尔是个不缺钱的国家,但世界杯期间酒店接待能力仍是有限。解决此问题其实也相当简单,卡塔尔建设了拥有6000间房间的集装箱酒店,“集装箱”内水、电、网,以及卫生间、行李柜、吧台等设施一应俱全。
而且不出意料,这样的“集装箱”酒店都是Made in China,在中国生产制造,搬到卡塔尔就能交付组装成“球迷村”。如果球迷持续涌入,需求量持续增长,中国的制造企业要多少有多少。
这就是“云原生大数据平台”的优势,容器即是“集装箱”,其可实现数据采集、数据清洗、数据加工、数据建模、数据分析的全链条无缝衔接,应用开发与应用应付也无缝集成,即使跨越不同的环境,只要底层基础设施是K8s环境,大数据平台就可无需改造地部署。
此外,“云原生大数据平台”的底层支撑,是一个全局共享的平台。用户可以将既有的系统(物理基础设施)迁移至资源池,实现更高的资源利用率。同时,云原生的存算分离架构,还可以分别管理冷热数据存储,即针对不同的应用场景,选择机械硬盘、固态硬盘、对象存储等不同的存储介质,以降低存储成本。这就像“集装箱”酒店,可与卡塔尔原有的五星级酒店,共同构成游客接待能力。
“纯K8s”的数据平台,还去除了对Hadoop的依赖,可以直接在K8s环境中运行所有工作负载,统一资源管理,便于多租户计费管理,大幅降低运维成本。而且单一节点的崩溃,也不影响业务进程,因为30秒后,其应用负载就会自动地在其他节点中“满血复活”。
不仅如此。
“纯K8s”大数据还将推动智领云再向前走一步。智领云的BDOS Online平台已经发布,这就是典型的基于SaaS服务的“数据云”。用户可以在线上直接使用BDOS Online,免费体验云原生大数据平台和未来大数据应用开发模式的魔力。
智领云的生态
另一价值即是生态。
其实,云原生大数据企业最不担心的就是生态友好,其天生就对合作伙伴开放。对项目型合作伙伴,智领云真正实现了DataOps,在测试环境中运行后即可发布,而不用顾忌生产环境的网络、存储、计算资源配置。
技术型合作也能从智领云找到“平台级服务”。智领云BDOS平台可提供数据采集、数据治理、数据分析、机器学习、BI报表、数据服务、数据应用发布等能力组件,上述“平台级服务”会开放给生态伙伴。例如,BI报表领域的帆软、容器领域的博云,数据中心操作系统领域的Mesosphere,都是智领云的技术型合作伙伴。此外在数据治理、知识图谱、物联数据采集、时序数据库等领域,智领云的“平台级服务”,同样开放给生态伙伴。
IaaS层的合作伙伴同样喜欢接受“纯K8s”的云原生大数据平台,智领云正因此成为公有云的“流量入口”。智领云向下可与阿里云、华为云、腾讯云等公有云服务商对接。而且不管是是私有云,还是公有云,只要提供标准的K8s环境,智领云的大数据平台都可以轻松与其“兼容“和“适配”。
这也正是“云原生大数据”平台的生态价值,项目型合作伙伴降低了交付的门槛;技术型合作伙伴得到了“平台级服务”;IaaS合作伙伴找到了“流量入口”。而这就是“云原生大数据”独特的能力,也是“纯K8s”才能有的大数据味道。
留言
评论
${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}}说 · ${{item.date.slice(0, 10)}} 回复
暂时还没有一条评论.