DataOps:不仅仅是数据管道

by June 2021-11-16

DataOps 定义 

DataOps 是一种数据工程方法,旨在为分析和数据科学快速、可靠和可重复 地交付生产就绪数据。 除了速度和可靠性之外,DataOps 还通过支持数据版本 控制、数据转换和数据沿袭的工程学科(专业)来增强和推进数据治理。 DataOps 支持业务运营的敏捷性,能够快速满足新的和不断变化的数据需求。 它还支持 可移植性和技术运营敏捷性,能够跨本地、云、多云和混合数据生态系统中的多 个平台快速重新部署数据管道。 

重新定义 DataOps 

上面的定义是准确但不完整的。它代表了对 DataOps 的常见误解——仅仅 关注数据工程。缺失的部分是缺乏对数据消费的关注,尤其是数据科学应用。让 我们重新定义它:DataOps 是一种工程方法论和一套实践方法,旨在快速、可靠 和可重复地交付生产就绪数据以及运营就绪分析和数据科学模型。 DataOps 通 过支持数据版本控制、数据转换、数据沿袭和分析模型的工程学科来增强和推进 数据治理。 DataOps 支持业务运营敏捷性,能够快速满足新的和不断变化的数 据和分析需求。它还支持可移植性和技术运营敏捷性,能够在本地、云、多云和 混合生态系统中的多个平台上快速重新部署数据管道和分析模型。 尽管此定义主要是技术性的,但重要的是要认识到 DataOps 具有业务驱动 力和优势,并且还具有重大的组织和文化影响。 DataOps 的成功需要关注四个 方面——业务、流程、文化和技术。 Wayne Eckerson 先生的 DataOps 框架提供 了流程和技术解读。

DataOps 方法论 

基于 DevOps——一种经过验证的提高新软件功能交付速度的方法—— DataOps 应用了具备自动化支持的持续构建、测试和发布周期的相同原则。软件 的构建是通过一系列快速迭代完成的,可以做到快速发现需求、开发软件的工作 模型并与业务相关方合作测试这些模型。当构建和测试流程交付了具有足够功能 以用于业务运营的工作软件时,软件将被发布并从开发级提升到生产级。其底层 的方法学称为持续集成/持续开发或 CI/CD。

点击【下载】原文阅读

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.