硅谷速递 | DataOps常见问题、错误与相关概念

by June 2020-08-10


嗨,大家好,智领云科技全新栏目【硅谷速递】重磅来袭,每周一为大家速递美国硅谷最精彩的科技文章和学习资料,简约不简单是本栏目的最大特点,3篇短小精悍的文章,助你每周快速精准Get一项最新技术点!把握技术风向标,了解行业应用与实践,就交给“硅谷速递”吧~

速递先知

本期我们特别为大家带来三篇有关「DataOps」的硅谷前沿技术文章:

  • 关于DataOps的十个常见问题
  • DataOps的5个常见错误
  • 关于2020年的“Ops” – DevOps、DevSecOps、DataOps

关于DataOps的十个常见问题

随着DataOps的曝光率不断增加,人们第一次遇到了这个术语。本文将通过有关DataOps最常见的十个问题,来带领您简要了解DataOps。

1.DataOps是什么?

DataOps是技术实践、工作流、文化规范和结构模式的集合,分别体现在其以快速的创新、体验,向客户传递新见解;高质量、低错误率的追求;跨人员、技术和环境的复杂协作;明确的衡量与监测以及透明的结果。
解释DataOps的最佳方法是对其知识遗产的回顾及对其试图解决问题的探索,那么DataOps的知识遗产是什么?

2. 什么是DataOps的知识遗产?

DataOps将敏捷、DevOps、精益和统计过程控制应用于数据分析的开发和运营,共同构成了DataOps的知识遗产。

3. 什么是敏捷开发?

为了使DataOps更有效,DataOps将敏捷开发引入了数据分析中,使数据团队和用户可以更加有效地协同工作。随着创新速度的提高,团队可以根据用户的持续反馈不断重新评估其优先级,并更轻松地适应不断变化的需求。

4.什么是DevOps?

DevOps是一种使用自动化来加速构建生命周期的软件开发方法。 按需利用IT资源,自动化代码的集成、测试和部署,致力于软件的持续集成和持续交付。软件开发和IT运营的合并减少了部署时间,缩短了上市时间及软件发布周期,最大程度地减少了缺陷并缩短了解决问题所需的时间。

5.什么是精益制造,它与数据分析有什么关系?

精益制造是一种起源于日本制造业的方法,强调在不牺牲生产率的情况下将系统内的废物减至最少。在数据分析的数据管道中,通过SPC(统计过程控制,一种强大的精益制造工具)协调、监控和管理数据管道,可以显着提高数据分析效率、质量和透明度。

6.DataOps试图解决什么问题?

DataOps旨在控制数据分析的工作流和流程,消除阻碍数据组织实现高水平生产力和质量的障碍,缩短从提出新想法到部署完成的分析之间的“周期时间”。

7. 一个DataOps组织是什么样的?

DataOps统一所有开发和运营工作流,将数据分析管道重组为服务(或微服务),把从数据汇聚到数据展示的完整阶段的所有工作都在自动化流程下进行。由于错误而导致的计划外工作减少了99%以上,数据组织不再依赖希望和英雄主义,数据团队能够根据适合其工具链的迭代节奏即高效协作,又独立工作。

8.如何证明DataOps确实在为企业增加价值?

DataOps为数据运营和分析开发提供了前所未有的透明度,企业组织可根据其特定需求来轻松自定义指标,如团队协作、错误率、生产率、部署、测试和交付时间有关的指标,并通过对指标的度量进行效果量化。

9.DataOps不仅仅是DevOps for Data吗?

“DataOps”一词传达了数据分析可以实现使用DevOps实现的软件开发效率,帮助数据团队在使用新的工具和方法时,把数据开发的质量和周期时间方面提高一个数量级。DataOps包括DevOps和其他方法。

10.在哪里可以买到DataOps?

DataOps解决了广泛的工作流程问题,包括分析创建和端到端数据操作管道。它不是可以购买并忘记的工具。

最后,DataOps是在炒作吗?

DataOps是基于坚实的基础,包括敏捷开发、DevOps、精益制造和统计过程控制。数十年来,这些成熟的方法已为企业增加了价值。那么,您觉得呢?

DataOps的5个常见错误

在企业为切换DataOps做好准备的同时,对DataOps的理解和实践仍然存在一些误区,本文将简要介绍在使用DataOps时可能犯的五个常见错误。

错误1:像对待DevOps一样对待DataOps

DataOps不仅仅是将DevOps应用于数据分析。如果使用DevOps迭代并减少数据建模的生命周期,那么将失去重点。

DataOps具有数据管道的关键组件。如果将系统视为工厂:数据进入并通过DataOps分析侧设置的管道进行处理,通过统计过程控制工具协调、监控和管理数据管道,敏捷开发则使用该数据加速产品开发,DevOps不断创新处理数据管道的算法。如果坚持只使用DevOps,则将会错过其他两个关键组件。

需要做的是:敏捷开发、精益、DevOps并行应用于数据分析的开发和运营。

错误2:协作程度不高

就数据管道而言,协作显得尤为重要。DataOps不仅需要数据团队,还需要业务中的其他部门的合作和支持,以及利益相关者的大力支持。
如果没有适当的协作,则可能花费数月的时间才能通过数据管道进入生产环境。企业必须赋予团队自由进行协作和执行流程的自由。否则,您将在瀑布式环境中“执行” DataOps。

需要做的是:赋予团队自由进行协作和执行流程的自由。

错误3:透明度不够

数据科学家需要前所未有的访问权限,这些访问权限下的数据可能在十年前被标记为不相关的数据。如AI交易中的无人监督和半监督系统需要大量数据用于训练集,如果不允许数据科学团队收集和清理此类数据所需的创造性自由,则可能无法获得所需的见解。

需要做的是:让数据团队自由地做自己最擅长的事情。

错误4:流程与业务目标不一致

巩固流程与业务目标保持一致的文化,更多的数据访问意味着数据团队注意力的分散。因此,DataOps必须制定计划,将数据收集、清理和洞察的各个方面指标整合到可衡量的KPI中。只有当有一种方法可以快速响应数据时,培养提高速度和准确性的过程才有用,对客户流失的洞察才会更准确。
需要做的是:确定关键的KPI,并围绕这些目标调整DataOps。

错误5:尚未培养DataOps文化

消除孤岛的一部分是将整个公司带入DataOps。随着数据开始驱动业务决策,如果整个工作场所的文化都没有采用数据驱动的做法,那么DataOps计划可能无法获得想要的结果。例如,数据团队现在拥有运行诊断程序,提取数据和构建新模型的自由和自主权,但是如果最新报告中的预测在产品经理的办公桌上放了一个月,而管理部门的官僚机构却团结了起来,这并不是DataOps文化。

需要做的是:全面放松瀑布管理,让团队跨职能。

因此,在不修改公司文化和基础架构的前提下,容纳组织可以访问的数据是有限制的。企业实施数据结构和ML / DL计划,需要一个清晰的计划和对传统业务结构的改造。

关于2020年的“Ops” – DevOps、DevSecOps、DataOps

数字化时代的今天,或多或少,所有事情都是通过软件或在软件上发生。制造所有这些令人垂涎的软件和软件公司的公司已经解锁了我们都必须调查和了解的内容,直到2020年。因此,了解与软件开发方法相关的概念显得如此重要。本文将为您简要介绍2020年的3个”Ops”:DevOps,DevSecOps和DataOps。下面将这些术语分解为:

  • DevOps =开发和运营
  • DevSecOps =开发、安全性和操作
  • DataOps =数据和操作

DevOps

DevOps为公司文化、工具和实践的使用带来了新纪元。作为DevOps方法的一部分,软件开发和IT运营部门/团队不再处于孤立的“孤岛”中,而是作为一个团队在不间断的流程中工作,工程师在产品的整个生命周期中进行工作,使得工程师具备了一整套技能和更广阔的视野,而不仅限于一个功能或领域。

团队生产流程(开发,测试和生产环境)的DevOps流程无限循环模型如下所示:

DevSecOps

在 DevOps 协作框架下,安全防护需要贯穿整个生命周期的每一个环节,因此催生出了“DevSecOps”。在所有步骤都充分确立了IT安全性和质量保证的前提下,进行无限循环端到端的过程,则称为DevSecOps。即DevSecOps将安全策略贯穿于DevOps的始终。

DevOps / DevSecOps方法不仅着眼于部门/团队成员(软件开发、IT操作和IT安全)之间的集成和紧密协作,而且还依赖于自动化。 自动化加快交付流程,使产品可以快速进入市场并跟踪市场响应,快速采取行动。

DataOps

企业依赖于良好的数据质量、解释及处理能力,才能基于数据做出响应并准确地采取行动。在DevOps的发展过程中,DataOps致力于减少数据科学/数据分析环境中数据流的端到端周期时间。从原始数据访问到创意、模型创建、图表和图形,都依赖于创新和工具。

数据科学环境中的数据流进入流水线,进行一系列计算后,以报告、模型和视图的方式结束循环。数据流水线的工作是对数据进行质量检查并管理环境的效率、约束和正常运行时间。数据流水线和计算的组合通常称为“ 数据工厂”。DataOps就是用来编排、监控和管理数据工厂的全部。

与DevOps相比,DataOps为数据科学家提供了创新的环境。DataOps的生命周期与DevOps共享相同的迭代过程,但是它包含两个活动管道。

更多关于DataOps的详细定义,可关注智领云技术分享博客文章:
大浪淘沙后 DataOps依旧
深入DataOps:现代数据流水线的精髓

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.