DataOps: 大数据新战线_数字经济

首页 > 正文

DataOps: 大数据新战线

虽然“大数据”概念已流行十余年，但大多数企业仍然不能真正实现运用大数据进行数字化转型。而 DataOps 技术的出现，正好为普通企业的数字化转型带来了新希望。本文简要介绍了 DataOps 的基本概念，并解释了为什么 DataOps 对每个想要从数据中获取真正价值的公司都至关重要。

发布时间：2022-12-26 14:48 来源：数字经济杂志作者：彭锋

自流行词“大数据”出现十多年后，大数据似乎只对少数公司有用。在硅谷，几乎所有的独角兽企业都广泛使用大数据来推动他们的数字转型的成功。在中国，像BAT这样的公司已经掌握了大数据的艺术，同时我们也有像字节跳动这样主要以大数据技术为基础的超级独角兽公司，令人遗憾的事实是，对于大多数公司来说，大数据要么仍然是流行词，要么的确是难以实现。幸运的是，一门新学科正在崛起，是解开普通公司数据能力，推动公司数字化转型的关键。它就是DataOps，与DevOps明显相似的名称以及与DevOps类似的软件开发角色，是数据工程师希望简化数据的使用并真正实现以数据来驱动企业成功的方法。

什么是DataOps

DataOps是一种面向流程的自动化方法，由数据分析团队使用，旨在提高质量并缩短数据分析的周期时间。

DataOps的定义会随着时间的推移而发展，但其关键目标非常明确：提高数据分析的质量并缩短数据分析的周期。

DataOps并不会使数据分析变成一项简单的工作。实施成功的数据项目仍然需要大量工作，例如深入了解数据和业务的关系，良好的数据使用规范以及一个公司的数据驱动的文化培养。不过，DataOps将极大地提高人们使用数据的效率并降低使用数据的门槛，公司可以更快、更早、更好地开始使用数据，并且成本和风险更低。

DataOps解决的问题

大数据的大多数应用可以分类为AI(人工智能)或BI(商业智能)。此处的AI是指广义的人工智能功能，包括机器学习、数据挖掘以及其他从数据中获取以前未知知识的技术。BI则是更多地使用统计方法将大量数据汇总到更简单的报告，供人们理解。简而言之，AI使用各种数据算法来计算新的东西，BI则是统计人们可以理解的数字。

编写AI/BI程序并不难。你可以在几个小时内设置一个TensorFlow的人脸识别程序。或者使用Matlab绘制一些数据，甚至使用Excel也并不难实现这个目的。问题在于，要实际使用生产结果来支持面向用户的产品或根据这些神奇的数字来决定公司的命运，你需要的不仅仅是手动工作。

DimensionalResearch的一项调查发现，对于想要实施大数据应用的公司来说，以下问题最为困难：确保数据质量;控制成本;满足业务需求和期望;量化大数据项目的价值;很难找到具有大数据专业知识的人;修复性能和配置问题;选择正确的数据框架;技术资源不足;保持运行可靠性;数据项目花费的时间比预期的要长;要管理的技术或供应商太多;开放对更多消费者的数据访问;难以创建可操作的信息;复杂问题解决和调试。

谷歌数据分析师的另一项研究发现，对于大多数机器学习项目，只有5％的时间花在编写ML代码上，另外95％的时间用于设置运行ML代码所需的基础设施。在这两项研究中，我们可以很容易地看到许多艰苦的工作实际上并不是在编写代码。整个基础设施的准备工作以及高效运行生产级别的代码是非常费时费力的，而且经常伴随着各种风险。

在谷歌的研究中，他们引用了我的前同事JimmyLin和DmitryRyaboy(来自推特分析团队)的话：我们的大部分工作可以被描述为“数据管道工”。实际上，DataOps使管道工的工作更简单和高效。

DataOps目标功能

DataOps旨在减少整个分析周期时间。因此，从搭建基础架构到使用数据应用的结果，通常需要实现以下功能：

部署：包括基础架构和应用程序。无论底层硬件基础设施如何，配置新系统环境都应该快速而简单。部署新应用程序应该花费几秒而不是几小时或几天。

运维：系统和应用程序具备可扩展性、可用性、监视、恢复和可靠性。用户不必担心运维，可以专注于业务逻辑。

治理：数据拥有安全性、高质量和完整性，包括审计和访问控制。所有数据都在一个支持多租户的安全环境中以连贯和受控的方式进行管理。

可用：用户应该能够选择他们想要的工具，并根据需要轻松运行它们。应对不同分析、ML、AI框架的支持整合到系统中。

生产：通过调度和数据监控，可以轻松地将分析程序转换为生产应用，构建从数据抽取到数据分析的生产级数据流水线，并且数据的使用应该很容易由系统管理。

简而言之，它类似于DevOps方法：从编写代码到生产部署的路径，包括调度和监视，应由同一个人完成，并遵循系统管理的标准。与提供许多标准CI、部署、监控工具以实现快速交付的DevOps类似，通过标准化大量大数据组件，新手可以快速建立生产级的大数据平台并充分利用数据的价值。

DataOps方法论

DataOps的主要方法论仍处于快速发展阶段。像Facebook和Twitter这样的公司通常会有一个专门的数据平台团队处理数据运营并实现数据项目。但是，他们的实现方式大多通过公司现有的Ops基础设施集成，因此通常不适用于其他人。我们可以从他们的成功中学习经验，并建立一个可以由每家公司轻松实施的通用大数据平台。

要构建DataOps所需的通用平台，我们认为需要以下技术：

云架构：使用基于云的基础架构来支持资源管理、可扩展性和运营效率。

容器：容器在资源隔离和提供一致的dev、test、ops环境中的作用对于实现数据平台至关重要。

实时和流处理：实时和流处理现在在数据驱动平台中变得越来越重要，它们应该是现代数据平台的一等公民。

多分析引擎：将MapReduce传统的分布式处理框架和Spark、TensorFlow等日常广泛使用的框架进行集成。

集成的应用程序和数据管理：

DevOps的常规实践可以应用于应用程序管理，但是数据管理以及应用程序和数据之间的交互需要很多额外的工作。

多租户和安全性：该平台应为每个人提供一个安全的环境，以便每个人都可以使用这些数据并对每个操作进行授权、验证和审核。

Dev和Ops工具：该平台应为数据科学家提供有效的工具，以分析数据并生成分析程序，为数据工程师提供大数据流水线的工具，并为其他人提供消费数据和结果的方法。

云原生DataOps应用场景

对于中小客户，可以直接在公有云使用DataOps，开箱即用、无需运维、按需付费。有大量的数据应用可供参考和直接使用，产生的数据应用可以支持生产决策,如果需要私有发布可以快速迁移。

对于大中型企业,在公有和私有云上建设云原生大数据平台，通过标准化组件降低运维复杂度及成本。通过资源混排以及更细粒度的资源调度提高资源使用效率。

对于大型集团型企业，在私有、混合云上建设私有DataOps，允许业务部门以多租户方式共享数据平台能力，避免重复建设，便于内部各部门间应用隔离、资源计费、提升数据ROI。

云原生DataOps构建的典型应用场景包括：数据集成和交互查询；实时大屏展示；数据驱动应用；数据API服务；机器学习模型；BI报表。

践行DataOps需要合适的工具

目前的大数据技术对于普通人来说仍然太难使用。部署一个适合生产环境的数据平台仍然是一项艰巨的任务。对于已经开始这一过程的公司来说，他们的数据平台团队大部分时间仍在做相似的事情，就像重新造轮子。

有些公司已经意识到这些问题，并开始采用不同的方法来解决这个问题。其中一些使用基于容器的解决方案，另外一些以Hadoop为中心构建其平台。

但对于企业用户来说，更加容易践行云原生DataOps方法是找到一款正确、合适的工具来帮助他们实践DataOps方法论。实际上，我们可以使用诸如新一代在线DataOps大数据平台——BDOSOnline这样的工具及平台，解决目前繁杂的数据开发问题，在实践中降低迈入数据大门的门槛。

BDOSOnline是基于云原生DataOps方法论及架构体系进行的大数据平台的产品实践。在云平台上运行大数据应用，使数据不再孤立地分布于多个云、位置的孤岛中，而可以从任何地方流畅安全地进行移动，并以一致、整体的方式管理数据从准备到报表阶段的整个生命周期。通过自动化、面向流程的数据分析方法，将人员、流程和技术进行结合，极大简化数据管道并提高数据运营效率。为数据团队在统一环境进行高效协作提供便利，轻松地对数据系统作出频繁和可预测的重大变更。为高质量数据提供访问权限，保持安全和隐私控制，对数据分析管道进行全流程监控，从而帮助企业构建完整的、全功能的一站式DataOps流程。（文︱彭锋智领云联合创始人、CEO）

关键词阅读:

每日必读

专题 访谈

2022(第五届)行业信息化技术创新发展峰会

“赛道转换时代信创启迪未来”2022(第五届...[详细]