现代数据基础设施架构初现：2021

分享阅读：Emerging Architectures for Modern Data Infrastructure

作者：Matt Bornstein, Martin Casado, Jennifer Li

推荐人：金沙江创投合伙人温绵绵(Mandy)

（欢迎点击文末链接阅读原文）

推荐语：

过去几年，北美企业服务市场如火如荼，我们不仅在软件领域见证了众多独角兽、十角兽以惊人的速度诞生；在数据基础设施领域，我们同样看到以Snowflake为代表的云原生数据仓库的稳定发展和以Databricks为代表的湖仓一体结构的日渐清晰。

人工智能与机器学习的应用越来越普及，已经成为众多传统公司提升效率和收入的关键。中国的云服务市场和企业服务市场尽管尚在早期，我们也已经欣喜地看到越来越多优秀的公司和团队在数据基础设施领域崭露头角。

A16Z在20年和21年分别发表了2篇关于现代数据基础设施架构的文章，探讨和分析了基于分析系统和业务系统的三种通用架构图，对于数据基础设施领域能否出现平台型公司也进行了讨论。他山之石，可以攻玉。我们推荐对数据基础设施领域感兴趣的创业者阅读、思考，与我们进一步交流。

上一篇《现代数据基础设施架构初现: 2020》发布以来，数据基础设施行业的增长如火如荼。在过去一年里，几乎所有关键行业指标都创下历史新高，新产品类别的出现速度超过了大多数数据团队合理跟踪的速度。甚至数据标准之争和广告大战也回归了。为了帮助数据团队掌握行业发生的变化，我们在这篇文章中发布了更新的数据基础架构图。通过总结去年交谈过的众多从业者的经验，该架构展示了分析和业务系统中最流行的数据技术栈。每个架构图都包含自上一版本以来发生变化的摘要。

我们也尝试解释为什么会发生这些变化：我们认为核心数据处理系统在过去一年中相对稳定，而支持工具和应用程序迅速增加。我们探讨了平台在数据生态系统中开始出现的假设，有助于解释我们在数据技术栈演变中看到的特定模式。

这项工作的完成，得益于本文末尾列出的各位数据专家的帮助。没有他们就没有这篇文章，所以非常感谢！

更新的参考架构

在我们深入细节之前，我们先看看最新的架构图。这是在众多优秀的数据从业者的帮助下完成，建立在他们内部运行的架构和他们对新部署建议的基础上。

第一张图展示了一个适用于所有数据基础设施使用场景的统一概览。

注：不包括OLTP，日志分析和SaaS分析应用。

第二张视图展示了复杂且独立的机器学习工具链：

在接下来的文章里，我们将会探讨相对第一个版本，新版本架构所发生的变化和引起变化的根本原因。

变更日志

未变: 核心稳定

尽管过去一年的数据基础设施活动非常活跃，但令人惊讶的是在某些方面，几乎完全没有变化。

在第一篇文章中，我们区分了支持数据驱动决策的分析系统和数据驱动产品的业务系统。然后将这些类别分为了三个模式或者架构图，通常由优秀的数据团队来实施。

其中一个最主要的问题是这几个架构类型是否会融合。时隔一年之后再看，融合的情况似乎并没有发生。特别是，分析和业务生态系统都在蓬勃发展。云数据仓库例如Snowflake等增长迅速，主要聚焦在SQL用户和商业智能的用户场景。其他技术的采用也在加速，数据湖公司比如Databricks的客户增长速度前所未有。很多我们访谈的数据团队都表示数据技术栈中的异质性将共存。

其他核心数据系统，如数据获取和转化，已经证明同样耐久。这在现代数据智能领域特别明显。Fivetran和dbt（或类似技术）的组合几乎随处可见。但在一定程度上，在业务系统中也同样如此。Databricks/Spark, Confluent/Kfaka, 和Astronomer/Airflow的组合也开始成为事实标准。

新鲜事：寒武纪大爆发

围绕稳定的内核，数据技术栈在过去的一年中迅速发展，大体上来说，我们看到的变化主要在以下两个领域：

支持主要数据流程和工作流的新工具，例如数据发现、可观测性或者机器学习审核。
赋能数据团队和商业用户以更新、更强大的方式从数据中产生价值的新应用，例如数据工作区、反向ETL和机器学习应用框架。

我们还看到一些旨在增强核心数据处理系统的新技术的引入。值得注意的是，关注业务指标的分析系统和主要目标是运营操作的数据仓库模式之间也存在一定的重叠和争论，我们可以看到，双方同时在朝着能够更好的满足业务系统的架构上演变。

更新的架构图

在此背景下，我们将详细介绍主要的数据基础架构图。下面的每一部分都将展示一张更新的架构图（与第一版技术栈相比）和关键变化的分析。这部分内容主要是为数据团队实践这些技术栈提供参考。

架构图1: 现代商业智能

适用于所有公司类型的云原生商业智能

注：深色方框是新的或是相比2020年的第一版变化比较大的部分。浅色的方框是指大体上保持不变的地方。灰色的方框是跟该架构图不太相关的地方。

不变的是：

数据复制（例如Fivetran）、云原生数据仓库（例如Snowflake）和以SQL为基础的数据建模（例如dbt）的组合持续形成该类型的核心。这些技术的采用增速加快，促进了新的竞争者（例如Airbyte和Firebolt）的融资活动和早期发展。
仪表盘仍然是输出层中最常用的应用程序，包括Looker、Tableau、PowerBI和新入局者Superset.

新的变化：

市场上对业务指标层感兴趣的非常多。业务指标层是在数据仓库之上提供标准定义的系统。关于它应该具有哪些能力，哪些供应商应该提供该产品，它应该遵循什么规范等问题引起了激烈的争论。目前为止，我们看到一些可靠的产品（例如Transform和Supergrain），和dbt扩展到这一类别的衍生产品。
反向ETL的供应商显著增长，特别是Hightouch和Census. 这些产品是利用数据仓库的输出结果和洞见来更新业务系统，比如CRM或ERP。
数据团队对于可以增强标准仪表板的新应用表现出更大的兴趣，特别是数据工作站（例如Hex）。从广义上来讲，新的应用可能是云数据仓库日益标准化的结果。一但数据被清楚的结构化和易于访问，数据团队自然希望用它做更多分析。
数据发现和可观测性相关的公司增长迅速且融资顺利（例如Monte Carlo 和 Bigeye）。虽然这些产品的好处是显而易见的，例如更可靠的数据传输和更好的协作效率，但根据客户使用场景和预算来看，客户仍然处于尝试的早期阶段。（技术说明：尽管在数据发现领域有一些信用不错的新供应商，例如Select Star, Metaphor, Stemma, Secoda, Castor，我们通常将种子阶段的公司从图表中排除。）

架构图2：多模型数据处理

迭代后的数据湖，适用于分析和业务多种用户场景—也称之为Hadoop难民的现代基础设施(注：[Hadoop 难民]来自于Snowflake的CEO - Bob Muglia，指的是在Snowflake的视角，他们的很多试图使用Hadoop来解决问题的客户，陷在Hadoop无法解决问题的绝望的深谷中。Ref: https://www.datanami.com/2017/03/13/hadoop-failed-us-tech-experts-say/）

注：深色方框是新的或是相比2020年的第一版变化比较大的部分。浅色的方框是指大体上保持不变的地方。灰色的方框是跟该架构图不太相关的地方。

不变的是：

数据处理（例如Databricks，Starburst, and Dremio）、数据传输（例如Confluent and Airflow）和存储（AWS）的核心系统持续高速增长，构成了该架构图的支柱。
多模型数据处理在设计上保持多样性，允许公司在分析和业务数据应用中选择最适合他们特殊需求的系统。

新的变化：

湖仓一体架构的认知度和清晰度越来高。我们看到这一架构受到众多供应商（包括AWS, Databricks, Google Cloud, Starburst和 Dremio）和数据仓库的支持。数据湖的基本价值在于将强大的存储层和一系列强大的数据处理引擎，例如Spark, Presto, Druid/Clickhouse, Python libraries等配对。
存储层在经历升级。尽管像Delta, Iceberg和Hudi这样的技术并不新鲜，但是他们正在加速被采用和打包在商业产品中。其中某些技术（特别是Iceberg）也与云原生数据仓库例如Snowflake交互操作。如果异质性继续存在，这很可能成为多模型数据技术栈里的关键部分。
流处理（例如实时分析数据处理）的使用率在上升。尽管像Flink这样的第一代技术仍然没有成为主流，但具有更简单编程模型的新进入者（例如Materialize 和 Upsolver）已经开始被采用。而且有趣的是，现在的Databricks和Confluent的流处理产品的使用也开始加速。

架构图3：人工智能与机器学习

一个全新的、正在演进过程中的数据技术栈，可以支持机器学习模型的开发、测试和运维

注：深色方框是新的或是相比2020年的第一版变化比较大的部分。浅色的方框是指大体上保持不变的地方。灰色的方框是跟该架构图不太相关的地方。

不变的是：

现在的模型开发工具与2020年大体相似，包括主要的云供应商（如Databricks和AWS），机器学习框架（如XGBoost和PyTorch）和实验管理工具（如Weights & Biases 和 Comet）。

实验管理有效的将模型可视化和调参分为了独立的类别。

构建和操作机器学习技术栈很复杂，需要专业知识。这个架构图不适合保守的团队。对很多数据团队来说，将人工智能应用到生产环节仍然非常有挑战性。

新的变化：

机器学习正围绕以数据为中心的方法进行整合，强调复杂的数据管理而不是增量模型的改进。这里有几点意义：

数据标注（例如Scale 和 Labelbox）的快速增长和对闭环数据引擎的兴趣日益增长，主要以Tesla Autopilot数据传输为模型。
更多的采用特征库（例如Tecton），用于批处理和实时用例，作为协作的方式来研发产品级机器学习数据的一种方法。
重新燃起了对低代码机器学习解决方案（如Continual 和 MindsDB）的兴趣，它至少部分自动化了机器学习建模流程。这些较新的解决方案专注于将新的用户（例如分析师和软件开发人员）带入机器学习的市场。

使用预训练模型正在成为默认模式，特别是在自然语言处理领域，并为OpenAI和Hugging Face等公司提供便利。围绕微调、成本和可扩展性，仍然有些意义重大的问题有待解决。
机器学习运维工具（有时称为MLops）越来越成熟，机器学习监控领域的需求非常强烈，且预算充分。同时，市场上出现了一批新的运维工具，包括验证和审核，最终的市场大小仍然有待确定。
人们越来越关注开发人员如何将机器学习模型无缝的集成到应用中，包括通过预构建的APIs（例如OpenAI），矢量数据库（例如Pinecone）和更多成熟的框架。

数据平台假说

总结一下，在过去的一年中，数据基础设施技术栈的核心系统已经非常稳定，支持工具和应用也在快速增长。为了帮助解释为什么这些会发生，我们在此介绍一下数据平台的概念。

什么是平台？

“平台”这个词在数据生态系统中被过度使用，内部团队经常使用它来描述整个技术栈，或者供应商用它来销售联系不那么紧密的产品套件。

在软件领域里，平台是指其他开发人员能在其基础上开发产品。平台本身通常提供的价值有限，因为大部分用户对于访问Windows和IOS没有兴趣。但是，平台提供了一系列好处，例如通用编程接口和大量的安装基础，允许开发人员构建和分发用户最终关心的应用。

从行业的角度看，平台的定义特征是有影响力的平台提供方和大量的三方开发者能在技术上和经济上相互依存。

什么是数据平台？

从历史上看，数据技术栈并不明显适合平台的定义。例如在ETL、数据仓库和报告供应商之间存在相互依赖关系，但集成模型通常是一对一的，而不是一对多，且得到了专业服务的大量补充。

根据我们和大量数据专家的访谈，我们认为这些有可能要开始改变了。

平台假设认为数据技术栈的“后端”——大致包括数据提取、存储、处理和转换——已经开始围绕小部分云服务提供商开始整合。因此，客户数据由一套标准系统收集，供应商正在大力投资使其他开发人员可以快速轻松访问这些数据的工具。这是Databricks等系统的基本设计原则，并在系统里定义好SQL标准和定制化的API接口，如Snowflake。

反过来，“前端”工程师利用这种单点集成来构建一系列新应用程序。他们依赖数据仓库/湖仓一体中清洗和整合过的数据，而不用担心它们是如何生成的底层细节。单个客户可以在一个核心数据系统之上构建和购买很多应用。我们甚至开始看到传统企业系统，如财务或者产品分析，正在使用仓库原生的架构进行重构。

如下图所示：

需要明确的是，这并不意味着OLTP数据库或者其他重要的后端技术在不久的将来会消失。但是OLAP系统的原生对接将会成为应用发展的重要组成部分。随着时间的推移，越来越多的商业逻辑和应用功能将会过渡到这一模型。我们也许会看到一系列的新产品将会建立在这个数据平台上。

数据应用的出现？

数据平台的假设仍然存在很大争议。但我们看到复杂垂直的SaaS解决方案作为数据平台上面的水平层的数量日渐增长。而且尽管很早期，但我们认为数据技术栈中发生的变化至少与平台正在占据主导地位的想法是一致的。

有一些原因，例如，像Snowflake和Databricks这样的公司已经成为数据技术栈里的重要部分，包括出色的产品、优秀的销售团队和的标准化的部署模型。但也有一种情况是，平台的动态变化增强了他们的粘性。一旦客户已经搭建或者集成了一些带有这些系统的数据应用，通常过渡也就没有意义了。

对于近年来新数据基础设施产品的激增，也可以提出类似的论点。造成这种趋势的原因与数据量的激增、企业预算的增加和风险投资资金过剩有关。但这些因素可以说过去几十年来都是这样的，近几年也并没有有所不同。我们现在看到这么多新产品出现的原因极有可能与平台有关——也就是说，采用新的数据应用从未如此简单，合理的维护平台从未如此重要。

最后，平台假设在竞争动态方面有一定的预测能力。在规模上，平台可能非常有价值。现在核心数据系统供应商的激烈竞争，不仅是为了当前的预算，更是为了长期的平台地位。如果你认为数据获取和转换模块是新兴数据平台的核心部分，那么对数据获取和转换公司的惊人估值——或者特别是关于业务指标层或反向 ETL 等新类别的激烈辩论——也就更容易理解了。

展望未来

我们仍处于定义分析和业务数据平台的早期阶段，平台的各个部分都在不断变化。因此，它作为一个类比可能比作为一个严格的定义更有参考意义。但它可能是一个有用的工具，可以从噪声中过滤出信号，并有助于了解市场为何如此变化。数据团队现在拥有比数据库发明以来的任何时候可能更多的工具、资源和组织动力。我们很期待看到应用层未来如何在新兴平台之上发展。也欢迎有志于此的创业者和团队与我们共同探索！

金沙江创投

专注互联网早期投资

本公众号内容未经允许请勿转载，但欢迎转发朋友圈。

继续阅读

阅读原文