手头上的ETL、数仓、管道都停了吧!现在搭建的复杂数据架构,很快就成为历史遗产了……

Reliable Data Engineering 2026-03-23 10:17:00
我将要做出一个可能影响职业生涯的预测:到2030年,我们今天所熟知的"数据工程师"这个职位将不复存在。

不是因为我们将不再需要数据基础设施,而是因为我们在过去20年里建立起来的整个概念框架 —— ETL、数据仓库、数据湖、现代数据栈 —— 都将在其自身日益沉重的复杂性压力下崩塌。

而某种根本性的、更简单的东西将取而代之。这不是悲观论调,而是进化!为什么这么说?

关于我们当前架构的令人不安的真相

为什么我们在自以为构建未来的时候,却打造了一台鲁布·戈德堡机械。

鲁布·戈德堡机械(Rube Goldberg machine):是一种被设计得过度复杂的机械组合,以迂回曲折的方法去完成一些其实是非常简单的工作,例如倒一杯茶,或打一颗蛋等等。设计者必须计算精确,令机械的每个部件都能够准确发挥功用,因为任何一个环节出错,都极有可能令原定的任务不能达成。由于鲁布·戈德堡机械运作繁复而费时,而且以简陋的零件组合而成,所以整个过程往往会给人荒谬、滑稽的感觉。

以下是你现在可能正在运行的数据栈:

Production DB (Postgres)

Fivetran/Airbyte (ETL)

Snowflake/BigQuery (Warehouse)

dbt (Transformation)

Cube/Looker (Semantic Layer)

Tableau/Metabase (BI)

Reverse ETL (Back to production)

请停下来,真正审视一下这个流程。我们正在跨越六个不同的系统复制数据,仅仅是为了回答"今天有多少用户注册了?"这个问题。

这太疯狂了。

我们并非有意设计成这样。它是自然形成的,原因在于:

  • 操作型数据库 对于分析查询来说不够快(这是2000年代的问题)
  • 分析型数据库 不太适合处理事务(现在仍然如此,但是……)
  • 原始数据需要转换(这是事实,但为什么要在单独的系统中进行?)
  • 业务用户需要一个语义层(为什么不能只是……有更好的数据库呢?)
  • 机器学习模型需要将特征写回生产系统(完成了这个疯狂的循环)

每一层的添加都是为了解决一个实际问题,但这些层累积起来的复杂性本身,已经变成了一个更大的问题。

我的预测: 到2028年,整个这一套技术栈将 collapse 合并为2到3个系统,甚至可能只有一个。

预测一:事务型与分析型数据库的融合

为什么 OLTP/OLAP 的界限将在我们有生之年消失?

现代数据架构的基本假设是,您需要不同的系统来处理:

  • OLTP (事务处理):写入速度快,基于行,规范化
  • OLAP (分析处理):读取速度快,基于列,非规范化

当硬件昂贵且专业化时,这种区分是有意义的。但那个时代即将结束。

看看正在发生什么:

  • SingleStore:已经在同一个数据库上运行事务和分析。可以在处理每秒超过10万次写入的同时,对数十亿行数据进行亚秒级查询。
  • DuckDB:嵌入式分析数据库,它让 OLAP 变得像 SQLite 让 OLTP 一样简单易用。
  • ClickHouse:最初是分析型数据库,现在正在添加事务功能。
  • TiDB:可以处理分析查询而无需单独系统的事务型数据库。

模式很清晰:数据库正变得 "全能型"。一个系统处理所有事情。

我认为未来会是这样的:

# 2025: Current architecture

class UserService:

def create_user(self, email):

# Write to production DB

prod_db.execute("INSERT INTO users...")

# Wait 4 hours for Fivetran to sync

# Wait 2 hours for dbt to transform

# Wait 1 hour for cache to refresh

# Finally: Analytics is 7 hours stale

# 2028: Future architecture

class UserService:

def create_user(self, email):

# Write to unified database

db.execute("INSERT INTO users...")

# Analytics is instantly available

# No ETL. No warehouse. No delay.

# One transaction, visible everywhere immediately.

这意味着什么:

  • ETL 工具 (如 Fivetran, Airbyte) 将失去 60% 的应用场景
  • 数据仓库将变得可有可无,而非必需品
  • 整个"现代数据栈"将成为一种遗留模式
  • 实时性将成为默认,而非例外

我的时间线预测:首家财富 500 强公司将于 2027 年公开宣布放弃 Snowflake,转而采用统一数据库。

预测二:事务型与分析型数据库的融合

真正的颠覆不是 GitHub Copilot,而是更根本性的东西

每个人都在担心 AI 会取代数据工程师。但这种恐惧找错了方向。AI 取代数据工程师的方式,不是通过编写更好的 Python 代码,而是通过彻底消除对数据管道的需求。

让我来解释一下。

今天,当您想要接入一个新的数据源时,您需要:

  • 研究源端的 API/模式 (2小时)
  • 编写数据抽取代码 (4小时)
  • 处理分页、速率限制、错误 (3小时)
  • 编写转换逻辑 (6小时)
  • 添加数据质量检查 (4小时)
  • 编写测试 (3小时)
  • 设置监控 (2小时)
  • 部署并持续维护 (ongoing)

总计:为单个数据源就需要超过 24 小时的工作量。

现在,想象一下这个场景:

# 2025: Traditional approach

from airflow import DAG

from custom_extractors import SalesforceExtractor

from dbt_runner import run_dbt

# 300 lines of code, 10 failure modes, 5 edge cases...

# 2027: AI-native approach

from autonomous_data_platform import DataSource

salesforce = DataSource.connect(

"Salesforce",

credentials=env.SALESFORCE_API_KEY,

intent="sync all opportunity data for revenue analytics"

)

# That's it. The AI:

# - Discovers the schema automatically

# - Infers relationships between objects

# - Suggests transformations based on similar pipelines

# - Generates quality checks from data patterns

# - Handles errors autonomously

# - Evolves as the source changes

但更厉害的是:AI 不仅仅是编写管道,它会直接让管道变得不再必要。

取代:

Source → ETL → Warehouse → Transform → BI

我们将得到:

Source → AI Agent → Query Result

这个 AI 智能体能够:

  • 在需要时直接查询数据源
  • 根据访问模式智能地进行缓存
  • 实时跨系统进行数据连接
  • 从每次查询中学习以优化下一次查询

没有管道,没有调度,无需维护,只有查询。

让我相信这一点的案例研究:

上个月,我观看了一家创业公司演示他们的 AI 数据智能体。你可以问:"我们按 cohorts 分组的客户流失率是多少?" 然后它会:

  • 识别出包含客户数据的表(分布在3个不同的系统中)
  • 从过去的查询和文档中确定"流失"的含义
  • 生成 SQL 来计算按 cohort 分组的流失率
  • 执行该 SQL
  • 返回带有置信区间的结果

从提问到获得洞察的时间:12秒。 不需要任何事先构建的管道。

我的预测: 到 2029 年,科技公司中 50% 的数据管道将被按需查询的 AI 智能体所取代。

预测三:语义层将吞并一切

为什么指标层将变得比它们所查询的数据更有价值

有个问题让我夜不能寐:原始数据和定义这些数据含义的规则,哪个更有价值?

我们花了 20 年时间优化数据的存储和处理。但对于数据的语义——即数据的实际含义——我们仅仅触及了皮毛。

想想"收入"这个概念。很简单,对吧?但在一个真实的公司里:

# Marketing's definition

revenue_marketing:

sql: SUM(amount) FROM transactions WHERE status = 'complete'

# Finance's definition

revenue_finance:

sql: SUM(amount) FROM transactions

WHERE status IN ('complete', 'processing')

AND refunded = false

AND type != 'internal'

# Sales's definition

revenue_sales:

sql: SUM(commission_amount) FROM deals WHERE closed = true

# Accounting's definition

revenue_accounting:

sql: [300 lines of GAAP-compliant SQL with accrual logic]

同一个词,四个不同的数字。这才是数据领域真正的问题所在。

语义层革命:

公司们正在意识到,定义本身比数据更有价值。因为:

  • 没有定义的数据只是噪音
  • 定义可以在不同工具间重复使用
  • 定义编码了业务逻辑
  • 定义使得协作成为可能

我认为未来的发展方向是:

# 2025: Data warehouse-centric world

Data Warehouse → BI Tool

# 2028: Semantic layer-centric world

┌─→ BI Tool

Metrics │

Layer ├─→ Reverse ETL

├─→ ML Features

├─→ Internal APIs

└─→ AI Agents

# The semantic layer becomes the source of truth

# The warehouse becomes just another data source

为什么这很重要:

像 Cube、Transform 和 dbt Metrics 这样的指标层,正将自己定位为数据栈的新中心。不是数据仓库,而是定义。

想象一个这样的世界:

  • 您只需定义一次"活跃用户",便可在任何地方使用这个定义
  • 机器学习模型从与仪表板相同的语义层提取特征
  • AI 智能体查询的是指标,而不是原始数据表
  • 反向 ETL 同步的是语义对象,而不是数据库行

大胆预测:到 2030 年,初创公司在拥有数据仓库之前,就会先构建一个语义层。定义是第一位的;存储只是一个实现细节。

预测四:边缘计算将使数据(再次)去中心化

为什么集中化只是一个临时绕道,而非最终归宿

计算的历史就像一个钟摆:

  • 1960s-70s: 大型机 (集中式)
  • 1980s-90s: 个人电脑 (分散式)
  • 2000s-10s: 云计算 (集中式)
  • 2020s-30s: 边缘计算 (再次分散)

我们即将再次摆向分散化,这将彻底重塑有关数据架构的一切。

为什么边缘计算会改变游戏规则:

今天,数据流动通常是这样的:

IoT Device → Cloud → Processing → Storage → Analytics

~500ms latency

~$$$$ bandwidth costs

~privacy concern

明天:

IoT Device → Edge Processing → Local Analytics → Selective Cloud Sync

~5ms latency

~$ bandwidth costs

~privacy by default

真实案例: 特斯拉的自动驾驶功能不会将原始视频发送到云端处理。因为那样会:

  • 太慢(等云端响应过来,你可能已经出事了)
  • 太贵(需要处理 EB 级别的视频数据)
  • 太侵犯隐私

相反,他们在边缘端(车上)进行处理,只将洞察结果发送到云端。

这种模式将扩展到各个领域:

  • 零售: 在门店本地进行分析,而非数据中心
  • 制造业: 在工厂边缘进行过程监控
  • 医疗保健: 在本地处理患者数据,仅将聚合结果上传云端
  • 智慧城市: 在路口本地优化交通信号,而非中心指挥室

这对数据工程师意味着什么:

整个以云为先的架构将被颠覆。不再是:

# Current: Pull everything to the center

def analyze_sensor_data():

raw_data = fetch_from_all_sensors() # Pull terabytes

processed = process_in_cloud(raw_data)

insights = generate_insights(processed)

return insights

我们得到:

# Future: Process at the edge, sync intelligently

class EdgeAnalytics:

def __init__(self):

self.local_model = load_model()

self.local_cache = EdgeCache()

def process_sensor_data(self, data):

# Process locally

insights = self.local_model.predict(data)

# Only sync insights, not raw data

if insights.confidence < 0.95:

cloud_sync(insights, data_sample=data[:1000])

return insights

# The edge becomes the primary compute layer

# Cloud becomes backup and coordination

我的预测: 到 2028 年,在边缘处理的数据量将超过在云端处理的数据量。

时间线预测:

  • 2025年: 边缘优先架构成为物联网的标准模式
  • 2027年: 大型企业开始将数据从云端迁回边缘
  • 2030年: "云原生"这个词听起来会像"基于大型机"一样过时

预测五:SQL 将比所有花哨的替代品都活得更久

最具争议的观点:别再试图取代 SQL 了,你赢不了的。

每隔几年,就会有人宣称"SQL 已死",并推出一个替代品:

  • 2010年: "NoSQL 将取代 SQL!"
  • 2015年: "Pandas DataFrame 是新的 SQL!"
  • 2020年: "GraphQL 正在杀死 SQL!"
  • 2025年: "AI 将让 SQL 过时!"

但事实是:他们都错了。

SQL 已经 50 岁了。它经历并存活过了:

  • 面向对象数据库
  • XML 数据库
  • NoSQL
  • NewSQL
  • 流处理器
  • 图数据库
  • 时序数据库

每一个承诺"无需 SQL 即可实现数据民主化"的创业公司

为什么?因为 SQL 拥有三大超能力:

1、它是声明式的:你只需说明想要什么,而不需要指定如何获取。

-- What you want

SELECT users.name, COUNT(orders.id)

FROM users

JOIN orders ON users.id = orders.user_id

WHERE orders.created_at > '2024-01-01'

GROUP BY users.name;

-- vs. how to get it (imperative)

users = read_table('users')

orders = read_table('orders')

filtered_orders = orders[orders.created_at > '2024-01-01']

joined = merge(users, filtered_orders, left_on='id', right_on='user_id')

grouped = joined.groupby('name').agg({'id': 'count'})

# ... etc

2、它是通用的:几乎每个数据库都支持 SQL(或其方言)。Python 呢?只有 Python 工具才懂。

3、它是可优化的:数据库可以自动优化 SQL 查询。而普通代码?你需要手动优化。

我看到的未来:

SQL 不会死。它会进化:

-- vs. how to get it (imperative)

users = read_table('users')

orders = read_table('orders')

filtered_orders = orders[orders.created_at > '2024-01-01']

joined = merge(users, filtered_orders, left_on='id', right_on='user_id')

grouped = joined.groupby('name').agg({'id': 'count'})

# ... etc

-- 2028: AI-enhanced SQL

SELECT user_id,

AVG(purchase_amount),

PREDICT_CHURN(user_id) as churn_probability, -- ML built-in

EXPLAIN_ANOMALY(purchase_amount) as why_unusual -- AI explains outliers

FROM purchases

WHERE purchase_date > '2024-01-01'

GROUP BY user_id;

-- 2030: Natural language → SQL → Results

-- User: "Show me users likely to churn"

-- AI: [Generates optimized SQL with ML functions]

-- Database: [Returns results with explanations]

SQL 成为AI 生成的查询的编译目标。人类可读的查询语言不断发展,但 SQL 仍然是执行层。

我的争议观点是:构建“SQL 替代品”的初创公司是完全错误的。构建使 SQL 变得更好的工具,而不是避免它的工具

预测六:大而集中化

为什么数据网格是一次弯路,我们正回归集中化(但这次更智能)

还记得当初大家对数据网格的兴奋之情吗?让一切去中心化!领域团队自主拥有数据!联邦架构!

我认为我们即将意识到那是一个错误。

不是因为那些想法本身错了。而是因为分布式系统真的、真的很难管理,要求每个领域团队运行他们自己的数据基础设施,就像要求每个部门运行他们自己的 IT 部门一样不切实际。

数据网格在实际中发生的情况:

Theory:

Domain A → Clean, well-governed data product

Domain B → Clean, well-governed data product

Domain C → Clean, well-governed data product

Reality:

Domain A → Outdated documentation, breaking changes, no monitoring

Domain B → Different naming conventions, inconsistent quality

Domain C → "The person who built this left, nobody knows how it works"

问题在于:您将数据工程的复杂度乘以了领域(部门)的数量。

修正方向:

我们将回归集中化,但会吸取教训:

# Not this (old centralized):

Central data team owns everything

└─ Bottleneck, slow, can't scale

# Not this (data mesh):

Every domain team owns their data

└─ Chaos, inconsistency, duplicated effort

# This (smart centralization):

Central platform team provides:

- Self-service tools with guardrails

- Automated governance

- Standardized patterns

- 24/7 monitoring

Domain teams use platform to:

- Publish data products easily

- With automatic quality checks

- With consistent semantics

- With zero infrastructure management

想象一下:平台即产品,而非数据即产品。

我的预测: 到 2027 年,那些全面拥抱数据网格的公司将会悄悄地重新集中化。他们不会这么称呼它——可能会叫"平台工程"或"数据产品平台"——但这本质上是集中化 2.0。

终局之战:我们实际正在构建的目标

一个数据库,一个语义层,AI 智能体,别无他物

让我为您描绘 2030 年的图景:

将取代一切的架构:

┌─────────────────────────────────────────┐

│ AI Data Agent Layer │

│ (Understands intent, generates queries) │

└─────────────────┬───────────────────────┘

┌─────────────────▼───────────────────────┐

│ Semantic Layer │

│ (Single source of truth for metrics) │

└─────────────────┬───────────────────────┘

┌─────────────────▼───────────────────────┐

│ Unified HTAP Database │

│ (Handles transactions + analytics) │

└──────────────────────────────────────────┘

就这三层:

  • AI 智能体,它们理解问题
  • 语义定义,它们编码了业务含义
  • 一个无所不能的数据库

什么会消失:

  • ETL 工具(数据不再离开源系统)
  • 数据仓库(统一数据库两者都能处理)
  • dbt(转换在语义层内完成)
  • 反向 ETL(不再需要复制数据)
  • 数据目录(语义已经内建)
  • 大部分数据工程工作(由 AI 自动化)

什么会兴起:

  • 语义工程师(定义含义,而非搬运数据)
  • AI 编排师(教导智能体理解您的业务)
  • 数据产品经理(将数据视为产品来管理)
  • 默认实时(不再有批处理)

那么您现在该做什么?

如何为未来十年定位自己

如果您是正在阅读此文的数据工程师,您有两个选择:

选择 1:与未来抗争

  • 继续构建 ETL 管道
  • 捍卫现代数据栈
  • 坚持认为批处理没问题
  • 到 2030 年因脱离时代而被淘汰

选择 2:乘风破浪

  • 学习语义建模(指标层、数据契约)
  • 尝试统一数据库(如 DuckDB, SingleStore, ClickHouse)
  • 理解 AI 智能体(如何教导它们理解数据)
  • 将自己定位为语义工程师,而非管道构建者

未来 12 个月的具体行动建议:

2026 年第一季度: 选择一个统一数据库,尝试在没有 ETL 的情况下重建一个数据管道。

  • 替代:Postgres → Fivetran → Snowflake → dbt
  • 尝试:Postgres → Materialize (或 SingleStore, 或 ClickHouse)
  • 学习:能否消除中间步骤?

2026 年第二季度: 为最关键的业务指标实施一个语义层。

  • 定义收入、流失率、激活率等指标一次
  • 在处处使用:仪表板、API、机器学习
  • 练习:语义优先的思维方式

2026 年第三季度: 尝试使用 AI 生成数据查询。

  • 使用:GPT-4 + 您的数据库模式来生成 SQL
  • 学习:什么有效,什么容易出错
  • 理解:如何为 AI 提供更好的上下文信息

2026 年第四季度: 写下您的学习心得。

  • 撰写比较新旧方法的博客文章
  • 分享简化后架构的案例研究
  • 做出自己的预测(就像这篇文章一样!)
  • 建立您作为前瞻思考者的声誉

元技能:快速原型设计数据架构的能力。

数据栈即将经历分裂、实验和再整合的过程。最终的赢家将是那些能够快速测试新方法、学习有效模式、并影响最终哪种模式胜出的人。

十、我个人的赌注

我将把我的资金(和职业生涯)押注在何处?

我将全力投入:

  • 语义层 —— 定义将变得比数据本身更有价值
  • 统一数据库 —— OLTP/OLAP 的融合是大势所趋
  • AI 编排 —— 教导 AI 理解业务上下文是新的数据工程

我不看好:

  • 复杂的多跳数据管道
  • 庞大的云端数据仓库
  • 批处理优先的架构
  • "数据工程师"作为一个长期存在的职位名称

如果我对了: 五年后,"数据工程师"这个称谓会像今天的"网站管理员"一样显得过时。我们将成为语义工程师、AI 编排师和数据产品经理。

如果我错了: 我花时间学习了一些无关紧要的工具,而现代数据栈将继续主导下一个十年。

但关键在于:即使我的预测只有 30% 是对的,所带来的变化也足够重大,值得我们关注。

十一、真正的问题

这篇文章充满了预测。有些会是对的,有些可能会错得离谱。这没关系 —— 目标不是每个细节都准确无误,而是深入思考我们未来的方向。

所以,我想问您的问题是:

您今天正在构建的东西,五年后还会重要吗?

您是在构建那些将被自动化的管道?还是在构建语义、上下文、业务理解这些 AI 无法轻易复制的核心资产?

未来五年,将区分出哪些数据工程师能够与时俱进,哪些不能。技术技能固然重要,但预见未来的能力更为关键。

作者丨Reliable Data Engineering 编译丨dbaplus社群

来源丨网址:https://medium.com/@reliabledataengineering/the-database-endgame-why-everything-youre-building-today-will-be-legacy-tomorrow-47536e2f138d

*仅为提供参考和学习交流,不代表dbaplus社群立场!dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn

最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告