不是因为我们将不再需要数据基础设施,而是因为我们在过去20年里建立起来的整个概念框架 —— ETL、数据仓库、数据湖、现代数据栈 —— 都将在其自身日益沉重的复杂性压力下崩塌。
而某种根本性的、更简单的东西将取而代之。这不是悲观论调,而是进化!为什么这么说?
关于我们当前架构的令人不安的真相
为什么我们在自以为构建未来的时候,却打造了一台鲁布·戈德堡机械。
鲁布·戈德堡机械(Rube Goldberg machine):是一种被设计得过度复杂的机械组合,以迂回曲折的方法去完成一些其实是非常简单的工作,例如倒一杯茶,或打一颗蛋等等。设计者必须计算精确,令机械的每个部件都能够准确发挥功用,因为任何一个环节出错,都极有可能令原定的任务不能达成。由于鲁布·戈德堡机械运作繁复而费时,而且以简陋的零件组合而成,所以整个过程往往会给人荒谬、滑稽的感觉。
以下是你现在可能正在运行的数据栈:
Production DB (Postgres)
↓
Fivetran/Airbyte (ETL)
↓
Snowflake/BigQuery (Warehouse)
↓
dbt (Transformation)
↓
Cube/Looker (Semantic Layer)
↓
Tableau/Metabase (BI)
↓
Reverse ETL (Back to production)
请停下来,真正审视一下这个流程。我们正在跨越六个不同的系统复制数据,仅仅是为了回答"今天有多少用户注册了?"这个问题。
这太疯狂了。
我们并非有意设计成这样。它是自然形成的,原因在于:
每一层的添加都是为了解决一个实际问题,但这些层累积起来的复杂性本身,已经变成了一个更大的问题。
我的预测: 到2028年,整个这一套技术栈将 collapse 合并为2到3个系统,甚至可能只有一个。
预测一:事务型与分析型数据库的融合
为什么 OLTP/OLAP 的界限将在我们有生之年消失?
现代数据架构的基本假设是,您需要不同的系统来处理:
当硬件昂贵且专业化时,这种区分是有意义的。但那个时代即将结束。
看看正在发生什么:
模式很清晰:数据库正变得 "全能型"。一个系统处理所有事情。
我认为未来会是这样的:
# 2025: Current architecture
class UserService:
def create_user(self, email):
# Write to production DB
prod_db.execute("INSERT INTO users...")
# Wait 4 hours for Fivetran to sync
# Wait 2 hours for dbt to transform
# Wait 1 hour for cache to refresh
# Finally: Analytics is 7 hours stale
# 2028: Future architecture
class UserService:
def create_user(self, email):
# Write to unified database
db.execute("INSERT INTO users...")
# Analytics is instantly available
# No ETL. No warehouse. No delay.
# One transaction, visible everywhere immediately.
这意味着什么:
我的时间线预测:首家财富 500 强公司将于 2027 年公开宣布放弃 Snowflake,转而采用统一数据库。
预测二:事务型与分析型数据库的融合
真正的颠覆不是 GitHub Copilot,而是更根本性的东西
每个人都在担心 AI 会取代数据工程师。但这种恐惧找错了方向。AI 取代数据工程师的方式,不是通过编写更好的 Python 代码,而是通过彻底消除对数据管道的需求。
让我来解释一下。
今天,当您想要接入一个新的数据源时,您需要:
总计:为单个数据源就需要超过 24 小时的工作量。
现在,想象一下这个场景:
# 2025: Traditional approach
from airflow import DAG
from custom_extractors import SalesforceExtractor
from dbt_runner import run_dbt
# 300 lines of code, 10 failure modes, 5 edge cases...
# 2027: AI-native approach
from autonomous_data_platform import DataSource
salesforce = DataSource.connect(
"Salesforce",
credentials=env.SALESFORCE_API_KEY,
intent="sync all opportunity data for revenue analytics"
)
# That's it. The AI:
# - Discovers the schema automatically
# - Infers relationships between objects
# - Suggests transformations based on similar pipelines
# - Generates quality checks from data patterns
# - Handles errors autonomously
# - Evolves as the source changes
但更厉害的是:AI 不仅仅是编写管道,它会直接让管道变得不再必要。
取代:
Source → ETL → Warehouse → Transform → BI
我们将得到:
Source → AI Agent → Query Result
这个 AI 智能体能够:
没有管道,没有调度,无需维护,只有查询。
让我相信这一点的案例研究:
上个月,我观看了一家创业公司演示他们的 AI 数据智能体。你可以问:"我们按 cohorts 分组的客户流失率是多少?" 然后它会:
从提问到获得洞察的时间:12秒。 不需要任何事先构建的管道。
我的预测: 到 2029 年,科技公司中 50% 的数据管道将被按需查询的 AI 智能体所取代。
预测三:语义层将吞并一切
为什么指标层将变得比它们所查询的数据更有价值
有个问题让我夜不能寐:原始数据和定义这些数据含义的规则,哪个更有价值?
我们花了 20 年时间优化数据的存储和处理。但对于数据的语义——即数据的实际含义——我们仅仅触及了皮毛。
想想"收入"这个概念。很简单,对吧?但在一个真实的公司里:
# Marketing's definition
revenue_marketing:
sql: SUM(amount) FROM transactions WHERE status = 'complete'
# Finance's definition
revenue_finance:
sql: SUM(amount) FROM transactions
WHERE status IN ('complete', 'processing')
AND refunded = false
AND type != 'internal'
# Sales's definition
revenue_sales:
sql: SUM(commission_amount) FROM deals WHERE closed = true
# Accounting's definition
revenue_accounting:
sql: [300 lines of GAAP-compliant SQL with accrual logic]
同一个词,四个不同的数字。这才是数据领域真正的问题所在。
语义层革命:
公司们正在意识到,定义本身比数据更有价值。因为:
我认为未来的发展方向是:
# 2025: Data warehouse-centric world
Data Warehouse → BI Tool
# 2028: Semantic layer-centric world
┌─→ BI Tool
Metrics │
Layer ├─→ Reverse ETL
├─→ ML Features
├─→ Internal APIs
└─→ AI Agents
# The semantic layer becomes the source of truth
# The warehouse becomes just another data source
为什么这很重要:
像 Cube、Transform 和 dbt Metrics 这样的指标层,正将自己定位为数据栈的新中心。不是数据仓库,而是定义。
想象一个这样的世界:
大胆预测:到 2030 年,初创公司在拥有数据仓库之前,就会先构建一个语义层。定义是第一位的;存储只是一个实现细节。
预测四:边缘计算将使数据(再次)去中心化
为什么集中化只是一个临时绕道,而非最终归宿
计算的历史就像一个钟摆:
我们即将再次摆向分散化,这将彻底重塑有关数据架构的一切。
为什么边缘计算会改变游戏规则:
今天,数据流动通常是这样的:
IoT Device → Cloud → Processing → Storage → Analytics
↓
~500ms latency
~$$$$ bandwidth costs
~privacy concern
明天:
IoT Device → Edge Processing → Local Analytics → Selective Cloud Sync
↓
~5ms latency
~$ bandwidth costs
~privacy by default
真实案例: 特斯拉的自动驾驶功能不会将原始视频发送到云端处理。因为那样会:
相反,他们在边缘端(车上)进行处理,只将洞察结果发送到云端。
这种模式将扩展到各个领域:
这对数据工程师意味着什么:
整个以云为先的架构将被颠覆。不再是:
# Current: Pull everything to the center
def analyze_sensor_data():
raw_data = fetch_from_all_sensors() # Pull terabytes
processed = process_in_cloud(raw_data)
insights = generate_insights(processed)
return insights
我们得到:
# Future: Process at the edge, sync intelligently
class EdgeAnalytics:
def __init__(self):
self.local_model = load_model()
self.local_cache = EdgeCache()
def process_sensor_data(self, data):
# Process locally
insights = self.local_model.predict(data)
# Only sync insights, not raw data
if insights.confidence < 0.95:
cloud_sync(insights, data_sample=data[:1000])
return insights
# The edge becomes the primary compute layer
# Cloud becomes backup and coordination
我的预测: 到 2028 年,在边缘处理的数据量将超过在云端处理的数据量。
时间线预测:
预测五:SQL 将比所有花哨的替代品都活得更久
最具争议的观点:别再试图取代 SQL 了,你赢不了的。
每隔几年,就会有人宣称"SQL 已死",并推出一个替代品:
但事实是:他们都错了。
SQL 已经 50 岁了。它经历并存活过了:
每一个承诺"无需 SQL 即可实现数据民主化"的创业公司
为什么?因为 SQL 拥有三大超能力:
1、它是声明式的:你只需说明想要什么,而不需要指定如何获取。
-- What you want
SELECT users.name, COUNT(orders.id)
FROM users
JOIN orders ON users.id = orders.user_id
WHERE orders.created_at > '2024-01-01'
GROUP BY users.name;
-- vs. how to get it (imperative)
users = read_table('users')
orders = read_table('orders')
filtered_orders = orders[orders.created_at > '2024-01-01']
joined = merge(users, filtered_orders, left_on='id', right_on='user_id')
grouped = joined.groupby('name').agg({'id': 'count'})
# ... etc
2、它是通用的:几乎每个数据库都支持 SQL(或其方言)。Python 呢?只有 Python 工具才懂。
3、它是可优化的:数据库可以自动优化 SQL 查询。而普通代码?你需要手动优化。
我看到的未来:
SQL 不会死。它会进化:
-- vs. how to get it (imperative)
users = read_table('users')
orders = read_table('orders')
filtered_orders = orders[orders.created_at > '2024-01-01']
joined = merge(users, filtered_orders, left_on='id', right_on='user_id')
grouped = joined.groupby('name').agg({'id': 'count'})
# ... etc
-- 2028: AI-enhanced SQL
SELECT user_id,
AVG(purchase_amount),
PREDICT_CHURN(user_id) as churn_probability, -- ML built-in
EXPLAIN_ANOMALY(purchase_amount) as why_unusual -- AI explains outliers
FROM purchases
WHERE purchase_date > '2024-01-01'
GROUP BY user_id;
-- 2030: Natural language → SQL → Results
-- User: "Show me users likely to churn"
-- AI: [Generates optimized SQL with ML functions]
-- Database: [Returns results with explanations]
SQL 成为AI 生成的查询的编译目标。人类可读的查询语言不断发展,但 SQL 仍然是执行层。
我的争议观点是:构建“SQL 替代品”的初创公司是完全错误的。构建使 SQL 变得更好的工具,而不是避免它的工具
预测六:大而集中化
为什么数据网格是一次弯路,我们正回归集中化(但这次更智能)
还记得当初大家对数据网格的兴奋之情吗?让一切去中心化!领域团队自主拥有数据!联邦架构!
我认为我们即将意识到那是一个错误。
不是因为那些想法本身错了。而是因为分布式系统真的、真的很难管理,要求每个领域团队运行他们自己的数据基础设施,就像要求每个部门运行他们自己的 IT 部门一样不切实际。
数据网格在实际中发生的情况:
Theory:
Domain A → Clean, well-governed data product
Domain B → Clean, well-governed data product
Domain C → Clean, well-governed data product
Reality:
Domain A → Outdated documentation, breaking changes, no monitoring
Domain B → Different naming conventions, inconsistent quality
Domain C → "The person who built this left, nobody knows how it works"
问题在于:您将数据工程的复杂度乘以了领域(部门)的数量。
修正方向:
我们将回归集中化,但会吸取教训:
# Not this (old centralized):
Central data team owns everything
└─ Bottleneck, slow, can't scale
# Not this (data mesh):
Every domain team owns their data
└─ Chaos, inconsistency, duplicated effort
# This (smart centralization):
Central platform team provides:
- Self-service tools with guardrails
- Automated governance
- Standardized patterns
- 24/7 monitoring
Domain teams use platform to:
- Publish data products easily
- With automatic quality checks
- With consistent semantics
- With zero infrastructure management
想象一下:平台即产品,而非数据即产品。
我的预测: 到 2027 年,那些全面拥抱数据网格的公司将会悄悄地重新集中化。他们不会这么称呼它——可能会叫"平台工程"或"数据产品平台"——但这本质上是集中化 2.0。
终局之战:我们实际正在构建的目标
一个数据库,一个语义层,AI 智能体,别无他物
让我为您描绘 2030 年的图景:
将取代一切的架构:
┌─────────────────────────────────────────┐
│ AI Data Agent Layer │
│ (Understands intent, generates queries) │
└─────────────────┬───────────────────────┘
│
┌─────────────────▼───────────────────────┐
│ Semantic Layer │
│ (Single source of truth for metrics) │
└─────────────────┬───────────────────────┘
│
┌─────────────────▼───────────────────────┐
│ Unified HTAP Database │
│ (Handles transactions + analytics) │
└──────────────────────────────────────────┘
就这三层:
什么会消失:
什么会兴起:
那么您现在该做什么?
如何为未来十年定位自己
如果您是正在阅读此文的数据工程师,您有两个选择:
选择 1:与未来抗争
选择 2:乘风破浪
未来 12 个月的具体行动建议:
2026 年第一季度: 选择一个统一数据库,尝试在没有 ETL 的情况下重建一个数据管道。
2026 年第二季度: 为最关键的业务指标实施一个语义层。
2026 年第三季度: 尝试使用 AI 生成数据查询。
2026 年第四季度: 写下您的学习心得。
元技能:快速原型设计数据架构的能力。
数据栈即将经历分裂、实验和再整合的过程。最终的赢家将是那些能够快速测试新方法、学习有效模式、并影响最终哪种模式胜出的人。
十、我个人的赌注
我将把我的资金(和职业生涯)押注在何处?
我将全力投入:
我不看好:
如果我对了: 五年后,"数据工程师"这个称谓会像今天的"网站管理员"一样显得过时。我们将成为语义工程师、AI 编排师和数据产品经理。
如果我错了: 我花时间学习了一些无关紧要的工具,而现代数据栈将继续主导下一个十年。
但关键在于:即使我的预测只有 30% 是对的,所带来的变化也足够重大,值得我们关注。
十一、真正的问题
这篇文章充满了预测。有些会是对的,有些可能会错得离谱。这没关系 —— 目标不是每个细节都准确无误,而是深入思考我们未来的方向。
所以,我想问您的问题是:
您今天正在构建的东西,五年后还会重要吗?
您是在构建那些将被自动化的管道?还是在构建语义、上下文、业务理解这些 AI 无法轻易复制的核心资产?
未来五年,将区分出哪些数据工程师能够与时俱进,哪些不能。技术技能固然重要,但预见未来的能力更为关键。
作者丨Reliable Data Engineering 编译丨dbaplus社群
来源丨网址:https://medium.com/@reliabledataengineering/the-database-endgame-why-everything-youre-building-today-will-be-legacy-tomorrow-47536e2f138d
*仅为提供参考和学习交流,不代表dbaplus社群立场!dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721