大模型并没有直接带来 AI 应用的成熟。真正决定 AI 能否规模化落地的,正在从模型本身,转移到数据、上下文与基础设施。
与此同时,数据基础设施也正经历一轮深刻演进:从传统的数据湖仓,到多模态数据管理;从 SQL 查询引擎,到面向 AI 的数据解析与治理能力。这些变化,正在重新定义我们构建 AI 应用的方式。
1 月 24 日(周六)下午,Data for AI 社区 将携手 ALC Beijing (Apache Local Community Beijing) 举办 Data for AI Meetup Beijing,邀请来自产业、开源社区与学术界的一线实践者,围绕 AI 时代的数据基础设施演进展开深入交流。
本次 Meetup 汇聚了来自字节跳动火山引擎 / Daft 社区、OceanBase 社区、北京大学、Datastrato / Apache Gravitino 社区、Zilliz / Milvus 社区的技术专家,深度剖析 AI 时代数据基础设施的技术演进路径。
AI 训练对数据处理提出了全新挑战。火山引擎 AI 数据湖服务架构师琚克俭将分享 Daft 在多模态数据处理上的工程实践,聚焦图像、视频、文本等异构数据在统一处理、预处理与训练加载阶段的性能与架构挑战。
这一分享直面当前 AI 工程的核心痛点:传统数据引擎已难以支撑多模态 AI 工作负载,而 Daft 通过全新的架构设计,在数据预处理和训练加载环节实现了显著的性能提升。
Datastrato VP of Engineering 史少锋 将深度解析 Apache Gravitino 1.1.0 的核心升级,包括 Lance REST 支持、Generic Lakehouse Catalog、Iceberg 安全增强等关键特性。
当 AI 团队需要在多个集群间管理训练数据、推理数据和模型元数据时,传统的元数据工具往往各自为政。Apache Gravitino 1.1.0 通过统一的元数据治理架构,让跨引擎、跨存储的数据协同变得标准化、可管理,大幅降低 AI 工程中的数据协同成本。
OceanBase 技术专家汤庆将深度解析当下最热的「上下文工程」话题。他指出,企业级 Agent 面临三大核心挑战:如何让 Agent 拥有可靠的「记忆」(记忆管理)、如何让 Agent「理解」复杂文档(知识检索),以及如何统一处理向量、文本、结构化数据(数据统一)。
这三款 AI 产品的协同设计给出了答案:PowerMem 基于艾宾浩斯遗忘曲线构建智能记忆系统并支持多智能体隔离,PowerRAG 提供多引擎 OCR 与向量 + 全文的混合检索能力,seekdb 则作为 AI 原生数据库统一管理多模态数据并兼容 MySQL 生态。这套方案的核心价值在于:用数据架构的确定性,对抗 Agent 行为的不确定性。
北京大学助理教授张文涛将从学术与工程结合的视角,系统阐述 AI 从「模型为中心」到「数据为中心」的范式转变。当大模型能力趋同,数据质量正在成为决定模型性能的关键变量。
张文涛团队主导开发的 DataFlow 数据准备系统已在大模型预训练、企业知识库构建等场景得到验证。本次分享将深入解析 LLM 数据工程的完整流程:如何获取数据(爬取、解析、合成、标注),如何处理数据(过滤、改写、配比),以及如何评估数据质量。这套开源工具链与方法论,正在为 AI 开发者降低数据工程的门槛。
Zilliz 资深解决方案架构师刘汉卿将系统回顾从 Prompt Engineering 到 Context Engineering 的演进路径。随着 RAG 技术从单一向量检索发展到 GraphRAG 与全文检索的混合查询阶段,检索系统已经从「找到相似内容」进化到「理解查询意图并精准召回」。
在这个演进过程中,一个关键趋势是:用向量计算代替多轮LLM推理,通过检索层的优化来提升 AI 应用的性能与稳定性。刘汉卿将结合企业知识库、推荐系统、智能助理等场景,分享混合查询的工作流搭建经验,以及在金融、医疗、法律、教育等行业的实际落地案例。
独立开源开发者袁怿(Sam Yuan)将从前瞻视角探讨 2026 年上下文工程的技术趋势。如果说 2025 是 Agent 元年,那么随着上下文工程的快速演进,一个关键问题正在浮现:上下文能力是否应该从「各自实现」走向「横向平台化」?
袁怿将上下文工程拆解为三个维度:工具调用(空间维度)、RAG(信息密度维度)与 Memory(时间维度)。他将以最近进入 AAIF 的 Skill 机制为切入点,对比 Skill 与传统 Function Call 的本质差异,并结合他在开源社区贡献的 StructuredContextLanguage 项目,展示以渐进式加载为代表的平台化思路——让 AgentOS 像操作系统管理进程一样,统一管理上下文资源。
从多模态数据处理到 AI 原生元数据平台,从上下文工程到混合检索系统——本次 Meetup 的所有分享指向同一个命题:在 Agent 时代,数据不再只是「被调用的资源」,而正在成为被理解、被约束、被治理的核心能力。
越来越多团队在实践中遇到相似挑战:Agent 需要访问的数据分散在不同系统中,权限、语义与上下文边界不清;模型可以生成「看似合理」的请求,却难以保证结果的安全性与一致性。这些问题往往无法通过 Prompt 或单点优化解决。
我们特邀到前 Apple 数据与机器学习平台负责人谭涛(Kwaai AI Lab 顾问)、Datastrato 创始人 CEO 堵俊平、北京大学助理教授张文涛三位圆桌嘉宾,围绕三个核心问题展开讨论:
这些讨论并不立马给出最终答案,而是帮助我们勾勒下一代面向 AI 应用的数据基础设施轮廓——一个更开放、更可治理、也更适合 Agent 时代的技术底座。
时间:1 月 24 日(周六)13:10 – 18:00
地点:北京 · 原点学堂(东升大厦 A 座 10 层)(不提供线上直播)
立即报名:
扫描下方二维码
⚠️ 名额有限,需审核通过(请详实填写报名信息)
这是一场面向 AI & Data 工程实践者的技术深度交流。
无论你是正在构建企业级 Agent 系统的架构师,
还是关注 Data-centric AI 的研发工程师,
都能在这里找到有价值的技术洞察和落地经验。
Community Over Code,期待与你在北京相聚。
Data for AI 是一个聚焦数据与人工智能基础设施生态的技术交流社区。
社区的分享嘉宾来自全球数据与人工智能领域众多头部厂商与新锐创业团队,包括 Alibaba、Anyscale、AWS、Bilibili、ByteDance、Databricks、Datastrato、eBay、IBM、Intel、LanceDB、Lilith、Meta、Microsoft、NVIDIA、OpenAI、Pinterest、Roku、Tencent、Uber、Xiaomi、Zilliz 等企业。如此多方参与,让社区能持续输出高质量、贴近行业一线的技术内容。
我们的组织者来自 Linux 和 Apache 等知名开源基金会和社区。这让 Data for AI 在保持开放友好氛围的同时,也具备中立、可信、专业的技术讨论基础。
Data for AI 的目标,是为数据工程、AI & Data Infra 等领域的开发者打造一个轻松而专业的交流平台。通过线上线下的活动,大家可以一起探索前沿趋势、分享实践经验、拆解真实业务案例,打破行业信息壁垒,连接优质同行伙伴,共同构建一个持续成长、价值共生的技术社群网络。
加入我们
如您希望加入 Data for AI 社区,请联系社区主理人 Richard(微信:OPQRichard)沟通交流。
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721