你做的可观测性真的需要数据湖吗?
B. Cameron Gain
2025-03-22 16:32:00
数据湖已成为可观测性的重要组成部分。这是因为它们可以理想地收集和集成各种形式和结构的数据,如果处理得当,这些数据可用于获得分析见解,改善业务运营并增强应用可观测性所提供的功能。
什么是数据湖? Gartner给出了一个相当全面的定义:
数据湖是一种语义灵活的数据存储库,结合了一种或多种处理功能。大多数数据资产都是从不同的企业来源复制而来,并以原始和不同的格式存储,因此可以针对多种用例反复改进和重新利用它们。理想情况下,数据湖将存储和处理任何结构、延迟或容器的数据,例如文件、文档、结果集、表、格式、二进制大对象 (BLOB) 和消息。
数据湖在可观测性方面的优势毋庸置疑。单一存储库包含有用的数据,是改进数据分析的基础,无论是业务运营、DevOps还是平台工程。
然而,创建和管理适当的可观测性数据湖,需要大量的专业知识和基础设施支持,并非所有组织都需采用。如同Kubernetes仅适用于一定规模以上场景,依赖云服务的小型企业若预算有限,可能无需数据湖。
但随着技术的发展,未来这些动态可能会出现更多有趣的发展和变化。可观测性提供商也在探索提供数据湖管理平台的可能性,重塑数据分析与运营洞察模式。
数据湖支持数据收集和高级分析,是对传统数据仓库的补充。例如,数据湖中庞大的源数据存储库支持广泛、灵活且无偏见的数据探索,这是数据挖掘、统计、机器学习 (ML) 和其他分析技术的先决条件。
数据湖还可以提供可扩展和高性能的数据采集、准备和处理,既可以提炼并加载到数据仓库中,也可以在数据湖内进行处理。
综合证书生命周期管理提供商Sectigo的高级研究员Jason Soroko表示,由于数据湖存储原始、多样化的数据并提供高级分析,因此可观测性(通过正确的平台)可以利用数据湖进行调试、洞察生成和预测。
集成 AI 和自动化工具可增强整个堆栈的监控。Soroko 表示,通过OpenTelemetry进行统一数据提取可进一步简化操作,减少孤岛。
“数据湖对于连贯的可观测性至关重要,”他说。“因此,考虑到连贯性,选择正确的平台是关键。”
如果没有数据湖,与专有存储绑定的可观测性平台就会面临碎片化的风险。Soroko 表示,强制使用单独的服务器或云资源会使数据整合变得复杂,并限制统一分析。
“集中式数据湖方法将不同的来源统一起来,实现可扩展的处理和清晰的洞察。数据湖的概念似乎很容易想象,但我们知道实施过程中存在很多潜在的复杂性,”他说。“指导原则应该是确保一致性,这就是数据湖有效的关键。”
借助合适的平台,可观测性不仅可以应用于数据湖进行调试,还可以用于获取业务洞察、进行预测并正确监控整个堆栈。此外,数据堆栈和人工智能将在可观测性中发挥重要作用,正如它们今天已经发挥的作用一样,并且在未来将继续为自动可观测性功能发挥作用。
然而,Grafana Labs社区总监兼首席技术官办公室主任Richard “RichiH” Hartmann直言:并非每个组织都需要数据湖。事实上,对于可观测性而言,数据湖甚至存在缺点。
“虽然数据湖为数据科学和分析提供了强大的功能,但它们并不是可观测性系统的最佳基础,”Hartmann 说。“数据湖的延迟和成本开销使其不太适合现代可观测性的实时、高性能要求。”
接下来是集成和存储数据的任务。虽然与使用云工具和平台支持可观测性的成本相比,存储成本相对较低,但集成成本可能会很高。
New Relic 首席技术策略师 Nic Benders 回应道:“我们如何才能避免整合所有这些数据所带来的巨大成本?其中之一就是进行更多的后期处理,使用人工智能工具以新的方式将事物拼接在一起,而不是建立并确保所有关系都是清晰的。”
“组织将拥有数千个数据湖。几年后,公司将主要以可读格式保存数据。”
数据湖也不是二元命题,不是 0 就是 1,有数据湖是必须的,没有数据湖是不可行的。支持数据湖的集成、易用性、成本、安全性和其他考虑因素与利用存储库中数据的可观测性平台一样好。
数据湖和适当的可观测性工具都是必需的。事实上,关键挑战不是强迫组织在可观测性平台和数据湖之间做出选择。相反,组织可以选择利用开放标准和灵活的集成来“两全其美”,Hartmann 说。
“通过 OpenTelemetry 等工具和集成数百个数据源的可扩展平台(能够支持客户自己的数据湖),组织可以构建符合其特定需求的监控解决方案,”他说。“这在元监控方面特别有趣——可观测性平台实际上可以帮助组织优化其数据湖性能,跟踪数据使用模式并确定成本优化机会。”
一些可观测性提供商可能要求组织将数据存储在其服务器或云资源上,从而可能通过其服务创建数据湖。但是,对于希望通过 OpenTelemetry 和其他方法整合不同数据源,以从不同的可观测性提供商和云源构建统一数据池的组织来说,这种方法可能不太理想。
CSS Electronics 使用 Grafana 实现数据湖可视化。该公司联合创始人兼销售与市场主管 Martin Falch 在 Grafana Labs 博客 中描述,他们通过集成数据湖构建了控制器局域网(CAN)总线数据记录器(CAN总线是用于车辆及机械设备——包括卡车、汽车、船舶和机器人——内部传感器数据通信的协议)。
Falch 指出,用户将数据源纳入更广泛的可视化工作流:通过 AWS Lambda 函数实现自动数据处理生成 Parquet 格式数据湖,并利用 Glue(一种无服务器数据集成服务)等 AWS 工具完成数据湖映射。
但 Hartmann 提醒企业需警惕市场乱象:"当供应商强制用户将数据存储在其专有数据湖中时,本质上是在重复构建昂贵且功能受限的轮子——而顶尖数据平台早已提供更优解决方案。"
对于许多组织而言,数据湖在可观测性上发挥重要作用,但也并非万能。关键在于能否随时访问可观测性情报,通过正确的数据进行解析。
然而,并非所有数据(无论是否在数据湖中)都能够实现可访问和自动观察,从而可以据此做出业务决策、运营分析、开发人员测试和安全操作。换句话说,并非所有可观测都是有价值的。
“事实上,在处理事故时,你无暇处理原始数据,需要随时直接使用仪表板、警报和监控系统,先识别高价值业务洞察,再针对性优化数据链路。”Hartmann 说。
他说,这种方法“让您能够保持运营监控所需的实时响应能力,同时在具有商业意义的地方战略性地利用数据湖。”
作者丨B. Cameron Gain 编译丨Rio
来源丨网址:https://thenewstack.io/observability-do-you-need-a-data-lake/
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721