老板让我牵头搞ELK，我该如何确定ES的集群规模？

Yacine Younes 2022-10-20 10:02:30

新人使用Elasticsearch可以轻松上手，快速构建高可用集群。当第一个Elasticsearch集群建成后，几分钟就可以实现索引和搜索。但是，对于生产环境集群，必须注意几个问题：

有多大把握让集群稳定运行？

集群的吞吐量是多少？
集群性能如何？
集群中是否有足够的可用资源，它们是否易于扩展和维护？
集群大小合适吗？

每个人在新项目、新架构部署时都应该思考这些问题。在本文中，我们将深入讨论上面提到的性能、ES集群规模问题。并提供一套方法和建议，帮助你确定ES集群的规模，并对环境进行基准测试。

无论我们定义什么样的系统架构，我们都需要对用例以及我们提供的功能有一个清晰的理解，架构也可能受到现有硬件的约束，比如现有的硬件、公司的全球战略等诸多约束。这些都是我们在规模试验中需要考虑的因素。

一、硬件资源如何分配

性能取决于Elasticsearch执行什么任务，在什么平台上运行。对于每个搜索或索引操作，都涉及到以下资源：

1、磁盘存储

建议尽可能使用 SSD，特别是那些运行搜索和索引操作的节点。由于 SSD 存储的成本较高，建议使用热温架构来减少支出。

在裸机上操作时，本地磁盘才是王道！

Elasticsearch 不需要冗余存储（无需 RAID 1/5/10），日志和指标用例通常至少有一个副本分片，这是确保容错性的最低要求，同时又能最大限度地减少写入次数。

2、内存

JVM：存储关于集群、索引、分片、段和 Fielddata 的元数据。该项较为理想的设置是可用 RAM 的 50%。

OS Cache：Elasticsearch 将使用剩余的可用内存来缓存数据，避免在全文搜索、对文档值执行聚合和排序期间多次读取磁盘，从而实现性能的极大提升。

3、CPU

Elasticsearch 节点具有线程池和线程队列，它们会使用可用的计算资源。在 Elasticsearch 中，CPU 核心的数量和性能决定着数据操作的平均速度和峰值吞吐量。

4、网络

网络性能—带宽和延迟会影响节点之间的通信和集群之间的功能，如跨集群搜索和跨集群复制。

二、根据数据量确定集群规模

对于指标和日志用例，通常要管理大量的数据。因此，根据数据量初步确定Elasticsearch的聚类规模是有意义的。在测试开始时，需要考虑以下问题：

每天将索引多大量的原始数据 (GB)
数据保留多久
在 hot tier 存储多久
在 warm tier 存储多久
强制执行多少个副本分片

在确定规模时，一般增加5%或10%以适应误差，增加15%以保持低于磁盘阈值。此外，最好添加一个故障冗余节点。

1、掐指一算

数据总量 (GB) = 每日原始数据量 (GB) * 保留天数 *（副本数 + 1）

存储总量 (GB) = 数据总量 (GB) *（1 + 0.15 磁盘水位阈值 + 0.1 误差幅度）

数据节点总数 = ROUNDUP（存储总量 (GB) /每个数据节点的内存/内存与数据值比）在大规模部署的情况下，添加一个节点用于故障转移容量会更安全。

2、小规模集群

假设每天1GB的数据，数据存储 9个月。

对于这种小型集群，每个节点分配 8G 内存。那么可以得出:

总数据量 (GB) = 1GB x（9 x 30 天）x 2 = 540GB

总存储量 (GB) = 540GB x (1+0.15+0.1) = 675GB

总数据节点数 = 675GB 磁盘存储量/ 8GB RAM /内存与数据比 30 = 3 个节点

基于 Elastic Cloud 上构建部署：

3、大规模集群部署

假设：

每天产生 100GB 数据，并且需把数据在hot tier 中存储 30 天，在warm tier中存储 12 个月。

每个节点有 64GB 的内存，其中 30GB 分配给JVM，其余分配给 OS Cache。

所用 hot tier 内存与数据的典型比值是 1:30，warm tier是 1:160。

如果每天接收 100GB 的数据，并且必须将这些数据存储 30 天，那么可以得出：

hot tier中的数据总量 (GB) =（100GB x 30 天 * 2）= 6000GB

hot tier中的存储总量 (GB) = 6000GB x (1+0.15+0.1) = 7500GB

hot tier中的数据节点总数 = ROUNDUP(7500 / 64 / 30) + 1 = 5 个节点

warm tier中的数据总量 (GB) =（100GB x 365 天 * 2）= 73000GB

warm tier中的存储总量 (GB) = 73000GB x (1+0.15+0.1) = 91250GB

warm tier中的数据节点总数 = ROUNDUP(91250 / 64 / 160) + 1 = 10 个节点

在 Elastic Cloud 上构建集群：

三、基准测试

到目前为止，我们已经确定了合适的集群大小。接下来，我们需要确认所获得的值在实际条件下是否能够成立。为了在投入生产环境之前更有信心，我们需要进行基准测试，以确认我们可以实现预期的性能和目标SLA。

在这个基准测试中，我们将使用 Rally。该工具易于部署和执行，并且完全可配置。它可以测试多种场景。

为了简化结果分析，我们将基准分为两部分，即索引和搜索请求。

四、索引基准测试

对于索引基准测试，我们要尝试弄清楚以下几个问题：

集群的最大索引吞吐量是多少？

每天可以索引的数据量是多少？

集群是过大还是过小？

在这项基准测试中，我们将使用一个 3 节点集群，每个节点的配置如下：

8 vCPU

标准永久磁盘 (HDD)

32GB/16 堆

索引基准测试 1

这项基准测试使用的数据集是 Metricbeat 数据，规格如下：

1,079,600 个文档

数据量：1.2GB

平均文档大小：1.17 KB

指数的表现也将取决于指数层的表现，在这种情况下是反弹。在这个例子中，我们将执行多个基准测试来找出最佳的批处理大小和最佳的线程数量。

我们将从1个Rally客户开始寻找最佳批量。然后从100开始，在随后的运行中加倍。这表明我们的最佳批处理大小是12，000(大约13.7 MB)，我们每秒可以索引13，000个请求。

接下来，使用类似的方法，我们发现客户端的最佳数量是16，这使我们能够每秒索引62，000个请求。

我们集群的最大索引吞吐量每秒可以处理62，000个请求。为了更进一步，我们需要添加一个新的节点。

我很想知道一个节点可以处理多少个索引请求，所以我在一个节点集群和两个节点集群上执行了相同的跟踪，以观察不同之处。

结论

在我的测试环境中，最大索引吞吐量如下：

使用1个节点和1个 shard，每秒得到22，000个请求。

使用2个节点和2个shard，每秒得到43，000个请求。

使用3个节点和3个shard，每秒得到62，000个请求。

任何其他索引请求都将被放入队列，当队列变满时，节点将发送一个拒绝响应。

我们的数据集影响集群的性能，这就是为什么使用您自己的数据来执行这些跟踪非常重要。

索引基准测试 2

在接下来的步骤中，使用以下配置对HTTP服务器日志数据执行相同的跟踪：

数据量：31.1GB

文档数：247,249,096

平均文档大小：0.8 KB

最优批量大小为 16,000 个文档。

得出的最优客户端数为 32 个。

HTTP 服务器日志数据的最大索引吞吐量为每秒 220,000 个请求。

五、搜索基准测试

为了对搜索性能进行基准测试，我们将考虑使用 20 个客户端，目标吞吐量为 1000 OPS。

对于搜索，我们将执行三项基准测试：

1、查询的服务时间

我们将比较一组查询的服务时间 (90%)。

1）Metricbeat 数据集

auto-date-historgram

auto-data-histogram-with-tz

date-histogram

Date-histogram-with-tz

我们可以观察到，auto-data-histogram-with-tz 查询的服务时间更长。

2）HTTP 服务器日志数据集

Default

Term

Range

Hourly_agg

Desc_sort_timestamp

Asc_sort_timestamp

我们可以观察到，desc_sort_timestamp and desc_sort_timestamp 查询的服务时间更长。

2、并行查询的服务时间

我们来看看，如果并行执行查询，90% 服务时间会增加。

3、并行索引的索引率和服务时间

我们将执行并行索引任务和搜索，以查看这些查询的索引率和服务时间。

我们来看看，当与索引操作并行执行时，查询的 90% 服务时间会增加。

4、读取结果

在 32 个客户端用于索引，20 个用户用于搜索时：

索引吞吐量为 173,000，小于先前提到的 220,000。

搜索吞吐量为每秒 1000 个请求。

六、结论

调整测试方法，可以得出一套根据数据量计算所需节点数量的方法。为了更好地规划集群的未来性能，还需要对基础设施进行基准测试。性能也取决于用例，所以建议使用最接近实际情况的数据和查询进行测试。

作者丨Yacine Younes

来源丨网址：https://www.elastic.co/cn/blog/benchmarking-and-sizing-your-elasticsearch-cluster-for-logs-and-metrics

dbaplus社群欢迎广大技术人员投稿，投稿邮箱：editor@dbaplus.cn

最新评论

: 访客 2024年04月08日

如果字段的最大可能长度超过255字节，那么长度值可能…

: 访客 2024年03月04日

只能说作者太用心了，优秀

: 访客 2024年02月23日

感谢详解

: 访客 2024年02月20日

一般干个7-8年（即30岁左右），能做到年入40w-50w；有…

: 访客 2023年08月20日

230721

活动预告

已结束

OceanBase 社区年度社区嘉年华解锁！AI Coding、社区开放麦、开源集市、社区圆桌……1月31日等你共聚！

时间：2026-01-31形式：线下活动
已结束

1 月 24 日北京｜Data for AI Meetup：Agent 时代的数据基础设施正在如何重构？

时间：2026-01-24形式：线上活动
已结束

直播预告丨AIOps如何从Demo走向规模化落地

时间：2026-01-28形式：线上活动
已结束

AI新质生产力研讨会

时间：2026-01-24形式：线下活动
已结束

直播预告丨携程全链路压测体系建设：节日洪峰场景下的落地实践

时间：2026-01-14形式：线上活动
已结束

直播预告丨大模型在数据安全领域的应用探索

时间：2026-01-07形式：线上活动
已结束

北京开发者集结！12月21日，共话大模型推理与开源生态

时间：2025-12-21形式：线下活动
已结束

Data for AI Meetup @上海 12/20（周六）聚焦AI多模态湖仓

时间：2025-12-20形式：线下活动
已结束

ITCP联盟第五届技术大会【AI应用专场】报名火热开启！

时间：2025-12-13形式：线下活动
已结束

直播预告丨数据湖的“超级引擎”：Daft如何为AI应用提速

时间：2025-12-10形式：线上活动
已结束

以开源重塑全球 AI 竞争格局，COSCon'25 大模型开源论坛议程正式发布

时间：2025-12-06形式：线下活动
已结束

11月29日（星期六），Gitee Talk | 模力方舟 AI 沙龙 · 深圳站来了！

时间：2025-11-29形式：线下活动
已结束

ITCP联盟第五届技术大会【AI基建专场】报名火热开启！

时间：2025-11-29形式：线下活动
已结束

2025软件技术大会将于11月28日在北京国家会议中心二期举行

时间：2025-11-28形式：线下活动
已结束

直播预告 | AI Agent在物流业务场景的应用

时间：2025-11-26形式：线上活动
查看更多

老板让我牵头搞ELK，我该如何确定ES的集群规模？

降本的Kubernetes何时成了“成本刺客”？

YouTube如何利用MySQL支撑24.9亿用户？

人肉运维100次后，年底出了P0级故障……

关于国产数据库我不得不说

分库分表，可能真的要退出历史舞台了！