亿级日增量的ES线上环境集群部署，上干货！

铭毅天下 2021-08-23 10:31:00

在生产环境搭建或维护 Elasticsearch 集群和个人搭建集群的小打小闹有非常大的不同。

本文的最佳实践基于每天增量数亿+ 的线上环境。

少啰嗦，上干货。

一、内存

Elasticsearch 和 Lucene 都是 Java 语言编写，这意味着我们必须注意堆内存的设置。

Elasticsearch 可用的堆越多，它可用于过滤器（filter）和其他缓存的内存也就越多，更进一步讲可以提高查询性能。

但请注意，过多的堆可能会使垃圾回收暂停时间过长。请勿将堆内存的最大值设置为 JVM 用于压缩对象指针（压缩的 oops）的临界值之上，确切的临界值有所不同，但不要超过 32 GB。

常见内存配置坑 1：堆内存设置过大

举例：Elasticsearch 宿主机：64 GB 内存，堆内存恨不得设置为 64 GB。

但，这忽略了堆的另一部分内存使用大户：OS 文件缓存。

Lucene 旨在利用底层操作系统来缓存内存中的数据结构。Lucene 段存储在单独的文件中。

由于段是不可变的（immutable），因此这些文件永远不会更改。这使它们非常易于缓存，并且底层操作系统很乐意将热段驻留在内存中，以加快访问速度。

这些段包括倒排索引（用于全文搜索）和doc values 正排索引（用于聚合）。Lucene 的性能取决于与 OS 文件缓存的交互。

如果你将所有可用内存分配给 Elasticsearch 的堆，则 OS 文件缓存将不会剩下任何可用空间。这会严重影响性能。

官方标准建议是：将 50％的可用内存（不超过 32 GB，一般建议最大设置为：31 GB）分配给 Elasticsearch 堆，而其余 50％留给 Lucene 缓存。

图片来自网络

可以通过以下方式配置 Elasticsearch 堆：

方式一：堆内存配置文件 jvm.options

# Xms represents the initial size of total heap space# Xmx represents the maximum size of total heap space-Xms16g-Xmx16g

方式二：启动参数设置

ES_JAVA_OPTS="-Xms10g -Xmx10g" ./bin/elasticsearch

二、CPU

运行复杂的缓存查询、密集写入数据都需要大量的CPU，因此选择正确的查询类型以及渐进的写入策略至关重要。

一个节点使用多个线程池来管理内存消耗。与线程池关联的队列使待处理的请求得以保留（类似缓冲效果）而不是被丢弃。

由于 Elasticsearch会做动态分配，除非有非常具体的要求，否则不建议更改线程池和队列大小。

线程池和队列的设置，参见：

Elasticsearch 线程池和队列问题，请先看这一篇。