Elasticsearch—生产环境集群核心配置
一. Elasticsearch相关配置
path.data 和 path.log
这两个配置的目录分别用来存放索引数据
和日志
,它们的默认路径位于$_ES_HOME
的子文件夹内。这样有很大风险,特别是在升级Elasticsearch版本时,这些数据很可能被删除,在生产环境中可参考下面的配置
path: logs: /var/log/elasticsearch data: /var/data/elasticsearch
另外path.data支持配置多个目录,每个目录都会用来存放数据,但是单个分片会存放在同一个目录内,多目录配置参考
path: data: - /mnt/elasticsearch_1 - /mnt/elasticsearch_2 - /mnt/elasticsearch_3
集群名称
默认情况下集群名为elasticsearch
,为了区分不同集群,在生产环境需要进行修改。每个节点需要配置相同的集群名才能加入同一个集群中,且每个节点只能加入一个集群,要保证集群名相同,否则会加入错误的集群中。
cluster.name: test-cluster
节点名称
默认情况下节点名称是操作系统的主机名,在Linux下使用hostname -f
可查看主机名。也可通过elasticsearch.yml
配置文件显示的配置,使可读性更好。配置示例如下
node.name: test-node
网络地址 network.host
默认配置下,Elasticsearch绑定的是一个环回地址127.0.0.1
,这只适合在单机开发时使用。在正式环境中,为了保证该节点能够被其它节点找到,形成一个集群,需要设置一个非环回地址,如果在内网中部署集群,可通过ifconfig
命令查看当前节点的内网ip地址。配置如下
network.host: 192.168.60.11
服务发现和集群形成设置
1. 服务发现种子主机 discovery.seed_hosts
在开发环境中,服务发现主机名不需要设置,Elasticsearch默认会从本机的9300-9305端口尝试去连接其它节点,这提供了自动集群的体验,不需要任何配置。但在正式环境中,每个节点理论上都是不同的机器,这时候需要配置discovery.seed_hosts
,discovery.seed_hosts
可以是ip
、ip:端口
和域名
。如果配置是ip,Elasticsearch默认会使用transport.profiles.default.port
配置项的端口,该端口默认为9300;如果配置是域名,且该域名下绑定了多个ip,ES会尝试去连接多个ip。下面是配置示例
discovery.seed_hosts: - 192.168.1.10:9300 - 192.168.1.11 - seeds.mydomain.com
2. 初始主节点 cluster.initial_master_nodes
当开启一个全新的集群时,会有一个集群的引导步骤,这步骤用来确定哪些节点参与第一次的主节点选举。在开发模式下,这个步骤由节点自动完成,这种模式本质上是不安全的,因为不是所有节点都适合做主节点,主节点关系到集群的稳定性。因此在生产模式下,集群第一次启动时,需要有一个适合作为主节点的节点列表,这个列表就是通过cluster.initial_master_nodes
来配置,在配置中需要写出具体的节点名称,对应node.name
配置项。配置示例如下
cluster.initial_master_nodes: - master-node-a - master-node-b - master-node-c
设置堆内存容量
默认情况下,Elasticsearch中JVM堆内存的最小值和最大值为1GB,在生产模式下,堆内存容量是非常重要的,需要确保Elasticsearch有足够的堆内存可用。我们可以在jvm.options
配置文件中,通过配置Xmx
和Xms
项来决定JVM堆内存容量,配置的容量本身也取决于服务器的物理内存,Xmx
和Xms
的值不超过物理内存的50%。因为Elasticsearch除了堆内存,也会有其它的操作,比如使用堆外缓冲区进行网络通信,通过操作系统的文件系统缓存来访问文件,还有JVM自身也需要一些内存。对内存容量,最大可设置接近32GB,26GB是安全值,有些系统下可到达30GB。示例配置如下
-Xms2g -Xmx2g
二. 操作系统配置
文件描述符
Linux默认配置下最大打开文件数为1024,可通过ulimit -n
查看,而ES在建索引过程中会打开很多小文件,这样很容易超过限制,文件描述符临时设置命令如下
sudo su ulimit -n 65535 su elasticsearch
永久设置可修改/etc/security/limits.conf
文件
elasticsearch - nofile 65535
上面的配置表示设置elasticsearch用户下,打开文件描述符最大数量为65535。
禁止交换空间
Linux的交换空间机制是指,当内存资源不足时,Linux把某些页的内容转移至硬盘上的一块空间上,以释放内存空间。硬盘上的那块空间叫做交换空间(swap space)。如果不关闭swap,Elasticsearch的堆内存可能会被挤到磁盘中,垃圾回收速度会从毫秒级别变成分钟级别,导致节点的响应速度慢甚至和集群断开连接。有三种方式来避免交换空间发生
1.禁止所有交换空间
在Linux上,临时关闭操作系统交换空间可执行下面命令
sudo swapoff -a
永久关闭需要修改/etc/fstab
文件。
2.配置swappiness
修改 /etc/sysctl.conf
文件,设置vm.swappiness = 1
,可以使Linux在一般情况下不使用交换,除非万不得已。
3.使用内存锁
使用内存锁可以在ES启动时,锁住一段堆内存,保证堆内存不被挤到磁盘中,对应Linux中的mlockall
系统调用,在ES中配置config/elasticsearch.yml
文件。配置如下
bootstrap.memory_lock: true
虚拟内存
Elasticsearch通过文件映射(mmap)来读取磁盘中的文件,这样可以比read
系统调用少一次内存拷贝,也被称为0拷贝技术。ES映射的文件会很多,所以需要修改最大映射文件的数量,通过修改vm.max_map_count
配置项可实现。临时修改可调用下面命令
sysctl -w vm.max_map_count=262144
要永久修改这个值,需要修改/etc/sysctl.conf
文件,增加如下行
vm.max_map_count=262144
然后再运行sysctl -p
重新加载系统配置才会生效,最后运行sysctl vm.max_map_count
命令检测设置是否生效。
设置线程
Elasticsearch中不同的操作有不同的线程池,为了确保Elasticsearch线程正常创建线程,需要设置操作系统的线程数限制。最小值为4096,可通过修改/etc/security/limits.conf
来完成设置。
总结
以上的配置在生产环境中都很重要,大部分参考了官方文档,结合了自己的理解,如有描述错误的地方,请指正。希望对你有帮助,谢谢!
相关推荐
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。