网站首页 > 技术文章正文

ElasticSearch优化点简述（elasticsearch集群优化）

nanyue 2024-10-14 11:36:22 技术文章 5 ℃

ssd硬盘

routing

分别查询和合并查询

避免使用range查询

JVM GC的选择

ES优化问题:

第一次搜索的时候，是5~10s，后面反而就快了，可能就几百毫秒?往ES里index的数据, 实际上都是写到磁盘文件中去了, 查询的时候操作系统会将磁盘文件里的数据自动缓存到FileSystem Cache里面去.ES严重依赖这个cache, 所以FileSystemCache分配的内存要占到机器内存的一半.
只有需要搜索的字段再index到ES中(当然必须包括id), 查出来id之后再去其他数据库中查完整的数据.
如果数据量实在太大, FileSystem Cache无论如何也容纳不了一半的数据, 那么就需要数据预热, 对热门搜索要定时刷到cache中.
冷热分离. 热门搜索数据要放到不同的机器上.
避免join/nested/parent-child搜索, 能在代码中完成尽量在代码中完成
减少分页, 使用Scroll API代替(正常ES会维护之前翻页的上下文信息, 但是不能维护时间太长,浪费资源, 该api会设定一个存储的时间), 或者search_after来代替.shopstyle是将scroll调用的api和search的api进行分离. search_after与scroll api很相似, 但是search_after是无状态的. search_after举例:首先要理解 search_after 这个功能；例如你现在需要按照id 和 time 进行排序；你获取了第一页的结果后，现在需要获取第二页内容你需要使用第一页最后一条的id 和 time，作为 search_after 的参数chuan传递到查询请求中。下面是样例：

SearchAfterBuilder searchAfterBuilder = new SearchAfterBuilder(); 
searchAfterBuilder.setSortValues(new Object[]{"上一页的ID", "上一页的时间"});