Elasticsearch 分页问题 | iLikeBug

Elasticsearch

🌒Elasticsearch 分页问题

00 min

2025-2-17

type

status

date

slug

summary

tags

category

icon

password

在 Elasticsearch 中，分页是一个常见的需求，但传统的分页方式（如 from 和 size）在处理大数据集时存在性能问题。以下是 Elasticsearch 分页的常见问题及正确的分页方法：

1.传统分页的问题

（1）深度分页性能差

使用 from 和 size 进行分页时，Elasticsearch 需要从每个分片中获取 from + size 条数据，然后在协调节点上对所有分片的结果进行排序和截取。

当 from 值很大时（如 from: 10000, size: 10），会导致大量的数据传输和排序操作，严重影响性能。

（2）内存消耗高

深度分页需要在内存中存储大量数据，可能导致内存溢出（OOM）。

（3）结果不一致

在分页过程中，如果索引有更新（如文档新增或删除），可能会导致分页结果不一致。

2.正确的分页方法

为了避免上述问题，可以采用以下几种分页方式：

2.1.使用 `search_after`

search_after 是一种基于游标的分页方式，适合深度分页场景。

它通过指定上一页的排序值（Sort Value）来获取下一页的数据，避免了全局排序的性能问题。

示例：

获取第一页后，使用最后一行的排序值作为 search_after 参数：

优点：

性能高，适合深度分页。

结果一致性好。

缺点：

需要指定唯一的排序字段（如 _id）。

2.2.使用 Scroll API

Scroll API 是一种基于快照的分页方式，适合需要遍历大量数据的场景。

它会在第一次查询时创建一个快照，后续分页基于快照进行。

示例：

获取下一页数据：

优点：

适合遍历大量数据。

结果一致性好。

缺点：

快照会占用资源，不适合实时查询。

需要手动清理 Scroll 上下文。

2.3.使用 Point in Time (PIT)

Point in Time (PIT) 是 Elasticsearch 7.10 引入的功能，结合 search_after 使用，适合实时分页。

它会在查询时创建一个时间点（Point in Time），确保分页过程中数据一致性。

示例： 创建 PIT：

使用 PIT 和 search_after 分页：

优点：

结果一致性好。

适合实时分页。

缺点：

需要手动管理 PIT 的生命周期。

2.4.限制分页深度

如果业务场景允许，可以限制分页深度（如只允许查看前 1000 条数据）。

通过业务逻辑或前端限制，避免用户请求过深的分页。

3.分页方法的选择

浅分页（如 from: 0, size: 10）：使用 from 和 size。

深度分页：使用 search_after 或 Scroll API。

实时分页：使用 Point in Time (PIT) 结合 search_after。

4.分页优化建议

避免深度分页：尽量使用 search_after 或 Scroll API。

合理设置分页大小：避免一次性获取过多数据。

使用唯一排序字段：确保排序字段的唯一性（如 _id），避免分页结果不一致。

监控性能：定期监控分页查询的性能，优化查询和索引设计。

通过以上方法，可以有效地解决 Elasticsearch 分页的性能问题，提升查询效率。

Elasticsearch 查询语句

简单聊聊 golang 的内存逃逸

简单聊聊 golang 的内存逃逸

Author:iLikeBug
URL:http://ilikebug.blog/Elasticsearch/es-page
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

HTTPS 的前世今生

实现 Redis 单机分布式锁

MySQL 事务隔离级别和MVCC

MySQL 的行格式

深入理解Go语言的Context

深入理解Go语言切片的底层原理

Catalog