Elasticsearch学习-ES中文档查询流程是怎样的？

wind_huise 2025-04-08 原文

在ES中查询分为两类：1.基于文档ID查询，2.按照非文档ID查询。

1.基于文档ID查询

当执行如下查询时：

GET /megacorp/employee/1

ES在执行上述查询的具体过程如下：

1、客户端向 Node 1 发送获取请求，此时Node1为协调者节点。

2、协调者节点使用文档的 _id 来确定文档属于分片 0 。分片 0 的副本分片存在于所有的三个节点上。在这种情况下，它将请求转发到 Node 2 。

3、Node 2 将文档返回给 Node 1 ，然后将文档返回给客户端。

在处理读取请求时，协调结点在每次请求的时候都会通过轮询所有的副本分片来达到负载均衡。在文档被检索时，已经被索引的文档可能已经存在于主分片上但是还没有复制到副本分片。在这种情况下，副本分片可能会报告文档不存在，但是主分片可能成功返回文档。一旦索引请求成功返回给用户，文档在主分片和副本分片都是可用的。

2.基于其他条件查询

基于其他条件进行文档检索的过程分为：查询和获取。

查询

由于不确定被检索的文档在多个分片中的分布情况，所以会在所有分片上进行文档查询，所以当一个索引的主分片比较多的时候，检索性能反而不高。

具体检索的过程如下：

1.客户端发送检索请求，此时ES集群中的某个节点会接受到这个请求，接受请求的节点，被称为协调者节点，如图中Node1。

2.协调者节点将检索请求发送到所有主分片/从分片上，如图上Node2中的R0和Node3中的R1，各个主从分/从分片在所在节点本地执行检索请求。此时检索的结果仅仅是符合条件的文档ID和对应排序字段的值，默认情况下，这个排序字段为相关性评分_score。

3.各个分片所在的节点将检索的结果返回给协调节点。

获取

经过查询过程，协调者节点获得了目标文档的ID和文档中对应的排序字段值。基于这些结果数据，接下来会执行数据获取的操作：

1.协调者节点根据排序逻辑和分页逻辑，从结果集数据中筛选最终需要的文档ID。协调者节点根据结果文档ID，计算出文档所在的分片信息，然后向某个或某些个目标分片(如图中Node1的R0和Node2的R1)发送 multi-get request请求，获取文档的全部信息。

2.目标分片将文档数据返回给协调者节点。

3.协调者节点将获取到的结果文档数据，返回给客户端。

上述取回数据的过程和关系型数据库中的普通索引回表过程类似。

3.深度分页查询问题

在分布式系统中，对于分页查询的场景，我们需要了解一下深度分页的性能问题，这是在分布式系统中，比较常见的一个问题。在讨论深度分页问题前，我们先熟悉一下分布式系统中的分页问题。

分页查询通常会伴随着排序问题，如果不按照某个指标进行排序的话，那么分页就没有意义了，如果不进行排序，那么如何区分第一个和第二页的内容呢？

当向分布式系统提交一个分页查询时，该查询请求会被转发到分布式系统中的各个子节点上，在每个子节点中执行该查询，但是我们需要知道，每个子节点的查询结果只是在该节点上的一个局部结果，并不是全局结果，全局结果是所有子节点查询结果的一个综合结果。只有每个局部结果数据集比较"完整"才能保证全局结果的正确性。

这里的完整怎么理解呢？

假如我们把学生考试成绩存储在一个有3个节点的分布式系统中，此时我们需要获取成绩排名第5到第10的学生信息，那么此时的查询流程如下：

1.每个节点需要查询出当前节点，所拥有数据集中学生成绩排名前10的学生信息。

2.汇总30名学生信息，然后从30名学生中找出考试成绩排名在第5到第10名的6位学生。

这里我们会发现，我们的查询请求只需要6名学生信息，但是查询过程却需要对30名学生信息进行处理。具体可以参考下图：

通过上图我们可以发现，考试成绩排名在第5到第10的6名学生信息，在3个节点中的分布并不是在第5到第10的存储位置，有可能分布在第1到第10的任何位置，所以为了保证全局数据的准确性，每个子节点要获取考试成绩是前10名的 10个学生的信息才可以。

上面的查询需求翻译成查询语句就是：按照考试成绩排序后的学生信息集合中，查询从考试成绩第5名开始的后5位学生信息。或者是：在分页大小为5的查询中，获取第2页数据。此时各个子节点需要查询的数据量其实是：pagesize*pagenum。

在ES中的查询语句如下：

GET /_search
{
    "from": 5,
    "size": 5
}

此时我们在回到上面的问题，在分布式系统中执行深度分页查询时(页码比较大)，会导致子节点的系统资源被大量占用，查询性能迅速下降。

实际上， “深分页” 不太符合人的行为。当2到3页过去以后，人会停止翻页，或者改变搜索标准，试想一下你在搜索引擎搜索信息时，通常只会看前2页的搜索结果

Elasticsearch ES xff0c xff0 xff 回表检索主从分片分页查询

有关Elasticsearch学习-ES中文档查询流程是怎样的？的更多相关文章

ruby - ECONNRESET (Whois::ConnectionError) - 尝试在 Ruby 中查询 Whois 时出错 - 2
我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表，并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码)，并打印以下消息。鉴于该程序非常简单，我已经没有什么想法了-有什么建议吗？/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.
ruby-on-rails - 在 Rails 和 ActiveRecord 中查询时忽略某些字段 - 2
我知道我可以指定某些字段来使用pluck查询数据库。ids=Item.where('due_at但是我想知道，是否有一种方法可以指定我想避免从数据库查询的某些字段。某种反拔？posts=Post.where(published:true).do_not_lookup(:enormous_field) 最佳答案 Model#attribute_names应该返回列/属性数组。您可以排除其中一些并传递给pluck或select方法。像这样:posts=Post.where(published:true).select(Post.attr
ruby-on-rails - 如果我将 ruby 版本 2.5.1 与 rails 版本 2.3.18 一起使用会怎样？ - 2
如果我使用ruby版本2.5.1和Rails版本2.3.18会怎样？我有基于rails2.3.18和ruby1.9.2p320构建的rails应用程序，我只想升级ruby的版本，而不是rails，这可能吗？我必须面对哪些挑战？最佳答案 GitHub维护apublicfork它有针对旧Rails版本的分支，有各种变化，它们一直在运行。有一段时间，他们在较新的Ruby版本上运行较旧的Rails版本，而不是最初支持的版本，因此您可能会发现一些关于需要向后移植的有用提示。不过，他们现在已经有几年没有使用2.3了，所以充其量只能让更
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
怎样用一台手机做自媒体？ - 2
其实做自媒体的成本并不高，入门只需要一部手机即可！在手机上找视频素材、使用手机剪辑视频、最后使用手机发布视频作品获得收益！方法并不难，今天这期内容就来给粉丝们分享一种小方法，每天稳定收益100-300，抓紧点赞收藏！1、找素材（1）使用手机拍摄自己喜欢的经典段落，使用程序把文案内容提取出来（2）也可以在豆瓣、知乎、微博等网站中找一些自己需要的文案素材（3）把文案进行润色修改，可以加入一些自己的观点（4）视频素材可以使用软件中自带的素材，也可以在素材网站中下载完整版的素材2、文案配音（1）把复制好的文案直接导入小程序中（2）调整音色、音调后一键合成音频即可（3）可以选择自己朗读配音，需要花一点时
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ES基础入门 - 2
ES一、简介1、ElasticStackES技术栈：ElasticSearch：存数据+搜索；QL；Kibana：Web可视化平台，分析。LogStash：日志收集，Log4j:产生日志；log.info(xxx)。。。。使用场景：metrics：指标监控…2、基本概念Index（索引）动词：保存（插入）名词：类似MySQL数据库，给数据Type（类型）已废弃，以前类似MySQL的表现在用索引对数据分类Document（文档）真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear

Elasticsearch学习-ES中文档查询流程是怎样的？

1.基于文档ID查询

2.基于其他条件查询

查询

获取

3.深度分页查询问题

有关Elasticsearch学习-ES中文档查询流程是怎样的？的更多相关文章

随机推荐