Elasticsearch之join关联查询

Relian哈哈 2023-04-20 原文

在Elasticsearch这样的分布式系统中执行类似SQL的join连接是代价是非常大的。然而，Elasticsearch却给我们提供了基于水平扩展的两种连接形式

一、join总述

1、关系类比

在关系型数据库中，以MySQL为例，我们经常用到join关键字对有关系的两张或者多张表进行关联查询。但是当数据量达到一定量级时，查询性能就是经常困扰的问题。

由于es可以做到数亿量级的秒查（具体由分片数量决定），这时候把数据同步到es是我们可以使用解决方案之一。

那么不禁有疑问问了，由于业务场景的决定，之前必须关联查询的两张表还能做到进行关联吗？

答案是可以的，es也提供了类似于关系型数据库的关联查询，但是它又与关系型数据的关联查询有明显的区别与限制。

2、使用限制

由于es属于分布式文档型数据库，数据自然是存在于多个分片之上的。Join字段自然不能像关系型数据库中的join使用。在es中为了保证良好的查询性能，最佳的实践是将数据模型设置为非规范化文档，通过字段冗余构造宽表，即存储在一个索引中。

（1）父子文档(数据)必须存储在同一index中

（2）父子文档(数据)必须存储在同一个分片中

（3）一个index中只能包含一个join字段，但是可以有多个关系

（4）同一个index中，一个父关系可以对应多个子关系，一个子关系只对应一个父关系

3、性能问题

当然执行了join查询固然性能会受到一定程度的影响。对于带has_child/has_parent而言，其查询性能会随着指向唯一父文档的匹配子文档的数量增加而降低。开篇第一句摘自es官网描述，从ES官方的描述来看join关联查询对性能的损耗是极大的。

不过，在笔者使用的过程中，在6个分片的前提下，且子表数据量在千万量级的情况下，关联查询的耗时还是在秒内的，许多场景还是可以接受的。

建议我们在使用前，根据分片的多少和预估未来数据量的大小提前做好性能测试，防止以后数量达到一定程度时，性能有明显下降，那个时候再改存储方案得不偿失。

二、Mapping

1、举例说明

这里以优惠券活动与优惠券明细为例，在一个优惠券活动中可以发放几千万的优惠券，所以券活动与券明细是一对多的关系。

券活动表字段

字段	说明
activity_id	活动ID
activity_name	活动名称

券明细表字段

字段	说明
coupon_id	券ID
coupon_amount	券面额
activity_id	外键-活动ID

2、mapping释义

join类型的字段主要用来在同一个索引中构建父子关联关系。通过relations定义一组父子关系，每个关系都包含一个父级关系名称和一个或多个子级关系名称

activity_coupon_field是一个关联字段，内部定义了一组join关系，该字段为自命名

type指定关联关系是join，固定写法

relations定义父子关系，activity父类型名称，coupon子类型名称，名称均为自命名

{
	"mappings": {
		"properties": {
			"activity_coupon_field": {
				"type": "join",
				"relations": {
					"activity": "coupon"
				}
			},
			"activity_id": {
				"type": "keyword"
			},
			"activity_name": {
				"type": "keyword"
			},
			"coupon_id": {
				"type": "long"
			},
			"coupon_amount": {
				"type": "long"
			}
		}
	}
}

三、插入数据

1、插入父文档

在put父文档数据的时候，我们通常按照某种规则指定文档ID，方便子文档数据变更时易于得到父文档ID。比如这里我们用activity_id的值：activity_100来作为父id

PUT /coupon/_doc/activity_100

{
	"activity_id": 100,
	"activity_name": "年货节5元促销优惠券",
	"activity_coupon_field": {
		"name": "activity"
	}
}

2、插入子文档

上边已经指定了父文档ID，而子表中已经包含有activity_id，所以很容易得到父文档ID

put子文档数据时候，必须指定父文档ID，就是父文档中的_id，这样父子数据才建立了关联关系。与此同时还要指定routing字段为父文档ID，这样保证了父子数据在同一分片上。

PUT /coupon/_doc/coupon_711235?routing=activity_id_100

{
	"coupon_id": 711235,
	"coupon_amount": "5",
	"activity_id": 100,
	"activity_coupon_field": {
		"name": "coupon",
		"parent": "activity_id_100" //父ID
	}
}

四、关联查询

1、`has_parent查询（父查子）`

根据父文档条件字段查询符合条件的子文档数据

例如：查询包含“年货节”活动字样，且已经被领取过的券

{
	"query": {
		"bool": {
			"must": [{
				"parent_type": "activity",
				"has_parent": {
					"query": {
						"bool": {
							"must": [{
								"term": {
									"status": {
										"value": 1
									}
								}
							}, {
								"wildcard": {
									"activity_name": {
										"wildcard": "*年货节*"
									}
								}
							}]
						}
					}
				}
			}]
		}
	}
}

2、`has_child查询（子查父）`

根据子文档条件字段符合条件的父文档数据

例如：查询coupon_id=711235在那个存在于哪个券活动中

{
	"query": {
		"bool": {
			"must": [{
				"has_child": {
					"type": "coupon",
					"query": {
						"bool": {
							"must": [{
								"term": {
									"coupon_id": {
										"value": 711235
									}
								}
							}]
						}
					}
				}
			}]
		}
	}
}

参考：Joining queries | Elasticsearch Guide [7.9] | Elastic

联查 Elasticsearch 34 xff xff0c 大数据

有关Elasticsearch之join关联查询的更多相关文章

ruby - Rails Elasticsearch 聚合 - 2
不知何故，我似乎无法获得包含我的聚合的响应...使用curl它按预期工作:HBZUMB01$curl-XPOST"http://localhost:9200/contents/_search"-d'{"size":0,"aggs":{"sport_count":{"value_count":{"field":"dwid"}}}}'我收到回复:{"took":4,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":90,"max_score":0.0,"hits":[]},"a
ruby-on-rails - 是否可以让 ActiveRecord 为使用 :joins option? 加载的行创建对象 - 2
我需要做这样的事情classUser'User',:foreign_key=>'abuser_id'belongs_to:gameendclassGame['JOINabuse_reportsONusers.id=abuse_reports.abuser_id','JOINgamesONgames.id=abuse_reports.game_id'],:group=>'users.id',:select=>'users.*,count(distinctgames.id)ASgame_count,count(abuse_reports.id)asabuse_report_count',:
ruby - 关于 Ruby 中 Dir[] 和 File.join() 的混淆 - 2
我在Ruby中遇到了一个关于Dir[]和File.join()的简单程序，blobs_dir='/path/to/dir'Dir[File.join(blobs_dir,"**","*")].eachdo|file|FileUtils.rm_rf(file)ifFile.symlink?(file)我有两个困惑:首先，File.join(@blobs_dir,"**","*")中的第二个和第三个参数是什么意思？其次，Dir[]在Ruby中有什么用？我只知道它等价于Dir.glob()，但是，我对Dir.glob()确实不是很清楚。最佳答案
elasticsearch源码关于TransportSearchAction【阶段三】 - 2
1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService：方法：1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>
ruby - Dir[File.join(File.dirname(__FILE__), "subdirectory/**/*.rb")] 的较短版本？ - 2
这是一个有点微观的问题，但每次我创建一个gem并需要加载子目录下的所有文件以用于某种反射目的(或只是一个快速而肮脏的预加载)时，我问自己“肯定有更清洁的方法吗？”，引用这种常见模式:Dir[File.join(File.dirname(__FILE__),"subdirectory/**/*.rb")].each{|f|requiref}需要在__FILE__上调用File.dirname，这使得它不必要地冗长。你不能真正在gem中使用相对路径，因为你不知道你是从哪里加载的。最佳答案你用的是哪种ruby？在ruby1.9中，
ruby-on-rails - 使用 Rails (Tire) 和 ElasticSearch 进行模糊字符串匹配 - 2
我有一个Rails应用程序，现在设置了ElasticSearch和Tiregem以在模型上进行搜索，我想知道我应该如何设置我的应用程序以对模型中的某些索引进行模糊字符串匹配。我将我的模型设置为索引标题、描述等内容，但我想对其中一些进行模糊字符串匹配，但我不确定在何处进行此操作。如果您想发表评论，我将在下面包含我的代码!谢谢!在Controller中:defsearch@resource=Resource.search(params[:q],:page=>(params[:page]||1),:per_page=>15,load:true)end在模型中:classResource'Us
ruby-on-rails - 如何将 JOIN 信息添加到 rails seeds.rb 文件中？ - 2
我正在尝试构建一个seeds.rb文件以将初始管理员用户添加到数据库中。我有一个用户表和模型，以及一个角色表和模型。我有一个连接表，roles_users来加入用户角色和权限。这是架构:create_table"roles",:force=>truedo|t|t.string"name"t.datetime"created_at"t.datetime"updated_at"endcreate_table"roles_users",:id=>false,:force=>truedo|t|t.integer"role_id"t.integer"user_id"endcreate_table
ruby-on-rails - Rails 4 Has_many :through join association with select - 2
我正在尝试将Rails3.0应用程序升级到Rails4.0。我注意到的行为之一是模型之间的关系停止工作。假设我们有以下模型:classStudent:teacher_students,:select=>'teacher_students.met_with_parent,teachers.*'#TheRails4syntaxhas_many:teachers,->{select('teacher_students.met_with_parent,teachers.*')},:through=>:teacher_studentsendclassTeacher:teacher_student
美团外卖搜索基于Elasticsearch的优化实践 - 2
美团外卖搜索工程团队在Elasticsearch的优化实践中，基于Location-BasedService（LBS）业务场景对Elasticsearch的查询性能进行优化。该优化基于Run-LengthEncoding（RLE）设计了一款高效的倒排索引结构，使检索耗时（TP99）降低了84%。本文从问题分析、技术选型、优化方案等方面进行阐述，并给出最终灰度验证的结论。1.前言最近十年，Elasticsearch已经成为了最受欢迎的开源检索引擎，其作为离线数仓、近线检索、B端检索的经典基建，已沉淀了大量的实践案例及优化总结。然而在高并发、高可用、大数据量的C端场景，目前可参考的资料并不多。因此
【详解】Docker安装Elasticsearch7.16.1集群 - 2
开门见山|拉取镜像dockerpullelasticsearch:7.16.1|配置存放的目录#存放配置文件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/config#存放数据的文件夹mkdir-p/opt/docker/elasticsearch/node-1/data#存放运行日志的文件夹mkdir-p/opt/docker/elasticsearch/node-1/log#存放IK分词插件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/plugins若你使用了moba，直接右键新建即可如上图所示依次类推创建