草庐IT

ES查询常用语法

加油当当 2023-07-10 原文

目录

1. ElasticSearch之查询返回结果各字段含义

2. match 查询

3. term查询

4. terms 查询

5. range 范围

6. 布尔查询

6.1 filter加快查询效率的原因

7. boosting query(提高查询)

8. dis_max(最佳匹配查询)

9. 分页

10. 聚合查询【内含实际的demo】

1. ElasticSearch之查询返回结果各字段含义

执行命令:索引库名称/_search

空搜索的结果为:

{
  "took": 2,		# 该命令请求花费了多长时间,单位:毫秒。
  "timed_out": false,		# 搜索是否超时
  "_shards": {		# 搜索分片信息
    "total": 3,		# 搜索分片总数
    "successful": 3,		# 搜索成功的分片数量
    "skipped": 0,		# 没有搜索的分片,跳过的分片
    "failed": 0		# 搜索失败的分片数量
  },
  "hits": {		# 搜索结果集。需要的一切数据都是从hits中获取
    "total": 21798,		# 返回多少条数据
    "max_score": 1,		#返回结果中,最大的匹配度分值
    "hits": [		# 默认查询前十条数据,根据分值降序排序,这里为了节省地方,把默认查询的前十条数据删了9条,只剩下一条数据
      {
        "_index": "",		# 索引库名称
        "_type": "",		# 类型名称
        "_id": "",		# 该条数据的id
        "_score": 1,		# 关键字与该条数据的匹配度分值
        "_routing": "",		# routing参数是一个可选参数,默认使用文档的_id值,用于计算文档所属分片
        "_source": {		# 索引库中类型,返回结果字段,不指定的话,默认全部显示出来
          "id": 1,
          "orderNo": "",
          "appId": "",
          "componentAppId": "",
          "settleNo": "",
          "outSettleNo": "",
          "settleAmount": 5,
          "orderAmount": 7,
          "settleStatus": 3,
          "paymentChannel": 1,
          "version": 2,
          "settleTime": ,
          "createTime": ,
          "updateTime": ,
          "promotionAccountId": "",
          "invoiceStatus": 1,
          "promotionTypeValue": 0,
          "commissionRateFeeCentAmount": 0,
          "commissionChargeFeeCentAmount": 0,
          "promotionFeeCentAmount": 2,
          "developerPromotionFeeCentAmount": 0,
          "promotionType": ""
        }
      }
    ]
  }
}
  • 按照从上到下的顺序,一共四个返回值,took,timed_out,_shards,hits。
  • took
    • 该命令请求花费了多长时间,单位:毫秒。
  • timed_out
    • 搜索是否超时。
  • shards
    • 搜索分片信息。
    • total
      • 搜索分片总数。
    • successful
      • 搜索成功的分片数量。
    • skipped
      • 没有搜索的分片,跳过的分片。
    • failed
      • 搜索失败的分片数量。
  • hits
    • 搜索结果集,需要的一切数据都是从hits中获取。
    • total
      • 返回多少条数据。
    • max_score
      • 返回结果中,最大的匹配度分值。
    • hits
      • 默认查询前十条数据,根据分值降序排序。
    • _index
      • 索引库名称。
    • _type
      • 类型名称。
    • _id
      • 该条数据的id。
    • _score
      • 关键字与该条数据的匹配度分值。
    • _source
      • 索引库中类型,返回结果字段,不指定的话,默认全部显示出来。

2. match 查询

  • 匹配查询 match 是个 核心 查询。无论需要查询什么字段, match 查询都应该会是首选的查询方式。它是一个高级 全文查询 ,这表示它既能处理全文字段(包括支持分词的字段),又能处理精确字段

  • match 查询主要的应用场景就是进行全文搜索

{
  "query": {
    "match": {
      "appId": "xxxx"
    }
  }
}

match本质上是对term组合,所以上面的语句换成term依然能够执行

{
  "query": {
    "term": {
      "appId": "xxxx"
    }
  }
}

3. term查询

  • term 查询, 可以用它处理数字(numbers)、布尔值(Booleans)、日期(dates)以及文本(text)

  • 用 trem 搜索字符串时 要将字段设置成 not_analyzed 无需分析的。不然es会将字符串进行分词,分词结果建立索引,在用trem进行精确查找时找不到任何文档

  • 对应的 QueryBuilder class 是TermQueryBuilder

  • 具体方法是 QueryBuilders.termQuery()

{
  "query": {
    "term": {
      "appId": "xxxx"
    }
  }
}

4. terms 查询

  • terms 查询允许指定多个值进行匹配。如果这个字段包含了指定值中的任何一个值,就表示该文档满足条件。 比如我们想要查找价格字段值为 $20 或 $30 的文档则可以使用trems;

  • 按照读个分词term匹配,它们是or的关系

  • 对应的 QueryBuilder class 是 TermsQueryBuilder

  • 具体方法是 QueryBuilders.termsQuery()
{
  "query": {
    "terms": {
      "appId": ["xxxx", "xxxx"]
    }
  }
}

5. range 范围

  • 常常被用在数字或者日期范围的查询

Search Query

QueryBuilder Class

Method in QueryBuilders

Range

RangeQueryBuilder

QueryBuilders.rangeQuery()

{
  "query": {
    "range": {
      "createTime": {
        "gte": 1661409996661,
        "lte": 1661409996661
      }
    }
  }
}

6. 布尔查询

  • 通过布尔逻辑将较小的查询组合成较大的查询。
  • 概念
    • Bool查询语法有以下特点
      • 子查询可以任意顺序出现
      • 可以嵌套多个查询,包括bool查询
      • 如果bool查询中没有must条件,should中必须至少满足一条才会返回结果。
    • bool查询包含四种操作符,分别是must,should,must_not,filter。他们均是一种数组,数组里面是对应的判断条件。
      • must: 必须匹配。贡献算分
      • must_not:过滤子句,必须不能匹配,但不贡献算分
      • should: 选择性匹配,至少满足一条。贡献算分
      • filter: 过滤子句,必须匹配,但不贡献算分,所以比must会更快!
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },
        {
          "term": {
            "paymentChannel": 1
          }
        },
        {
          "term": {
            "settleStatus": 3
          }
        },
        {
          "term": {
            "promotionAccountId": ""
          }
        },
        {
          "range": {
            "createTime": {
              "from": 1658741630780,
              "to": 1661420030780,
              "include_lower": true,
              "include_upper": true
            }
          }
        }
      ]
    }
  }
}

6.1 filter加快查询效率的原因

  • query context

    • query context关注的是,文档到底有多匹配查询的条件,这个匹配的程度是由相关性分数决定的,分数越高自然就越匹配。所以这种查询除了关注文档是否满足查询条件,还需要额外的计算相关性分数.

  • filter context

    • filter context关注的是,文档是否匹配查询条件,结果只有两个,是和否。没有其它额外的计算。它常用的一个场景就是过滤时间范围。

    • 并且filter context会自动被ES缓存结果,效率进一步提高。

    • 对于bool查询,must使用的就是query context,而filter使用的就是filter context。

    • 我们可以通过一个示例验证下。继续使用第一节的例子,我们通过kibana自带的search profiler来看看ES的查询的详细过程。

  • 那么 filter 的 cache 是怎么做的呢?

    • ES 会构建一个文档匹配过滤器的位集 bitset(用来标识一个文档对一个 filter 条件是否匹配,如果匹配就是 1,不匹配就是 0),下次再有这个 filter 条件过来的时候就不用重新扫描倒排索引,反复生成 bitset,可以大幅度提升性能,另外当添加或更新文档时,这个 filter 的位集 bitset 也会更新。

{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },
        {
          "term": {
            "paymentChannel": 1
          }
        },
        {
          "term": {
            "settleStatus": 3
          }
        },
        {
          "term": {
            "promotionAccountId": ""
          }
        }
      ],
      "filter": {
        "range": {
          "createTime": {
            "from": 1658741630780,
            "to": 1661420030780,
            "include_lower": true,
            "include_upper": true
          }
        }
      }
    }
  }
}

7. boosting query(提高查询)

  • 用来控制(提高或降低)复合查询中子查询的权重。

  • 不同于bool查询,bool查询中只要一个子查询条件不匹配那么搜索的数据就不会出现。而boosting query则是降低显示的权重/优先级(即score)。

  • 比如搜索逻辑是 name = 'apple' and type ='fruit',对于只满足部分条件的数据,不是不显示,而是降低显示的优先级(即score)

  • ~positive(积极的,加分):

    • 只有匹配上positive的查询的内容,才会被放到返回的结果集中。

  • ~negative(消极的,减分):

    • 如果匹配上positive并且也匹配上了negative,就可以降低这样的文档score。

  • ~negative_boost:

    • 指定系数,必须小于1.0 ,那么匹配到的内容会将分数乘以当前系数;(这是个系数,因为你要控制分数,那要怎么控制呢?就是乘以系数来控制分数大小)

{
  "query": {
    "boosting": {
      "positive": {
        "term": {
          "appId": "xxxx"
        }
      },
      "negative": {
        "term": {
          "orderNo": "xxxx"
        }
      },
      "negative_boost": 0.5
    }
  }
}

8. dis_max(最佳匹配查询)

  • dis_max query

    • 叫做分离最大化查询,它会将任何与查询匹配的文档都作为结果返回,但是只是将其中最佳匹配的评分作为最终的评分返回。

  • dis_max 条件的计算分数

    • 分数 = 第一个匹配条件分数 + tie_breaker * 第二个匹配的条件的分数 ...

  "query": {
    "dis_max": {
      "queries": [
        {
          "term": {
            "appId": "xxxx"
          }
        },
        {
          "term": {
            "paymentChannel": 1
          }
        },
        {
          "range": {
            "createTime": {
              "from": 1658741630780,
              "to": 1661420030780,
              "include_lower": true,
              "include_upper": true
            }
          }
        }
      ],
      "tie_breaker": 0
    }
  }

9. 分页

  • 通过 from 和 size 就可以执行分页查询。from 指明了分页查询返回的结果的起始位置,而size参数则指明了分页查询的页容量。

{
  "from": 0,
  "size": 1,
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },
        {
          "term": {
            "paymentChannel": 1
          }
        },
        {
          "term": {
            "settleStatus": 3
          }
        },
        {
          "term": {
            "promotionAccountId": ""
          }
        },
        {
          "range": {
            "createTime": {
              "from": 1658741630780,
              "to": 1661420030780,
              "include_lower": true,
              "include_upper": true
            }
          }
        }
      ]
    }
  }
}

10. 聚合查询【内含实际的demo】

根据appId查询昨日结算成功的指定支付渠道的结算总金额

{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },
        {
          "term": {
            "paymentChannel": 1
          }
        },
        {
          "term": {
            "settleStatus": 3
          }
        },
        {
          "term": {
            "promotionAccountId": ""
          }
        },
        {
          "range": {
            "createTime": {
              "from": 1658741630780,
              "to": 1661420030780,
              "include_lower": true,
              "include_upper": true
            }
          }
        }
      ]
    }
  },
  "aggs": {
    "total_amount": {
      "sum": {
        "field": "settleAmount"
      }
    }
  },
  "size": 0
}

有关ES查询常用语法的更多相关文章

  1. ruby - ECONNRESET (Whois::ConnectionError) - 尝试在 Ruby 中查询 Whois 时出错 - 2

    我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表,并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码),并打印以下消息。鉴于该程序非常简单,我已经没有什么想法了-有什么建议吗?/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.

  2. ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2

    大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje

  3. ruby-on-rails - 在 Rails 和 ActiveRecord 中查询时忽略某些字段 - 2

    我知道我可以指定某些字段来使用pluck查询数据库。ids=Item.where('due_at但是我想知道,是否有一种方法可以指定我想避免从数据库查询的某些字段。某种反拔?posts=Post.where(published:true).do_not_lookup(:enormous_field) 最佳答案 Model#attribute_names应该返回列/属性数组。您可以排除其中一些并传递给pluck或select方法。像这样:posts=Post.where(published:true).select(Post.attr

  4. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  5. ES基础入门 - 2

    ES一、简介1、ElasticStackES技术栈:ElasticSearch:存数据+搜索;QL;Kibana:Web可视化平台,分析。LogStash:日志收集,Log4j:产生日志;log.info(xxx)。。。。使用场景:metrics:指标监控…2、基本概念Index(索引)动词:保存(插入)名词:类似MySQL数据库,给数据Type(类型)已废弃,以前类似MySQL的表现在用索引对数据分类Document(文档)真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear

  6. sql - 查询忽略时间戳日期的时间范围 - 2

    我正在尝试查询我的Rails数据库(Postgres)中的购买表,我想查询时间范围。例如,我想知道在所有日期的下午2点到3点之间进行了多少次购买。此表中有一个created_at列,但我不知道如何在不搜索特定日期的情况下完成此操作。我试过:Purchases.where("created_atBETWEEN?and?",Time.now-1.hour,Time.now)但这最终只会搜索今天与那些时间的日期。 最佳答案 您需要使用PostgreSQL'sdate_part/extractfunction从created_at中提取小时

  7. ruby-on-rails - solr 清理查询 - 2

    我在Rails上使用带有ruby​​的solr。一切正常,我只需要知道是否有任何现有代码来清理用户输入,比如以?开头的查询。或* 最佳答案 我不知道执行此操作的任何代码,但理论上可以通过查看parsingcodeinLucene来完成并搜索thrownewParseException(只有16个匹配!)。在实践中,我认为您最好只捕获代码中的任何solr异常并显示“无效查询”消息或类似信息。编辑:这里有几个“sanitizer”:http://pivotallabs.com/users/zach/blog/articles/937-s

  8. ruby-on-rails - Rails 3 在一个查询中包含多个表 - 2

    我正在为锦标赛开发一个Rails应用程序。我在这个查询中使用了三个模型:classPlayertruehas_and_belongs_to_many:tournamentsclassTournament:destroyclassPlayerMatch"Player",:foreign_key=>"player_one"belongs_to:player_two,:class_name=>"Player",:foreign_key=>"player_two"在tournaments_controller的显示操作中,我调用以下查询:Tournament.where(:id=>params

  9. ruby-on-rails - Sunspot:如何对具有不同值的多个字段进行全文查询? - 2

    我想用sunspot重现以下原始solr查询q=exact_term_text:fooORterm_textv:foo*ORalternate_text:bar*但我无法通过标准的太阳黑子界面理解这是否可能以及如何实现,因为看起来:fulltext方法似乎不接受多个文本/搜索字段参数我不知道将什么参数作为第一个参数传递给fulltext,就好像我通过了"foo"或"bar"结果不匹配如果我传递一个空参数,我得到一个q=*:*范围过滤器(例如with(:term).starting_with('foo*')(顾名思义)作为过滤器查询应用,因此不参与评分。似乎可以手动编写字符串(或者可能使

  10. ruby-on-rails - 在不重新查询数据库的情况下重新排序 Rails 中的事件记录? - 2

    例如,假设我有一个名为Products的模型,并且在ProductsController中,我有以下代码用于product_listView以显示已排序的产品。@products=Product.order(params[:order_by])让我们想象一下,在product_listView中,用户可以使用下拉菜单按价格、评级、重量等进行排序。数据库中的产品不会经常更改。我很难理解的是,每次用户选择新的order_by过滤器时,rails是否必须查询,或者rails是否能够以某种方式缓存事件记录以在服务器端重新排序?有没有一种方法可以编写它,以便在用户排序时rails不会重新查询结果

随机推荐