草庐IT

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

铭毅天下 2023-07-21 原文

1、实战问题

POST test-002/_bulk
{"index":{"_id":1}}
{"name": "张三","city": "beijing"}
{"index":{"_id":2}}
{"name": "李四","city": "beijing"}
{"index":{"_id":3}}
{"name": "王五","city": "shanghai"}
{"index":{"_id":4}}
{"name": "赵六","city": "shanghai"}

请教老师, 上面的是我在es保存的数据, 想写一个dsl, 求出来 beijing 占比 50%, shanghai 占比 50%。

死磕Elasticsearch知识星球 https://t.zsxq.com/0bqpcJiLL

2、问题分析

类似问题,样例数据单看计算不复杂,“beijing” 2 个,“上海” 2 个,“beijing”占比: 2/(2+2) = 50%; "shanghai"同样计算,占比 50%。

业务层面,建议获取到分桶聚合结果后,直接代码求解百分比效率更高。

仅就上面数据解释如下,两个步骤搞定。

  • 第一步:基于city 字段分桶聚合。

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "city_aggs": {
      "terms": {
        "field": "city",
        "size": 10
      }
    }
  }
}

获取结果如下截图所示。

第二步:业务代码层面(python或Java或其他),直接来个除法搞定。

如上,才是效率最高的方案,尤其数据量巨大的业务场景。

问题来了,我就想让 Elasticsearch 搞定计算,怎么办?

我们需要在刚才分桶聚合的基础上,获取桶内“beijing”、“shanghai”的值,然后做除法。

这里的除法本质会用到 Elasticsearch Pipeline 子聚合 bucket_script 的概念。

讲到这里,有必要再把聚合梳理一遍。

3、聚合详解

3.1 聚合全局认知

聚合分类

核心分为三大类:

(1)Bucket 分桶聚合

通俗举例:开篇示例,按照“city”分桶,“beijing”一桶、“shanghai”一桶。

协议分桶聚合饼图

时间走势聚合示意图

(2)Metrics 指标聚合

通俗举例:求一组数据中的最大值;求一组数的平均值。

(3)Pipeline子聚合(基于聚合的聚合)

通俗举例:以B站视频为例,首先按年度统计每年最大观看量视频,然后再统计观看量最大视频所在的年份(基于聚合再聚合)。

如果基础概念还有点模糊,推荐阅读:基于儿童积木玩具图解 Elasticsearch 聚合。

3.2 Pipeline子聚合全局认知

子聚合核心又可以分为两类:

  • parent 子聚合

  • sibling 子聚合

子聚合分类

分类的依据更通俗讲是语法规则的不同。

4、Pipeline子聚合详解

为了更清楚的说明两者的不同,重构了样例数据如下。

####重构后的样例数据
DELETE test-002
PUT test-002
{
  "mappings": {
    "properties": {
      "sale_data": {
        "type": "date",
        "format": "yyyy-MM-dd"
      },
      "sale_count": {
        "type": "long"
      },
      "name": {
        "type": "keyword"
      },
      "city": {
        "type": "keyword"
      }
    }
  }
}

POST test-002/_bulk
{"index":{"_id":1}}
{"name":"张三","city":"beijing","sale_date":"2023-01-08","sale_count":100}
{"index":{"_id":2}}
{"name":"李四","city":"beijing","sale_date":"2023-01-18","sale_count":5000}
{"index":{"_id":3}}
{"name":"王五","city":"shanghai","sale_date":"2022-11-08","sale_count":300}
{"index":{"_id":4}}
{"name":"赵六","city":"shanghai","sale_date":"2022-12-28","sale_count":1000}

4.1 sibling 子聚合举例

  • 需求描述:按照月份统计每个月的总销量,并获取月总销量最大的月份?

  • 需求拆解:

(1)按照月份统计:使用 bucket 分桶聚合的date_histogram时间走势直方图聚合实现。 

(2)每个月的总销量:在按照月份统计的基础上进行嵌套聚合,借助Metric指标聚合的sum实现。 

(3)获取月总销量最大的月份:使用 Pipeline 子聚合的 Max_bucket 实现。

最终实现:

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "sales": {
          "sum": {
            "field": "sale_count"
          }
        }
      }
    },
    "max_monthly_sales": {
      "max_bucket": {
        "buckets_path": "sales_per_month > sales"
      }
    }
  }
}

4.2 parent 子聚合举例

  • 需求描述:文章开头,求“beijing”、“shanghai”的各占百分比 ?

  • 需求拆解:

(1)按照 city 分桶:获取“beijing”、“shanghai”的 bucket 分桶聚合结果。

(2)计算百分比:借助 “bucket_script” 脚本子聚合实现。

这里实现层面不简单是上面的两步就可以完成。

核心原因在于:bucket_script 是 “parent”类型的子聚合,进一步说,它需要嵌套在外层聚合的里面,外层聚合就相当于它的“parent”,新加的子聚合相当于“child”。

外层怎么加,这个类似咱们之前的实现:图解:Elasticsearch 8.X 如何求解环比上升比例?

需要借助 filters 过滤聚合整出一个全量数据集,然后在此基础上统计分桶、桶内数据量,并借助 bucket_script 实现百分比。

具体实现如下:

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "all_datas": {
      "filters": {
        "filters": {
          "all_dates_no_process": {
            "match_all": {}
          }
        }
      },
      "aggs": {
        "bucket_by_city": {
          "terms": {
            "field": "city",
            "size": 10
          }
        },
        "counts_of_city": {
          "value_count": {
            "field": "city"
          }
        },
        "bj_percents": {
          "bucket_script": {
            "buckets_path": {
              "bj_count": "bucket_by_city['beijing']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.bj_count / params.all_counts"
          }
        },
        "sh_percents": {
          "bucket_script": {
            "buckets_path": {
              "sh_count": "bucket_by_city['shanghai']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.sh_count / params.all_counts"
          }
        }
      }
    }
  }
}

不常用参数:bucket_by_city['beijing']>_count 含义如下:

获取“beijing”桶下的count计数结果。

折叠图如下图所示,parent 类别的含义由此而来。

最终百分比结果如下:

至此,开篇问题求解完毕。

5、bucket_script、bucket_selector、bucket_sort 的定义和应用场景?

  • Bucket selector选择子聚合:对聚合的结果执行进一步的筛选和运算。

  • Bucket script 脚本子聚合:在聚合的结果上执行脚本运算,以生成新的聚合结果。

  • Bucket sort 排序子聚合:用聚合结果的任意字段进行排序,并返回一个排序后的桶列表。

这三类都属于 parent 类型的子聚合。子聚合的核心是对前置聚合结果的二次聚合,所以,只有业务需求有对聚合结果再聚合的场景才考虑子聚合。

bucket_script 是一种特殊的子聚合功能,它允许我们在聚合的桶中执行脚本。

应用举例:可以使用脚本来计算每个桶的平均值、百分比(如本文示例)、环比及标准差等。

bucket_selector 是一种特殊的子聚合功能,它允许我们选择某些桶并对其进行子聚合。

应用举例:可以使用选择器选择某些桶并统计它们的总和。

bucket_sort 是一种排序功能,它允许我们按指定顺序对桶进行排序。

应用举例:可以按照每个桶的计数进行排序,以便查看最频繁的项目。

在实际应用场景中,可以根据需要选择使用上述功能中的一个或多个。

应用举例:可以对某个字段的值进行分组,然后使用 bucket_sort 对分组后的桶进行排序,并使用bucket_script在桶中执行脚本,最后使用bucket_selector选择某些桶并对其进行聚合。

这样,我们可以对业务数据进行多层次的分析和统计功能。

6、小结

由百分比的问题引申出聚合分类,由聚合分类引申出Pipeline 子聚合的两个子类型:parent、sibling(兄弟)的区别,更进一步引申出bucket_script、bucket_selector、bucket_sort的定义和应用场景。为后续类似问题提供参考。

推荐视频解读:

参考

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html

推荐阅读

  1. 全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

  2. 重磅 | 死磕 Elasticsearch 8.X 方法论认知清单(2022年国庆更新版)

  3. 如何系统的学习 Elasticsearch ?

  4. 2023,做点事

  5. 图解:Elasticsearch 8.X 如何求解环比上升比例?

更短时间更快习得更多干货!

和全球 1800+ Elastic 爱好者一起精进!

比同事抢先一步学习进阶干货!

有关Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?的更多相关文章

  1. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  2. ruby-on-rails - Rails 应用程序之间的通信 - 2

    我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此

  3. ruby - 无法运行 Rails 2.x 应用程序 - 2

    我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby​​:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r

  4. ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗? - 2

    刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr

  5. ruby - 触发器 ruby​​ 中 3 点范围运算符和 2 点范围运算符的区别 - 2

    请帮助我理解范围运算符...和..之间的区别,作为Ruby中使用的“触发器”。这是PragmaticProgrammersguidetoRuby中的一个示例:a=(11..20).collect{|i|(i%4==0)..(i%3==0)?i:nil}返回:[nil,12,nil,nil,nil,16,17,18,nil,20]还有:a=(11..20).collect{|i|(i%4==0)...(i%3==0)?i:nil}返回:[nil,12,13,14,15,16,17,18,nil,20] 最佳答案 触发器(又名f/f)是

  6. ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby​​ 变量的内容? - 2

    我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby​​中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R

  7. ruby-on-rails - `a ||= b` 和 `a = b if a.nil 之间的区别? - 2

    我正在检查一个Rails项目。在ERubyHTML模板页面上,我看到了这样几行:我不明白为什么不这样写:在这种情况下,||=和ifnil?有什么区别? 最佳答案 在这种特殊情况下没有区别,但可能是出于习惯。每当我看到nil?被使用时,它几乎总是使用不当。在Ruby中,很少有东西在逻辑上是假的,只有文字false和nil是。这意味着像if(!x.nil?)这样的代码几乎总是更好地表示为if(x)除非期望x可能是文字false。我会将其切换为||=false,因为它具有相同的结果,但这在很大程度上取决于偏好。唯一的缺点是赋值会在每次运行

  8. ruby - 这两个 Ruby 类初始化定义有什么区别? - 2

    我正在阅读一本关于Ruby的书,作者在编写类初始化定义时使用的形式与他在本书前几节中使用的形式略有不同。它看起来像这样:classTicketattr_accessor:venue,:datedefinitialize(venue,date)self.venue=venueself.date=dateendend在本书的前几节中,它的定义如下:classTicketattr_accessor:venue,:datedefinitialize(venue,date)@venue=venue@date=dateendend在第一个示例中使用setter方法与在第二个示例中使用实例变量之间是

  9. ruby-on-rails - 如何在 Gem 中获取 Rails 应用程序的根目录 - 2

    是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在

  10. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

随机推荐