Elasticsearch高级检索之使用单个字母数字进行分词N-gram tokenizer（不区分大小写）【实战篇】

小王写博客 2023-04-16 原文

一、前言

小编最近在做到一个检索相关的需求，要求按照一个字段的每个字母或者数字进行检索，如果是不设置分词规则的话，英文是按照单词来进行分词的。

小编以7.6.0版本做的功能哈，大家可以根据自己的版本去官网看看，应该区别不大

例子：
C6153PE-冬日恋歌，要可以通过任何一个数字和字母进行检索到，并且不区分大小写。c，6，c6等等！

今天官网上有一些例子，觉得和实战还是有点区别，小编这里通过了测试抓紧来记录一下，希望帮助后来人哈！

二、测试分词策略

我们进入官网找到我们需要的策略：
Elasticsearch策略官网

N-gram 分词器
每当遇到指定字符列表中的一个时，ngram标记器首先将文本分解为单词，然后发出指定长度的每个单词的N-gram。

N-gram 就像一个在单词上移动的滑动窗口——一个指定长度的连续字符序列。它们对于查询不使用空格或复合词长的语言很有用。

我们去kibana进行测试分词策略是否符合我们的要求：

POST _analyze
{
  "tokenizer": "ngram",
  "text": "C6153PE-冬日恋歌"
}

分词分得细，会导致检索的效率降低，但是需求如此，没办法，最重要的是小编这里的数据量只有1w，其实换了这种分词，是无感知的！

分词策略规则：

ngram分词器接受以下参数：

参数	解释
min_gram	以 gram 为单位的最小长度。默认为1.
max_gram	以 gram 为单位的最大字符长度。默认为2.
token_chars	应包含在令牌中的字符类，Elasticsearch 将根据不属于指定类的字符进行拆分。默认为[]（保留所有字符）详细参数见下表
custom_token_chars	应被视为令牌一部分的自定义字符。例如，将此设置为+-_将使标记器将加号、减号和下划线符号视为标记的一部分。

min_gram将和设置max_gram为相同的值通常是有意义的。长度越小，匹配的文档越多，但匹配的质量越低。长度越长，匹配越具体。三元组（长度3）是一个很好的起点。官方比较推荐使用3，可能是因为效率分词粒度两不误吧，这里不符合小编的，小编这里使用是1，2，也就是默认的值

token_chars参数	解释例子
letter	字母，例如a, b,ï或京
digit	数字，例如3或7
whitespace	空白，例如" "或"\n"
punctuation	标点，例如!或"
symbol	标记，例如$或√
custom	自定义，需要使用 custom_token_chars设置设置的自定义字符

custom_token_chars：
应被视为令牌一部分的自定义字符。例如，将此设置为+-_将使标记器将加号、减号和下划线符号视为标记的一部分。

三、在索引字段中使用

官方是使用一个字段进行测试的，这里小编就直接使用公司的索引进行演示了！
这里是官网的例子：

下面放出来小编实战后的例子：

总结就是在settings配置分词策略，在mappings中进行使用即可！！

PUT /product
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0,
    "index": {
      "max_result_window": 100000000
    },
    # 这里使用分词策略
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          # 这里分词指定下面策略的具体配置的名称
          "tokenizer": "my_tokenizer",
          # 这里忽略大小写配置
          "filter": [
            "lowercase"
          ]
        }
      },
      # 具体策略配置
      "tokenizer": {
        "my_tokenizer": {
          "type": "ngram",
          "min_gram": 1,
          "max_gram": 2,
          "token_chars": [
            "letter",
            "digit"
          ]
        }
      }
    }
  },
  "mappings": {
    "dynamic": "strict",
    "properties": {
      "@timestamp": {
        "type": "date"
      },
      "@version": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "cargoNo": {
        "type": "text"
      },
      "name": {
        "type": "text"
      },
      "sort": {
        "type": "integer"
      },
      "attribute13": {
        "type": "text",
        # 在需要的字段指定我们写的分词策略
        "analyzer": "my_analyzer"
      },
      "isDeleted": {
        "type": "integer"
      }
    }
  }
}

四、在springboot中实战

为了公司，小编只粘贴部分条件构建规则：

SearchRequest searchRequest = new SearchRequest("product");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
BoolQueryBuilder bool = new BoolQueryBuilder();
BoolQueryBuilder boolQueryBuilder = new BoolQueryBuilder();
boolQueryBuilder.should(QueryBuilders.matchPhraseQuery("name", model))
         .should(QueryBuilders.matchPhraseQuery("cargoNo", model))
         .should(QueryBuilders.wildcardQuery("cargoNo", "*" + model + "*"))
         // 我们分词规则的字段查询
         .should(QueryBuilders.matchPhraseQuery("attribute13", model));
 bool.must(boolQueryBuilder);
 searchSourceBuilder.query(bool);
 searchRequest.source(searchSourceBuilder);

我们拿着页面感受一下分词带来的效果：

效果实现，随便一个字母都可以查询出来，这里只显示名称和一个数字，其实是使用attribute13来进行查询的，是因为attribute13是名称的第一个-之前的截出来的。

五、总结

这样我们就完成了一些定制化的需求，完美交差，还得是看官网啊！！一定要去看官网！搜了好多都没有这种的教程，写出来帮助后来人，但是详细的还得是看官网哈！小编这里也是把官网的一些概念写到了博客里！！

如果对你有帮助还请不要吝啬你的发财小手给小编来个一键三连哦！谢谢大家了！！

有缘人才可以看得到的哦！！！

点击访问！小编自己的网站，里面也是有很多好的文章哦！

有关Elasticsearch高级检索之使用单个字母数字进行分词N-gram tokenizer（不区分大小写）【实战篇】的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2
在控制台中反复尝试之后，我想到了这种方法，可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法，但它确实有效。有没有人有更好的建议，或者这是一个很好的方法？#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h