Elasticsearch连续剧之分词器

狮子也疯狂 2023-04-21 原文

一、前言

ES文档的数据拆分成一个个有完整含义的关键词，并将关键词与文档对应，这样就可以通过关键词查询文档。要想正确地分词，需要选择合适的分词器。
现在咱们来探索一下分词器的真实面目!

二、默认分词器

standard analyzer：Elasticsearch默认分词器，根据空格和标点
符号对英文进行分词，会进行单词的大小写转换。

默认分词器是英文分词器，对中文的分词是一字一词。

三、IK分词器

IK分词器，全名IKAnalyzer，是一个开源的，基于Java语言开发的轻量级中文分词工具包。

1.主要算法

支持对中文进行分词，提供了两种分词算法

ik_smart：最少切分
ik_max_word：最细粒度划分

2.安装IK分词器

2.1 关闭es服务

2.2 上传ik分词器到虚拟机

tips: ik分词器的版本要和es版本保持一致

2.3 解压

解压ik分词器到elasticsearch的plugins目录下

unzip elasticsearch-analysis-ik-7.17.0.zip -d /usr/local/elasticsearch1/plugins/analysis-ik

2.4 启动ES服务

su es

#进入ES安装文件夹：
cd /usr/local/elasticsearch1/bin/

#启动ES服务：
./elasticsearch -d

2.5 测试分词器效果

#算法1
GET /_analyze
{
 "text":"测试语句",
 "analyzer":"ik_smart"
}

eg:
GET /_analyze
{
  "text": "我爱美羊羊",
  "analyzer": "ik_smart"
}

#算法2
GET /_analyze
{
 "text":"测试语句",
 "analyzer":"ik_max_word"
}

eg:
GET /_analyze
{
  "text": "我爱美羊羊",
  "analyzer": "ik_max_word"
}

2.6 IK分词器词典

IK分词器根据词典进行分词，词典文件在IK分词器的config目录中。

main.dic：IK中内置的词典。记录了IK统计的所有中文单词。
IKAnalyzer.cfg.xml：用于配置自定义词库。

四、拼音分词器

拼音分词器可以将中文分成对应的全拼，全拼首字母等。

1.安装

和ik分词器安装一样，也是先将es服务关闭，将拼音分词器上传至虚拟机，并且分词器版本需要和es版本一致（参考ik分词器安装）

2.测试分词效果

GET /_analyze
{
 "text":测试语句,
 "analyzer":pinyin
}

eg:
GET /_analyze
{
  "text": "xi yang yang",
  "analyzer": "pinyin"
}

五、自定义分词器

前面两种分词器，各有优点，但是他们的功能确实不够完备，比如使用ik分词器可以对中文进行分词，但是却不能对拼音分词；所以在现实开发中，我们一般使用自定义分词器进行分词，这样既可以对文字分词，也可以对拼音分词，现在咱们来研究一下如何写一个ik+pinyin分词器。

1.创建自定义分词器

PUT /索引名
{
  "settings" : {
    "analysis" : {
      "analyzer" : {
        "ik_pinyin" : { //自定义分词器名
          "tokenizer":"ik_max_word", // 基本分词器
          "filter":"pinyin_filter" // 配置分词器过滤
         }
       },
      "filter" : { // 分词器过滤时配置另一个分词器，相当于同时使用两个分词器
        "pinyin_filter" : { 
          "type" : "pinyin", // 另一个分词器
          // 拼音分词器的配置
          "keep_separate_first_letter" : false, // 是否分词每个字的首字母
          "keep_full_pinyin" : true, // 是否分词全拼
          "keep_original" : true, // 是否保留原始输入
          "remove_duplicated_term" : true // 是否删除重复项
         }
       }
     }
   },
  "mappings":{
    "properties":{
      "域名1":{
        "type":域的类型,
        "store":是否单独存储,
        "index":是否创建索引,
             "analyzer":分词器
       },
      "域名2":{ 
        ...
       }
     }
   }
}

eg:
PUT /student2
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_pinyin":{
          "tokenizer":"ik_max_word",
          "filter":"pinyin_filter"
        }
      },
      "filter": {
        "pinyin_filter":{
          "type":"pinyin",
          "keep_separate_first_letter" : false, 
          "keep_full_pinyin" : true,
          "keep_original" : true, 
          "remove_duplicated_term" : true 
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "store": true,
        "index": true,
        "analyzer": "ik_pinyin"
      },
      "age":{
        "type": "integer"
      }
    }
  }
}

2.测试

GET /student2/_analyze
{
 "text": "程序员",
 "analyzer": "ik_pinyin"
}

有关Elasticsearch连续剧之分词器的更多相关文章

ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
ruby - 如何用 Nokogiri 解析连续的标签？ - 2
我有这样的HTML代码:Label1Value1Label2Value2...我的代码不起作用。doc.css("first").eachdo|item|label=item.css("dt")value=item.css("dd")end显示所有首先标记，然后标记标签，我需要“标签:值” 最佳答案首先，您的HTML应该有和中的元素:Label1Value1Label2Value2...但这不会改变您解析它的方式。你想找到s并遍历它们，然后在每个你可以使用next_element得到;像这样:doc=Nokogiri::HTML(
ruby - Rails Elasticsearch 聚合 - 2
不知何故，我似乎无法获得包含我的聚合的响应...使用curl它按预期工作:HBZUMB01$curl-XPOST"http://localhost:9200/contents/_search"-d'{"size":0,"aggs":{"sport_count":{"value_count":{"field":"dwid"}}}}'我收到回复:{"took":4,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":90,"max_score":0.0,"hits":[]},"a
ruby - 我可以从 Ruby 中的系统调用中获得连续输出吗？ - 2
当您在Ruby脚本中使用系统调用时，您可以像这样获得该命令的输出:output=`ls`putsoutput这就是thisquestion是关于。但是有没有办法显示系统调用的连续输出？例如，如果您运行此安全复制命令，以通过SSH从服务器获取文件:scpuser@someserver:remoteFile/some/local/folder/...它显示随着下载进度的连续输出。但是这个:output=`scpuser@someserver:remoteFile/some/local/folder/`putsoutput...不捕获该输出。如何从我的Ruby脚本中显示正在进行的下载进度？
ruby - 获取数组中值的最大连续出现次数 - 2
下面有没有更优雅的方法来实现这个:输入:array=[1,1,1,0,0,1,1,1,1,0]输出:4我的算法:streak=0max_streak=0arr.eachdo|n|ifn==1streak+=1elsemax_streak=streakifstreak>max_streakstreak=0endendputsmax_streak 最佳答案类似于w0lf'sanswer,但通过从chunk返回nil来跳过元素:array.chunk{|x|x==1||nil}.map{|_,x|x.size}.max
arrays - 检查连续数字 - 2
我有一个整数数组m。我正在寻找一种方法来检查m的元素是否连续。有没有办法测试连续数字？我想出了这段代码，旨在在数组长度为四时工作:m.count==4&&(m.max-m.min)==3对于[1,1,1,4]或[0,0,0,3]错误地返回true。最佳答案 Enumerable有一个非常方便的方法叫做each_cons是这样工作的:[1,2,3,4].each_cons(2).to_a#=>[[1,2],[2,3],[3,4]]也就是说，它会生成每组连续的n元素。在我们的例子中，n是2。当然，顾名思义，它返回一个Enumerato
elasticsearch源码关于TransportSearchAction【阶段三】 - 2
1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService：方法：1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>
ruby-on-rails - 使用 Rails (Tire) 和 ElasticSearch 进行模糊字符串匹配 - 2
我有一个Rails应用程序，现在设置了ElasticSearch和Tiregem以在模型上进行搜索，我想知道我应该如何设置我的应用程序以对模型中的某些索引进行模糊字符串匹配。我将我的模型设置为索引标题、描述等内容，但我想对其中一些进行模糊字符串匹配，但我不确定在何处进行此操作。如果您想发表评论，我将在下面包含我的代码!谢谢!在Controller中:defsearch@resource=Resource.search(params[:q],:page=>(params[:page]||1),:per_page=>15,load:true)end在模型中:classResource'Us
ruby - 我可以将 Sidekiq 用于连续流程吗？ - 2
我有几个当前作为rake任务运行的进程。我能以某种方式使用Sidekiq来连续循环执行进程吗？这是Sidekiq的最佳实践吗？这些进程，尽管它们现在在各自的rake任务中以连续循环的方式在后台运行，但偶尔会失败。然后我必须重新启动rake任务。在SO社区的帮助下，我正在尝试几个选项。一种是弄清楚如何使用monit监控rake任务。但这意味着每个进程都必须有自己的环境，增加了服务器负载。由于我在虚拟化环境中运行，因此我想尽可能消除它。另一个选择就是利用我已有的Sidekiq选项。我现在使用Sidekiq进行后台处理，但它总是一次性的。有什么方法可以让我在Sidekiq中有一个连续的过程？
美团外卖搜索基于Elasticsearch的优化实践 - 2
美团外卖搜索工程团队在Elasticsearch的优化实践中，基于Location-BasedService（LBS）业务场景对Elasticsearch的查询性能进行优化。该优化基于Run-LengthEncoding（RLE）设计了一款高效的倒排索引结构，使检索耗时（TP99）降低了84%。本文从问题分析、技术选型、优化方案等方面进行阐述，并给出最终灰度验证的结论。1.前言最近十年，Elasticsearch已经成为了最受欢迎的开源检索引擎，其作为离线数仓、近线检索、B端检索的经典基建，已沉淀了大量的实践案例及优化总结。然而在高并发、高可用、大数据量的C端场景，目前可参考的资料并不多。因此