草庐IT

03-Elasticsearch之分词器

OnlyOnYourself-lzw 2023-03-28 原文

七、分词器

7.1、分词器介绍

了解分词器的概念

  • 分词器(Analyzer)是将一段文本,按照一定逻辑,拆分成多个词语的一种工具,如下所示

    • 华为手机 ---> 华为、手、手机
  • ElasticSearch 内置分词器有以下几种

    • Standard Analyzer
      • 默认分词器,按词/字切分,小写处理 (英文)华 为 手 机
    • Simple Analyzer
      • 按照非字母切分(符号被过滤),小写处理
    • Stop Analyzer
      • 小写处理,停用词过滤(the,a,is)
    • Whitespace Analyzer
      • 按照空格切分,不转小写
    • Keyword Analyzer
      • 不分词,直接将输入当作输出
    • Patter Analyzer
      • 正则表达式,默认\W+(非字符分割) (中文会被去掉)
    • Language
      • 提供了30多种常见语言的分词器
  • ES提供了一个接口给我们来验证分词效果,如下所示

    • # 分词效果验证
      GET _analyze
      {
        "text": "我爱写代码",
        "analyzer": "standard"
      }
      
    • 分词效果如下所示

    • Elasticsearch内置分词器对中文很不友好(偏好英文),处理方式为一个字一个词

7.2、IK分词器介绍及安装

学会如何集成ik分词器

7.2.1、IK分词器介绍

  • IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,是一个基于Maven构建的项目,具有60万字/秒的高速处理能力,并且支持用户词典扩展定义。
  • 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
  • IKAnalyzer又称庖丁解牛分词器
  • 分词器的核心
    • 1)词库
    • 2)分词算法
      • ik_smart:最小分词法
        • 我是程序员 -> 我、是、程序员
      • ik_max_word:最细分词法
        • 我是程序员 -> 我、是、程序员、程序、员

7.2.2、IK分词器安装

  • 1)下载好ik分词器后,进入创建ES容器的时候挂载的plugins目录

  • 2)将ik分词器添加到plugins里面即可

  • 3)重启es容器

    • docker restart elasticsearch
    • PS:如果发现重启失败,es启动后又意外关闭,可以查看日志,一般是下载的ik分词器版本跟es不一致导致的;可以参考博客修改(或者进入到ik分词器文件夹中修改plugin-descriptor.properties文件中的es版本号)
  • 4)验证ik分词器是否安装成功

    • GET _analyze
      {
        "text": "我是程序员",
        "analyzer": "ik_max_word"
      }
      
  • 一般情况下,ik_smart算法足够使用了,ik_max_word以最细粒度分词,会分太多次,数据量过大

7.3、使用IK分词器

7.3.1、没有设置ik分词器之前

  • 目前person索引库的name字段位text类型,我们使用term查询(不分词查询),发现并没有结果

    • GET person/_search
      {
        "query": {
          "term": {
            "name": {
              "value": "翠花"
            }
          }
        }
      }
      
    • 因为默认情况下,text类型使用standard分词器进行分词

7.3.2、重建索引并设置ik分词器

  • 1)这时需要删除person索引库,然后重新设置name的类型为text,且analyzer为ik_max_word

    • # 删除person索引库
      DELETE person
      
      PUT person
      {
        "mappings": {
          "properties": {
            "name":{
              "type": "text",
              "analyzer": "ik_max_word"
            },
            "age":{
              "type": "integer"
            }
          }
        }
        
      }
      
  • 2)插入数据

    • POST person/_doc/1
      {
        "name": "翠花",
        "age": 20,
        "sex": "女"
      }
      
  • 3)再次查询

    • GET person/_search
      {
        "query": {
          "term": {
            "name": {
              "value": "翠花"
            }
          }
        }
      }
      
    • 这时候不分词查询就有结果了

7.3.3、扩展词词典

  • 随着互联网的发展,"造词运动"也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:"奥力给",或者我们自定义的词等等
  • 所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能
  • 使用步骤如下所示

1)打开IK分词器config目录

  • 文件如下所示
    • PS:如果之前没有做目录挂载的话,可以参考如下命令
      • docker cp elasticsearch:/usr/share/elasticsearch/plugins/analysis-ik/config/IKAnalyzer.cfg.xml /root

2)修改IKAnalyzer.cfg.xml配置文件

  • 在IKAnalyzer.cfg.xml配置文件中添加如下内容

    • <?xml version="1.0" encoding="UTF-8"?>
      <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
      <properties>
              <comment>IK Analyzer 扩展配置</comment>
              <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->
              <entry key="ext_dict">ext.dic</entry>
      </properties>
      

3)新建ext.dic文件

  • 新建一个ext.dic文件,可以参考config目录下复制一个配置文件进行修改,添加如下内容

    • 奥里给
      啊噢额
      

4)重启elasticsearch

  • docker restart elasticsearch(容器名称或id)

5)测试效果

  • GET /_analyze
    {
      	"analyzer": "ik_max_word",
      	"text": "奥里给,啊噢额"
    }
    
  • PS:如果发现没能正常分词,可以使用cat ext.dic查看输出在终端的文字是否乱码

    • 在更改文件的时候,编码必须是UTF-8格式
  • PS:ik分词器不能使用中英文混合!

7.3.4、停用词词典

  • 在互联网项目中,网络传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索的时候,也应该忽略当前词汇
  • IK分词器也提供了强大的停用词功能,让我们在索引的时候,就直接忽略当前停用词汇表中的内容
  • 停用词词典使用步骤如下所示

1)修改IKAnalyzer.cfg.xml配置文件

  • <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
    <properties>
            <comment>IK Analyzer 扩展配置</comment>
            <!--用户可以在这里配置自己的扩展字典-->
            <entry key="ext_dict">ext.dic</entry>
             <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
            <entry key="ext_stopwords">stop.dic</entry>
    </properties>
    

2)在stopword.dic添加停用词

  • 结业

3)重启elasticsearch

  • docker restart elasticsearch(容器名称或id)
  • 查看日志:docker logs -f elasticsearch(容器名称或id)
    • 仔细看的话,可以在日志中查看到以及成功加载stopword.dic配置文件

4)测试效果

  • GET /_analyze
    {
      "analyzer": "ik_max_word",
      "text": "2018届计算机1班的结业率高达10%,奥里给!"
    }
    

有关03-Elasticsearch之分词器的更多相关文章

  1. ruby - Rails Elasticsearch 聚合 - 2

    不知何故,我似乎无法获得包含我的聚合的响应...使用curl它按预期工作:HBZUMB01$curl-XPOST"http://localhost:9200/contents/_search"-d'{"size":0,"aggs":{"sport_count":{"value_count":{"field":"dwid"}}}}'我收到回复:{"took":4,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":90,"max_score":0.0,"hits":[]},"a

  2. elasticsearch源码关于TransportSearchAction【阶段三】 - 2

    1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService:方法:1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>

  3. ruby-on-rails - 使用 Rails (Tire) 和 ElasticSearch 进行模糊字符串匹配 - 2

    我有一个Rails应用程序,现在设置了ElasticSearch和Tiregem以在模型上进行搜索,我想知道我应该如何设置我的应用程序以对模型中的某些索引进行模糊字符串匹配。我将我的模型设置为索引标题、描述等内容,但我想对其中一些进行模糊字符串匹配,但我不确定在何处进行此操作。如果您想发表评论,我将在下面包含我的代码!谢谢!在Controller中:defsearch@resource=Resource.search(params[:q],:page=>(params[:page]||1),:per_page=>15,load:true)end在模型中:classResource'Us

  4. 美团外卖搜索基于Elasticsearch的优化实践 - 2

    美团外卖搜索工程团队在Elasticsearch的优化实践中,基于Location-BasedService(LBS)业务场景对Elasticsearch的查询性能进行优化。该优化基于Run-LengthEncoding(RLE)设计了一款高效的倒排索引结构,使检索耗时(TP99)降低了84%。本文从问题分析、技术选型、优化方案等方面进行阐述,并给出最终灰度验证的结论。1.前言最近十年,Elasticsearch已经成为了最受欢迎的开源检索引擎,其作为离线数仓、近线检索、B端检索的经典基建,已沉淀了大量的实践案例及优化总结。然而在高并发、高可用、大数据量的C端场景,目前可参考的资料并不多。因此

  5. 【详解】Docker安装Elasticsearch7.16.1集群 - 2

    开门见山|拉取镜像dockerpullelasticsearch:7.16.1|配置存放的目录#存放配置文件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/config#存放数据的文件夹mkdir-p/opt/docker/elasticsearch/node-1/data#存放运行日志的文件夹mkdir-p/opt/docker/elasticsearch/node-1/log#存放IK分词插件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/plugins若你使用了moba,直接右键新建即可如上图所示依次类推创建

  6. 【Elasticsearch基础】Elasticsearch索引、文档以及映射操作详解 - 2

    文章目录概念索引相关操作创建索引更新副本查看索引删除索引索引的打开与关闭收缩索引索引别名查询索引别名文档相关操作新建文档查询文档更新文档删除文档映射相关操作查询文档映射创建静态映射创建索引并添加映射概念es中有三个概念要清楚,分别为索引、映射和文档(不用死记硬背,大概有个印象就可以)索引可理解为MySQL数据库;映射可理解为MySQL的表结构;文档可理解为MySQL表中的每行数据静态映射和动态映射上面已经介绍了,映射可理解为MySQL的表结构,在MySQL中,向表中插入数据是需要先创建表结构的;但在es中不必这样,可以直接插入文档,es可以根据插入的文档(数据),动态的创建映射(表结构),这就

  7. ruby-on-rails - Elasticsearch 问题 : Cannot connect AWS elasticsearch service - 2

    我有一个关于配置elasticsearch以连接AWSelasticsearch服务以在生产环境中运行项目的问题。我的gem文件:gem'searchkick'gem'faraday_middleware-aws-signers-v4'gem'aws-sdk','~>2'gem"elasticsearch",">=1.0.15"引用:https://github.com/ankane/searchkick我的config/initializers/elasticsearch.rb文件:require"faraday_middleware/aws_signers_v4"ENV["ELAS

  8. linux查看es节点使用情况,elasticsearch(es) 如何查看当前集群中哪个节点是主节点(master) - 2

    elasticsearch查看当前集群中的master节点是哪个需要使用_cat监控命令,具体如下。查看方法es主节点确定命令,以kibana上查看示例如下:GET_cat/nodesv返回结果示例如下:ipheap.percentram.percentcpuload_1mload_5mload_15mnode.rolemastername172.16.16.188529952.591.701.45mdi-elastic3172.16.16.187329950.990.991.19mdi-elastic2172.16.16.231699940.871.001.03mdi-elastic4172

  9. ruby - 在 Elasticsearch 中计算地理距离 - 2

    我在查询中使用geo_distancefilter和tire,它工作正常:search.filter:geo_distance,:distance=>"#{request.distance}km",:location=>"#{request.lat},#{request.lng}"我预计结果会以某种方式包括到我用于过滤器的地理位置的计算距离。有没有办法告诉elasticsearch在响应中包含它,这样我就不必在ruby​​中为每个结果计算它?==更新==我在谷歌群组中的foundtheanswer:search.sortdoby"_geo_distance","location"=>"

  10. ruby - 有没有办法计算 ElasticSearch 或 Tire 中索引的所有元素? - 2

    如果不必像这样进行搜索就可以对元素进行计数,那就太好了Obj.search("id:*").count这可能吗? 最佳答案 在ElasticSearch中,您可以使用计数API对所有元素进行计数curl-XGEThttp://localhost:9200/index/_count参见CountAPI他们网站上的文档。 关于ruby-有没有办法计算ElasticSearch或Tire中索引的所有元素?,我们在StackOverflow上找到一个类似的问题: ht

随机推荐