草庐IT

用ES实现拼音搜索策略

百木森森 2023-04-10 原文

构建拼音索引

Step 1 在ES中安装pinyin分词器

        安装步骤详见网上的众多介绍,这里不赘述,ES-pinyin分词器安装。pinyin的开源见:GitHub - medcl/elasticsearch-analysis-pinyin: This Pinyin Analysis plugin is used to do conversionb

Step 2 新建索引并初始化测试数据

PUT idx_test_user
{
  "mappings": {
    "dynamic": false,
    "properties": {
      "name": {
       "analyzer": "standard",
       "type": "text",
       "fields": {
         "pinyin": {
           "type": "text",
           "analyzer": "index_pinyin_analyzer"
         }
       }
      }
    }
  },
  "settings": {
    "analysis": {
      "analyzer": {
        "index_pinyin_analyzer": {                         // MARK 1
          "tokenizer": "index_pinyin_tokenizer"
        },
        "search_pinyin_analyzer": {                        // MARK 2
          "tokenizer": "search_pinyin_tokenzier"
        }
      },
      "tokenizer": {
        "index_pinyin_tokenizer": {
          "keep_joined_full_pinyin" : "true",
          "lowercase" : "true",
          "none_chinese_pinyin_tokenize" : "false",
          "keep_none_chinese_in_joined_full_pinyin" : "true",
          "keep_original" : "true",
          "keep_none_chinese_together" : "true",
          "remove_duplicated_term" : "false",
          "keep_separate_first_letter" : "false",
          "type" : "pinyin",
          "limit_first_letter_length" : "16",
          "keep_full_pinyin" : "true"
        },
        "search_pinyin_tokenzier": {
          "keep_joined_full_pinyin" : "true",
          "lowercase" : "true",
          "keep_original" : "true",
          "remove_duplicated_term" : "false",
          "keep_separate_first_letter" : "false",
          "type" : "pinyin",
          "limit_first_letter_length" : "16",
          "keep_full_pinyin" : "true"
        }
      }
    }
  }
}



POST idx_test_user/_doc/1
{
  "name": "李超"
}
POST idx_test_user/_doc/2
{
  "name": "李超越"
}
POST idx_test_user/_doc/3
{
  "name": "刘超"
}
POST idx_test_user/_doc/4
{
  "name": "李朝"
}

代码示例 1.1

【MARK 1说明】analyzer根据使用的位置不同(索引侧、召回侧),有可能需要定义不同的analyzer,两侧的analyzer搭配在一起使用,共同构成一组搜索策略。MARK 1处为索引侧analyzer

【MARK 2说明】该analyzer用于召回侧,与MARK 1的analyzer组合在一起使用

索引侧analyzer效果说明

        以代码示例1.1中的测试数据为例,在倒排索引中的结果是这样的

token

doc:李超

doc:李超越

doc:刘超

doc:李朝

li

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

李超

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

-

-

lichao

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

lc

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

chao

"start_offset" : 0,

"end_offset" : 0,

"position" : 1

"start_offset" : 0,

"end_offset" : 0,

"position" : 1

"start_offset" : 0,

"end_offset" : 0,

"position" : 1

"start_offset" : 0,

"end_offset" : 0,

"position" : 1

李超越

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

-

lichaoyue

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

-

lcy

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

-

yue

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 2

-

-

liu

-

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

刘超

-

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

liuchao

-

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

-

李朝

-

-

-

"start_offset" : 0,

"end_offset" : 0,

"position" : 0

表 1.1 「李超」、「李超越」、「刘超」在倒排索引中的结构

召回侧实现方式

"match_phrase": {                           // MARK 1
  "name.pinyin": {
    "analyzer": "search_pinyin_analyzer",   // MARK 2
    "query": "lichao"
  }
}

代码示例 2.1

【MARK 1说明】注意要使用match_phrase,而不是match,不然会有badcase

【MARK 2说明】注意这里要指定召回侧的analyzer,analyzer声明详见「代码示例 1.1」,若不指定则会用ES默认analyzer:standard

拼音搜索策略及其效果

使用代码示例1.1中提供的数据,倒排索引结构见表1.1,召回DSL见代码示例2.1

query

全拼

连字拼音

前缀拼音

多音字

lichao

李超,李朝

李超越

-

-

lichaoyue

李超越

-

-

-

li

-

李超,李超越,李朝

-

-

chao

-

李超,李超越,刘超,李朝

-

-

yue

-

李超越

-

-

liuchao

刘超

-

-

-

liu

-

刘超

-

-

lc

-

-

不支持

-

lizhao

-

-

-

不支持,无法召回李朝

表 2.1 各query在不同策略下可以召回的结果


欢迎访问我的博客:用ES实现拼音搜索策略 百木森森的技术分享

有关用ES实现拼音搜索策略的更多相关文章

  1. ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2

    我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden

  2. ruby-on-rails - Nokogiri:使用 XPath 搜索 <div> - 2

    我使用Nokogiri(Rubygem)css搜索寻找某些在我的html里面。看起来Nokogiri的css搜索不喜欢正则表达式。我想切换到Nokogiri的xpath搜索,因为这似乎支持搜索字符串中的正则表达式。如何在xpath搜索中实现下面提到的(伪)css搜索?require'rubygems'require'nokogiri'value=Nokogiri::HTML.parse(ABBlaCD3"HTML_END#my_blockisgivenmy_bl="1"#my_eqcorrespondstothisregexmy_eq="\/[0-9]+\/"#FIXMEThefoll

  3. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  4. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  5. 基于C#实现简易绘图工具【100010177】 - 2

    C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.

  6. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

  7. 【Java入门】使用Java实现文件夹的遍历 - 2

    遍历文件夹我们通常是使用递归进行操作,这种方式比较简单,也比较容易理解。本文为大家介绍另一种不使用递归的方式,由于没有使用递归,只用到了循环和集合,所以效率更高一些!一、使用递归遍历文件夹整体思路1、使用File封装初始目录,2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组,取出每个File对象4-1、如果File是否是一个文件,打印4-2、否则就是一个目录,递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg

  8. ES基础入门 - 2

    ES一、简介1、ElasticStackES技术栈:ElasticSearch:存数据+搜索;QL;Kibana:Web可视化平台,分析。LogStash:日志收集,Log4j:产生日志;log.info(xxx)。。。。使用场景:metrics:指标监控…2、基本概念Index(索引)动词:保存(插入)名词:类似MySQL数据库,给数据Type(类型)已废弃,以前类似MySQL的表现在用索引对数据分类Document(文档)真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear

  9. ruby - Arrays Sets 和 SortedSets 在 Ruby 中是如何实现的 - 2

    通常,数组被实现为内存块,集合被实现为HashMap,有序集合被实现为跳跃列表。在Ruby中也是如此吗?我正在尝试从性能和内存占用方面评估Ruby中不同容器的使用情况 最佳答案 数组是Ruby核心库的一部分。每个Ruby实现都有自己的数组实现。Ruby语言规范只规定了Ruby数组的行为,并没有规定任何特定的实现策略。它甚至没有指定任何会强制或至少建议特定实现策略的性能约束。然而,大多数Rubyist对数组的性能特征有一些期望,这会迫使不符合它们的实现变得默默无闻,因为实际上没有人会使用它:插入、前置或追加以及删除元素的最坏情况步骤复

  10. ruby - 如何搜索有用的 ruby - 2

    寻找有用的ruby的好网站是什么? 最佳答案 AgileWebDevelopment列出插件(虽然不是ruby​​gems,我不确定为什么),并允许人们对它们进行评级。RubyToolbox按类别列出gem并比较它们的受欢迎程度。Rubygems有一个搜索框。StackOverflow对最有用的rails插件和ruby​​gems有疑问。 关于ruby-如何搜索有用的ruby,我们在StackOverflow上找到一个类似的问题: https://stacko

随机推荐