文章目录词干过滤器(stemmerfilter)Shinglefilter同义词过滤器从文件中配置同义词分词器生成的分词可能需要进一步丰富或增强,例如小写(或大写)标记、提供同义词、开发词干词、删除撇号或标点符号等。分词过滤器对分词进行处理以执行此类转换。Elasticsearch提供了将近50个分词过滤器,正如你可以想象的那样,在这里讨论所有这些过滤器是不可行的。我已经设法抓住了一些,但请随时参考官方文档以了解其余的分词过滤器。我们可以通过简单地附加到分词器并在_analyzeAPI调用中使用它来测分词过滤器,如以下清单所示:GET_analyze{"tokenizer":"standard
分词器生成的分词可能需要进一步丰富或增强,例如小写(或大写)标记、提供同义词、开发词干词、删除撇号或标点符号等。分词过滤器对分词进行处理以执行此类转换。Elasticsearch提供了将近50个分词过滤器,正如你可以想象的那样,在这里讨论所有这些过滤器是不可行的。我已经设法抓住了一些,但请随时参考官方文档以了解其余的分词过滤器。我们可以通过简单地附加到分词器并在_analyzeAPI调用中使用它来测分词过滤器,如以下清单所示:GET_analyze{"tokenizer":"standard","filter":["uppercase","reverse"],"text":"ElasticSt
我目前正在使用lucene索引网页。目的是能够快速提取哪个页面包含某个表达式(通常是1、2或3个词),以及页面中还包含哪些其他词(或其中的1到3个词组)。这将用于构建/丰富/更改词库(固定词汇)。从我找到的文章来看,问题似乎是找到n-grams(或木瓦)。Lucene有一个ShingleFilter,一个ShingleMatrixFilter,和一个ShingleAnalyzerWrapper,这似乎与此任务有关。从这里presentation,我了解到Lucene还可以搜索由固定数量的单词(称为slops)分隔的术语。提供了一个例子here.但是,我不清楚这些方法之间的区别?它们是根