草庐IT

analysis-ik

全部标签

django+django-haystack+Whoosh(后期切换引擎为Elasticsearch+ik)+Jieba+mysql

1.前提准备环境介绍haystack是django的开源搜索框架,该框架支持Solr, Elasticsearch, Whoosh, *Xapian*搜索引擎,不用更改代码,直接切换引擎,减少代码量。搜索引擎使用Whoosh,这是一个由纯Python实现的全文搜索引擎,没有二进制文件等,比较小巧,配置比较简单,当然性能自然略低。whoosh和xapian的性能差距还是比较明显。索引和搜索的速度有近4倍的差距,在fullcache情况下的性能差距更是达到了60倍。中文分词+,由于Whoosh自带的是英文分词,对中文的分词支持不是太好,故用jieba替换whoosh的分词组件。Elasticsea

ELK第一讲之【docker安装(Elasticsearch、kibana、IK分词器、Logstash)8.4.3】

1、对应版本kibana8.4.3的安装2、IK分词器8.4.3的安装3、Logstash-8.4.3的安装一、docker安装elasticsearch8.4.31、创建本地挂在目录sudomkdir-p/usr/local/docker/elasticsearch/config#指定该挂载目录用于持久化es保存的数据sudomkdir-p/usr/local/docker/elasticsearch/datasudomkdir-p/usr/local/docker/elasticsearch/pluginssudomkdir-p/usr/local/docker/elasticsearch

ELK第一讲之【docker安装(Elasticsearch、kibana、IK分词器、Logstash)8.4.3】

1、对应版本kibana8.4.3的安装2、IK分词器8.4.3的安装3、Logstash-8.4.3的安装一、docker安装elasticsearch8.4.31、创建本地挂在目录sudomkdir-p/usr/local/docker/elasticsearch/config#指定该挂载目录用于持久化es保存的数据sudomkdir-p/usr/local/docker/elasticsearch/datasudomkdir-p/usr/local/docker/elasticsearch/pluginssudomkdir-p/usr/local/docker/elasticsearch

es(Elasticsearch)安装使用(03ik分词器安装篇)

背景什么是分词把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。es内置分词standard:默认分词,单词会被拆分,大小会转换为小写。simple:按照非字母分词。大写转为小写。whitespace:按照空格分词。忽略大小写。stop:去除无意义单词,比如the/a/an/is…keyword:不做分词。把整个文本作为一个单独的关键词文章推荐es(Elasticsearch)安装使用(01es安装篇)_少年ing的博客-CSDN博客es(Elasticsearch)客户端Kibana安装使用(02Kibana安装篇

es(Elasticsearch)安装使用(03ik分词器安装篇)

背景什么是分词把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。es内置分词standard:默认分词,单词会被拆分,大小会转换为小写。simple:按照非字母分词。大写转为小写。whitespace:按照空格分词。忽略大小写。stop:去除无意义单词,比如the/a/an/is…keyword:不做分词。把整个文本作为一个单独的关键词文章推荐es(Elasticsearch)安装使用(01es安装篇)_少年ing的博客-CSDN博客es(Elasticsearch)客户端Kibana安装使用(02Kibana安装篇

Docker环境下配置Es自定义分词器(ik)

分词一个tokenizer(分词器)接收一个字符流,将之分割为独立的tokens(词元,通常是独立的单词),然后输出tokens流。例如,whitespacetokenizer遇到空白字符时分割文本。它会将文本"Quickbrownfox!"分割为[Quick,brown,fox!]。该tokenizer(分词器)还负责记录各个term(词条)的顺序或position位置(用于phrase短语和wordproximity词近邻查询),以及term(词条)所代表的原始word(单词)的start(起始)和end(结束)的characteroffsets(字符偏移量)(用于高亮显示搜索的内容)。E

Docker环境下配置Es自定义分词器(ik)

分词一个tokenizer(分词器)接收一个字符流,将之分割为独立的tokens(词元,通常是独立的单词),然后输出tokens流。例如,whitespacetokenizer遇到空白字符时分割文本。它会将文本"Quickbrownfox!"分割为[Quick,brown,fox!]。该tokenizer(分词器)还负责记录各个term(词条)的顺序或position位置(用于phrase短语和wordproximity词近邻查询),以及term(词条)所代表的原始word(单词)的start(起始)和end(结束)的characteroffsets(字符偏移量)(用于高亮显示搜索的内容)。E

Linux安装elasticsearch、IK分词器和kibana

简介:因为内网环境不能上外网,安装最新的版本有问题而且不容易排查,所以安装了比较老的一个版本6.2.2。在安装的时候,为了讲清楚所有文件源头,所以介绍的啰嗦,但是很详细。这里主要说明elasticsearch、kibana、Ik分词器的下载安装,以及注意的一些问题。我们这里使用的服务器是Linux服务器,系统是centos7的64位一、安装elasticsearch1、进入官网,如下图所示2、点击免费下载的,点击后进入下图,我们使用免费开源的。3、点击下载,进入到最新版本的页面,我需要找到可以查看所有版本的页面。4、点击Viewpastreleases,找到对应版本的下载。5、下载后我们使用f

Linux安装elasticsearch、IK分词器和kibana

简介:因为内网环境不能上外网,安装最新的版本有问题而且不容易排查,所以安装了比较老的一个版本6.2.2。在安装的时候,为了讲清楚所有文件源头,所以介绍的啰嗦,但是很详细。这里主要说明elasticsearch、kibana、Ik分词器的下载安装,以及注意的一些问题。我们这里使用的服务器是Linux服务器,系统是centos7的64位一、安装elasticsearch1、进入官网,如下图所示2、点击免费下载的,点击后进入下图,我们使用免费开源的。3、点击下载,进入到最新版本的页面,我需要找到可以查看所有版本的页面。4、点击Viewpastreleases,找到对应版本的下载。5、下载后我们使用f

ElasticSearch学习:ik分词器

IK分词器是关于中文的一个分词器,有IK分词器自然还有别的分词器,比如说pinyin分词器针对的是拼音分词,letter针对的是letter分词等,ES有一个很好的方式就是通过插件的形式来扩展这些功能。一IK分词器的下载和安装其实安装很方便,首先要知道自己的ELK都是什么版本,然后到IK分词器的github地址上搜索相对应的版本。IK分词器github地址下载到对应的IK分词器版本,剩下的就是如何安装分词器。很简单就是对应的包解压到ElasticSearch的安装路径下plugins文件夹下。如图:最后一步,重启ES,就跟你idea安装新的插件一般也会提示你重启idea,重启成功后就可以使用分