ES的mapping配置详解

liuec1002 2024-05-02 原文

mapping

类似于数据库的schema的定义，mapping会把文档映射成lucene需要的扁平格式，一个mapping属于一个索引的type，一个type中有一个mapping定义，7.0后一个索引只有一个type，所以不需要在mapping中定义type的信息。作用如下：

定义索引这里面的字段和名称
定义字段的数据类型，字符串、布尔、数字…
字段，倒排索引相关的配置，是否分词。

mapping的基本格式

{
    "mappings":{
        "_doc":{
            "_all":{
                "enabled":false  #默认情况，ElasticSarch自动使用_all所有的文档的域都会被加到_all中进行索引。可以使用"_all" : {"enabled":false} 开关禁用它。如果某个域不希望被加到_all中，可以使用"include_in_all":false关闭
            },
            "properties":{
                "uuid":{
                    "type":"text",
                    "copy_to":"_search_all", #对应_search_all字段，可以对其进行全文检索
                    "fields":{
                        "keyword":{
                            "type":"keyword",  
                            "ignore_above":150  #ignore_above 默认值是256，当字段文本的长度大于指定值时，不做倒排索引。
                        }
                    }
                },
                "name":{
                    "type":"text",
                    "copy_to":"_search_all",
                    "analyzer":"ik_max_word",  # ik_max_word 插件会最细粒度分词
                    "search_analyzer":"ik_smart",  # ik_smart 粗粒度分词
                    "fields":{
                        "keyword":{
                            "type":"keyword",
                            "ignore_above":150
                        }
                    }
                },
                "dt_from_explode_time":{
                    "type":"date",
                    "copy_to":"_search_all",
                    "format":"strict_date_optional_time||epoch_millis"
                },
                "_search_all":{
                    "type":"text"
                }
            },
            "date_detection":false,  #关闭日期自动检测，如果开启，会对于设置为日期格式的字段进行判断
            "dynamic_templates":[   #用于自定义在动态添加field的时候自动给field设置的数据类型
                {
                    "strings":{
                        "match_mapping_type":"string",
                        "mapping":{
                            "type":"text",
                            "copy_to":"_search_all",
                            "fields":{
                                "keyword":{
                                    "type":"keyword",
                                    "ignore_above":150
                                }
                            }
                        }
                    }
                }
            ]
        }
    },
    "settings":{
        "index":{
            "number_of_shards":6, #分片数量
            "number_of_replicas":1  #副本数量
        }
    }
}

分词：

按照一般情况来讲，索引分词应该按照最细粒度来分词，搜索分词可按最粗粒度来分词
比如搜索“华为手机”
用户不希望将关键词拆分为华为，手机，那这样各类手机和华为路由器或华为其它产品也能搜索出来
所以这块建议搜索分词设置为最粗粒度

mapping的参数说明

字段类型概述

一级分类	二级分类	具体类型
核心类型	字符串类型	~~string~~,text,keyword
整数类型		integer,long,short,byte
浮点类型		double,float,half_float,scaled_float
逻辑类型		boolean
日期类型		date
范围类型		range
二进制类型		binary
复合类型	数组类型	array
对象类型		object
嵌套类型		nested
地理类型	地理坐标类型	geo_point
地理地图		geo_shape
特殊类型	IP类型	ip
范围类型		completion
令牌计数类型		token_count
附件类型		attachment
抽取类型		percolator

string类型：ELasticsearch 5.X之后的字段类型不再支持string，由text或keyword取代。如果仍使用string，会给出警告
text取代了string，当一个字段是要被全文搜索的，比如Email内容、产品描述，应该使用text类型。设置text类型以后，字段内容会被分析，在生成倒排索引以前，字符串会被分析器分成一个一个词项。text类型的字段不用于排序，很少用于聚合（termsAggregation除外）
keyword类型适用于索引结构化的字段，比如email地址、主机名、状态码和标签。如果字段需要进行过滤(比如查找已发布博客中status属性为published的文章)、排序、聚合。keyword类型的字段只能通过精确值搜索到

Dynamic Mapping

写入文档的时候，索引不存在，会自动创建索引，无需手动创建，ES会根据内容推断字段的类型，推断会不准确，可能造成某些功能无法使用，例如范围查询。

查看一个索引当前的mapping

GET /movies/_mapping

修改Mapping的字段类型

在写入文档的时候，有可能当前文档的索引并不存在，就会为我们自动创建索引
DynamicMapping使得我们无需手动定义Mapping字段信息，ES根据文档的信息来推断出文档的类型。
ES推算的字段类型并不完全准确。
当类型设置的不对时，有些功能无法正常运行，比如聚合、分词、范围查询等等。

新增字段
dynamic设置为true，一旦有新增字段的文档写入，mapping也同时被更新。
dynamic设置为false，mapping不会被更新，新增的字段数据无法被索引，但是信息会出现在source中.
dynamic设置为strict，文档写入失败
已有的字段，一旦有数据写入，不支持修改（倒排索引不支持修改）
希望更改字段类型，用Reindex API,重建索引
设计原因
如果修改字段数据类型，会导致已经被索引的文档不能被搜索。
新增字段不存在影响。

SpringDataElasticsearch操作Elasticsearch创建索引库以及创建映射

注意:SpringDataElasticsearch底层使用的不是Elasticsearch提供的RestHighLevelClient，而是TransportClient，并不采用Http协议通信，而是访问elasticsearch对外开放的tcp端口

spring:
  data:
    elasticsearch:
      cluster-name: myescluster
      cluster-nodes: ip1:9300, ip2:9300, ip3:9300
      index-name: test

JavaConfig定义

@Component
@Data
public class AppConfig {

    @Value("${spring.data.elasticsearch.index-name}")
    private String indexName;
}

pojo

/**
 * MyObject实体
 *

 */
@Data
@Document(indexName = "#{appConfig.indexName}", type = "myObject")
public class MyObject {

    @Id
    @Field(index = false, store = true, type = FieldType.Keyword)
    private String tid;

    @Field(index = true, store = true, analyzer = "ik", searchAnalyzer = "ik", type = FieldType.Text)
    private String title;

    @Field(index = true, store = true, analyzer = "ik", searchAnalyzer = "ik", type = FieldType.Text)
    private String content;

    @Field(index = false, store = true, type = FieldType.Date, format = DateFormat.custom,pattern = "yyyy-MM-dd HH:mm:ss")
    private Date time;

}

@Document：声明索引库配置
indexName：索引库名称
type：类型名称，默认是“docs”
shards：分片数量，默认5
replicas：副本数量，默认1
@Id：声明实体类的id
@Field：声明字段属性
type：字段的数据类型
analyzer：指定分词器类型
index：是否创建索引


import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.data.elasticsearch.core.ElasticsearchTemplate;
import org.springframework.test.context.junit4.SpringRunner;

@RunWith(SpringRunner.class)
@SpringBootTest
public class SpringElasticsearchTest {

    @Autowired
    private ElasticsearchTemplate elasticsearchTemplate;


    /**
     * 创建索引和映射
     */
    @Test
    public void testCreateMappingAndIndex(){
        try {
            elasticsearchTemplate.putMapping(MyObject .class);
        } catch (Exception e) {
            elasticsearchTemplate.createIndex(MyObject .class);
            elasticsearchTemplate.putMapping(MyObject .class);
        }
    }

    /**
     * 创建索引库
     */
    @Test
    public void testCreateIndex(){
        // 创建索引库，并制定实体类的字节码
        elasticsearchTemplate.createIndex(MyObject .class);
    }

    /**
     * 创建映射
     */
    @Test
    public void testCreateMapping(){
        // 创建索引库，并制定实体类的字节码
        elasticsearchTemplate.putMapping(MyObject .class);
    }
}

详解 mapping 34 xff0c xff java 后端架构

有关ES的mapping配置详解的更多相关文章

ruby-on-rails - 独立 ruby 脚本的配置文件 - 2
我有一个在Linux服务器上运行的ruby脚本。它不使用rails或任何东西。它基本上是一个命令行ruby脚本，可以像这样传递参数:./ruby_script.rbarg1arg2如何将参数抽象到配置文件(例如yaml文件或其他文件)中？您能否举例说明如何做到这一点？提前谢谢你。最佳答案首先，您可以运行一个写入YAML配置文件的独立脚本:require"yaml"File.write("path_to_yaml_file",[arg1,arg2].to_yaml)然后，在您的应用中阅读它:require"yaml"arg
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
Vscode+Cmake配置并运行opencv环境(Windows和Ubuntu大同小异) - 2
之前在培训新生的时候，windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表，但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题)，加之暑假之后对cmake实在是爱不释手，且这样配置确实十分简单(其实都不需要配置)，故斗胆妄言vscode下配置CV之法。其实极为简单，图比较多所以很长。如果你看此文还配不好，你应该思考一下是不是自己的问题。闲话少说，直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么，我不说是谁。CMake是一个开源免费并且跨平台的构建工具，可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
神州数码无线产品（AC+AP）配置 - 2
注意：本文主要掌握DCN自研无线产品的基本配置方法和注意事项，能够进行一般的项目实施、调试与运维AP基本配置命令AP登录用户名和密码均为：adminAP默认IP地址为：192.168.1.10AP默认情况下DHCP开启AP静态地址配置：setmanagementstatic-ip192.168.10.1AP开启/关闭DHCP功能：setmanagementdhcp-statusup/downAP设置默认网关：setstatic-ip-routegeteway192.168.10.254查看AP基本信息：getsystemgetmanagementgetmanaged-apgetrouteAP配
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ES基础入门 - 2
ES一、简介1、ElasticStackES技术栈：ElasticSearch：存数据+搜索；QL；Kibana：Web可视化平台，分析。LogStash：日志收集，Log4j:产生日志；log.info(xxx)。。。。使用场景：metrics：指标监控…2、基本概念Index（索引）动词：保存（插入）名词：类似MySQL数据库，给数据Type（类型）已废弃，以前类似MySQL的表现在用索引对数据分类Document（文档）真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear
Ruby 默认将 IRB 配置为 Pretty_Inspect - 2
我是ruby的新手，正在配置IRB。我喜欢pretty-print(需要'pp')，但总是输入pp来漂亮地打印它似乎很麻烦。我想做的是默认情况下让它漂亮地打印出来，所以如果我有一个var，比如说，'myvar'，然后键入myvar，它会自动调用pretty_inspect而不是常规检查。我从哪里开始？理想情况下，我将能够向我的.irbrc文件添加一个自动调用的方法。有什么想法吗？谢谢! 最佳答案 irb中默认pretty-print对象正是hirb被迫去做。Theseposts解释hirb如何将几乎所有内容转换为ascii表。虽
ruby - 是否可以将 IRB 提示配置为动态更改？ - 2
我想在IRB中浏览文件系统并让提示更改以反射(reflect)当前工作目录，但我不知道如何在每个命令后进行提示更新。最终，我想在日常工作中更多地使用IRB，让bash溜走。我在我的.irbrc中试过这个:require'fileutils'includeFileUtilsIRB.conf[:PROMPT][:CUSTOM]={:PROMPT_N=>"\e[1m:\e[m",:PROMPT_I=>"\e[1m#{pwd}>\e[m",:PROMPT_S=>"FOO",:PROMPT_C=>"\e[1m#{pwd}>\e[m",:RETURN=>""}IRB.conf[:PROMPT_MO
ruby - 如何配置 Ruby Mechanize 代理以通过 Charles Web 代理工作？ - 2
我正在使用Ruby/Mechanize编写一个“自动填写表格”应用程序。它几乎可以工作。我可以使用精彩CharlesWeb代理以查看服务器和我的Firefox浏览器之间的交换。现在我想使用Charles查看服务器和我的应用程序之间的交换。Charles在端口8888上代理。假设服务器位于https://my.host.com。.一件不起作用的事情是:@agent||=Mechanize.newdo|agent|agent.set_proxy("my.host.com",8888)end这会导致Net::HTTP::Persistent::Error:...lib/net/http/pe