Elasticsearch之Mapping设置详解

程大帅气 2024-02-05 原文

Elasticsearch之Mapping详解

什么是Mapping？

Mapping类似于数据库中的表定义，主要有以下几个作用：

定义索引中字段的名称
定义字段的数据类型，例如：字符串、数字…
倒排索引的相关配置，是否分词，字段分词器选择等

Mapping设置会把JSON文档映射成Lucence所需要的扁平格式。

es7.0开始，一个索引只能有一个type，所以就可以说Mapping属于索引的type，每个文档都属于一个Type，每个Type都有一个Mapping。听起来好像很难理解，我们接着看。

字段的数据类型

简单类型

Text / Keyword
Date
Integer / Floating
Boolean
IPv4 & IPv6

复杂类型：对象类型、嵌套类型
特殊类型：geo_point 、geo_shape、percolator等

ES中的字段类型详解.

Dynamic Mapping

什么是Dynamic Mapping？它主要有以下几个作用：

在写入文档的时候，有可能当前文档的索引并不存在，就会为我们自动创建索引
DynamicMapping使得我们无需手动定义Mapping字段信息，ES根据文档的信息来推断出文档的类型。
ES推算的字段类型并不完全准确。
当类型设置的不对时，有些功能无法正常运行，比如聚合、分词、范围查询等等。

ES类型自动识别机制

JSON类型	ES类型
字符串	匹配日期，设置为Date。匹配数字，设置为float或者long（默认关闭）。会为字符串类型设置为Text，并增加keyword子字段。
布尔值	boolean
浮点数	float
整数	long
对象	Object
数组	有第一个非空数值的类型所决定
空	忽略

例子：我们新创建一个索引，不指定mapping，写入一个文档，查看ES为我们自动生成的mapping。
查看mapping：get index/_mapping

put index
put index/_doc/1
{
  "firstName":"程",
  "lastName":"大帅",
  "date":"2021-12-01T00:00:00.000Z",
  "age":18,
  "isvid":true
}
-------------------------------------
{
  "index" : {
    "mappings" : {
      "properties" : {
        "age" : {
          "type" : "long"
        },
        "date" : {
          "type" : "date"
        },
        "firstName" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "isvid" : {
          "type" : "boolean"
        },
        "lastName" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

可以看到时间格式的字段，es为我们转成了date类型，age转成了数字，字符串为我们设置了text字段和子类型keyword，布尔值自动映射为boolean类型。

更新mapping

上述示例我们可以看到，新建一个索引并插入文档后，ES会自动帮我们生成一个mapping，有时候自动生成的mapping字段格式并不是我们想要的，那么能否对mapping设置进行修改呢？

两种情况：

对已有字段来说，一旦字段中有数据写入，就不再支持修改字段定义。因为ES的搜索基于Lucene，倒排索引一旦生成之后，就不允许被修改
如果希望改变已有数据的字段类型，必须重建索引 Reindex
对于新增加的字段，有几种情况。
- Dynamic设置为true时，如果有新增字段的文档写入，Mapping会更新，相应的对新增字段定义类型。
- Dynamic设置为false，Mapping不会被更新，并且新增字段的数据无法被索引，但是，信息会出现在_source中。
- Dynamic设置为Strict，文档会写入失败！

ES之所以有上述规则，是因为如果字段的数据类型能够被随意更改，那么就会导致倒排索引的紊乱，影响到搜索，甚至无法被搜索。
但是如果时新增加的字段，相应的字段数据并不存在，则不会有这样的影响

我们可以在创建索引的时候指定Dynamic

PUT index
{
  "mappings":{
    "dynamic":"false"
  }
}

也可以对索引mapping的dynamic属性进行修改

PUT index/_doc/_mapping?include_type_name=true
{
  "dynamic":"false"
}

Dynamic有三个值可以设置：true、false、strict
设置为true时：文档可索引、字段可索引、mapping允许被更新。
设置为false时：文档可索引、字段不可索引、mapping不允许被更新。
设置为true时：文档不可索引、字段不可索引、mapping不允许被更新。

定义Mapping

其实对于实际开发过程中，我们有一些小诀窍来减少创建mapping的工作量。

可以先创建一个临时的index，写入一些JSON格式的样本数据。
通过get index/_mapping来获取到临时index的mapping定义
基于DynamicMapping自动生成的定义来做一些修改，使用此配置来重建新的索引。

1.控制字段是否被索引

在我们设定一个mapping文件的时候，可以显示的指定某些字段不被可以被搜索。

比如我设置了firstname字段的index为false。

PUT index/_doc/_mapping?include_type_name=true
{
    "dynamic":"false",
    "properties":{
        "age":{
            "type":"long"
        },
        "date":{
            "type":"date"
        },
        "firstName":{
            "type":"text",
            "index":false
        },
        "isvid":{
            "type":"boolean"
        },
        "lastName":{
            "type":"text"
        }
    }
}
---------------------------------------
get index/_search
{
  "query":{
    "match":{
      "firstName":"程"
    }
  }
}


"status" : 400
failed to create query: Cannot search on field [firstName] since it is not indexed.

当我们对设置了"index":false的字段进行搜索的时候，直接报错400。

2.索引配置

索引配置（Index Options）：可以控制倒排索引记录的内容。记录的内容越多，所占用的存储空间就越大。不同的索引配置也可以达到性能优化的目的。

docs - 记录doc id
freqs - 记录doc id +（term出现频率）term frequencies
positions （默认） - 记录 doc id +（term出现频率）term frequencies + （term所在语句位置）term position
offsets - 记录 doc id +（term出现频率）term frequencies + （term所在语句位置）term position + （词条所在的偏移量）character offsets

示例：

PUT index/_doc/_mapping?include_type_name=true
{
    "dynamic":"false",
    "properties":{
        "age":{
            "type":"long"
        },
        "date":{
            "type":"date"
        },
        "firstName":{
            "type":"text",
            "index":false
        },
        "isvid":{
            "type":"boolean"
        },
        "lastName":{
            "type":"text"
            "index_options":"offsets"
        }
    }
}

3.Null Value

有时候我们插入的文档，某些字段是null，但是需求需要对其进行搜索，那么我们就可以给字段指定"null_value:"xxx""，搜索时让字段匹配xxx即可搜索到null值。
注意：只有keyword类型支持null_value

PUT index2
{
  "mappings":{
    "properties":{
        "date":{
            "type":"date"
        },
        "firstName":{
            "type":"keyword",
            "null_value":"N"
        },
        "lastName":{
            "type":"text"
        }
    }
  }
}
--------------------
GET index2/_search
{
  "query":{
    "match":{
      "firstName":"N"
    }
  }
}

4.copy to

copy to可以满足一些特定的搜索需求，它的作用是：将多个字段的数据拷贝到目标字段中，目标字段可以用于搜索，拷贝字段不在_source中保存。

PUT index
{
  "mappings":{
    "properties":{
        "firstName":{
            "type":"text",
            "copy_to":"fullName"
        },
        "lastName":{
          "type":"text",
          "copy_to":"fullName"
        }
    }
  }
}
---------------------------
put index/_doc/1
{
  "firstName":"程",
  "lastName":"大帅"
}
----我们就可以使用fullName进行搜索----
get index/_search
{
  "query":{
    "match":{
      "fullName":"程"
    }
  }

我们get index/_mapping看一下，可以看到fullName被放进mapping内，但是搜索结果的_source中是没有这个字段的

{
  "index" : {
    "mappings" : {
      "properties" : {
        "firstName" : {
          "type" : "text",
          "copy_to" : [
            "fullName"
          ]
        },
        "fullName" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "lastName" : {
          "type" : "text",
          "copy_to" : [
            "fullName"
          ]
        }
      }
    }
  }
}

5.数组

ES中不提供专门的数组类型。任何字段都可以包含多个相同字段的数据。

比如还是上面创建的索引，我现在将程二帅也想保存到ES中，就可以这样写。

put index/_doc/2
{
  "firstName":"程",
  "lastName":["大帅","二帅"]
}
----------------------------
get index/_search
{
  "query":{
    "match":{
      "fullName":"帅"
    }
  }
}

有关Elasticsearch之Mapping设置详解的更多相关文章

ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby-openid:执行发现时未设置@socket - 2
我在使用omniauth/openid时遇到了一些麻烦。在尝试进行身份验证时，我在日志中发现了这一点:OpenID::FetchingError:Errorfetchinghttps://www.google.com/accounts/o8/.well-known/host-meta?hd=profiles.google.com%2Fmy_username:undefinedmethod`io'fornil:NilClass重要的是undefinedmethodio'fornil:NilClass来自openid/fetchers.rb，在下面的代码片段中:moduleNetclass
ruby-on-rails - 如何使用 instance_variable_set 正确设置实例变量？ - 2
我正在查看instance_variable_set的文档并看到给出的示例代码是这样做的:obj.instance_variable_set(:@instnc_var,"valuefortheinstancevariable")然后允许您在类的任何实例方法中以@instnc_var的形式访问该变量。我想知道为什么在@instnc_var之前需要一个冒号:。冒号有什么作用？最佳答案我的第一直觉是告诉你不要使用instance_variable_set除非你真的知道你用它做什么。它本质上是一种元编程工具或绕过实例变量可见性的黑客攻击
ruby-on-rails - date_field_tag，如何设置默认日期？ [ rails 上的 ruby ] - 2
我想设置一个默认日期，例如实际日期，我该如何设置？还有如何在组合框中设置默认值顺便问一下，date_field_tag和date_field之间有什么区别？最佳答案试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag，如何设置默认日期？[rails上的ruby]，我们在StackOverflow上找到一个类似的问
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
ruby-on-rails - 有没有办法为 CarrierWave/Fog 设置上传进度指示器？ - 2
我在Rails应用程序中使用CarrierWave/Fog将视频上传到AmazonS3。有没有办法判断上传的进度，让我可以显示上传进度如何？最佳答案 CarrierWave和Fog本身没有这种功能；你需要一个前端uploader来显示进度。当我不得不解决这个问题时，我使用了jQueryfileupload因为我的堆栈中已经有jQuery。甚至还有apostonCarrierWaveintegration因此您只需按照那里的说明操作即可获得适用于您的应用的进度条。关于ruby-on-r
objective-c - 在设置 Cocoa Pods 和安装 Ruby 更新时出错 - 2
我正在尝试为我的iOS应用程序设置cocoapods但是当我执行命令时:sudogemupdate--system我收到错误消息:当前已安装最新版本。中止。当我进入cocoapods的下一步时:sudogeminstallcocoapods我在MacOS10.8.5上遇到错误:ERROR:Errorinstallingcocoapods:cocoapods-trunkrequiresRubyversion>=2.0.0.我在MacOS10.9.4上尝试了同样的操作，但出现错误:ERROR:Couldnotfindavalidgem'cocoapods'(>=0),hereiswhy:U
ruby - 将对象设置为 nil 是否很常见？ - 2
我正在构建一个应用程序，想知道是否将未使用的对象设置为nil是生产级编码中的常见做法。我知道这只是垃圾收集器的提示，并不总是处理对象。最佳答案根据这个thread如果您使用完一个成员对象，将其设置为nil将引发被引用对象被垃圾回收。如果它是局部变量，方法exit将做同样的事情。也就是说，如果您要求将成员显式设置为nil，我会质疑您的设计。关于ruby-将对象设置为nil是否很常见？，我们在StackOverflow上找到一个类似的问题： https://
ruby-on-rails - 尝试设置 Amazon 的 S3 存储桶 : 403 Forbidden error & setting permissions - 2
我正在关注Hartl的railstutorial.org并已到达11.4.4:Imageuploadinproduction.我做了什么:注册亚马逊网络服务在AmazonIdentityandAccessManagement中，我创建了一个用户。用户创建成功。在AmazonS3中，我创建了一个新存储桶。设置新存储桶的权限:权限:本教程指示“授予上一步创建的用户读写权限”。但是，在存储桶的“权限”下，未提及新用户名。我只能在每个人、经过身份验证的用户、日志传送、我和亚马逊似乎根据我的名字+数字创建的用户名之间进行选择。我已经通过选择经过身份验证的用户并选中了上传/删除和查看权限的框(而不
ruby - Paperclip:以编程方式分配图像并设置其名称 - 2
使用Paperclip，我想从这样的URL抓取图像:require'open-uri'user.photo=open(url)问题是我最后得到一个像“open-uri20110915-4852-1o7k5uw”这样的文件名。有什么方法可以更改user.photo上的文件名？作为一个额外的变化，Paperclip将我的文件存储在S3上，所以如果我可以在初始分配中设置我想要的文件名就更好了，这样图像就会上传到正确的S3key。像这样:user.photo=open(url),:filename=>URI.parse(url).path 最佳答案