草庐IT

【ES实战】索引mapping的动态设置

顧棟 2023-07-12 原文

动态mapping

文章目录


fieldmapping类型在使用之前不需要定义。由于有了动态映射,在向索引写入数据的时候,就可以自动添加新的字段名。新字段可以添加到顶级映射类型中,也可以添加到内部对象和嵌套字段中。

mapping下的dynamic配置项控制是否可以动态添加新字段。它接受三种设置:

  • true
    将新检测到的字段添加到映射中。 (default)
  • false
    新检测到的字段将被忽略。这些字段不会被索引,因此不能被搜索,但仍然会出现在返回的命中的_source字段中。这些字段不会被添加到映射中,新字段必须显式添加。
  • strict
    如果检测到新字段,则抛出异常并拒绝文档。新字段必须显式添加到映射中。

也就是说在使用动态mapping的前提就是需要将dynamic配置项采用默认项。

PUT my_index20221022001
{
    "mappings": {
        "_doc": {
            "dynamic": "strict",
            "properties": {
                "age": {
                    "type": "text"
                }
            }
        }
    }
}

动态模板允许在一定规则下进行自定义映射。可以配置动态映射规则来定制用于新字段的映射。对于已经存在配置好的字段,不生效。

动态mapping规则

动态模板允许基于下列规则将你定义自定义映射应用到动态添加的字段:

  • Elasticsearch检测到的数据类型,与match_mapping_type

  • 字段名称,用matchunmatchmatch_pattern

  • 字段的完整带点路径,并带有path_matchpath_unmatch

原始字段名{name}和检测到的数据类型{dynamic_type}。模板变量可以作为占位符在映射规范中使用。

只有当一个字段包含一个具体的值时,动态字段映射才会被添加,而不是空或空数组。这意味着,如果在动态模板中使用null_value选项,它将只在第一个有具体值的字段的文档被索引后才被应用。

语法规则

动态模板被指定为一个命名对象的数组。

"dynamic_templates": [
    {
      "my_template_name": {  // 模板名称可以是任何字符串值。
        ...  match conditions ... // 匹配条件可以包括以下任何一项:match_mapping_type, match, match_pattern, unmatch, path_match, path_unmatch。
        "mapping": { ... } // 匹配字段应使用的映射。
      }
    },
    ...
  ]

模板是按顺序处理的,第一个匹配的模板获胜。当通过put mapping API放入新的动态模板时,所有现有的模板都被覆盖。这允许动态模板在最初添加后被重新排序或删除。

match_mapping_type

match_mapping_type是由json解析器检测到的数据类型。由于JSON不允许区分长数和整数或双数和浮点数,它将总是选择更广泛的数据类型,即长数用于整数,双数用于浮点数。

以下数据类型可以被自动检测到:

  • boolean :当遇到truefalse时,字段的类型为 boolean
  • date :当日期检测被启用并且发现一个字符串与任何配置的日期格式相匹配时,这个字段被设置成date
  • double :当数据拥有小数部分,字段类型为double
  • long :没有小数部分的数字,字段类型为long
  • objectobject表示对象,也叫哈希。
  • stringstring用于字符串。

*,可以理解为通配符,也可以用来匹配所有数据类型。

例如,如果我们想把所有的整数字段映射为integer而不是long,把所有的string字段映射为textkeyword,我们可以使用以下模板。

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "integers": {
            "match_mapping_type": "long",
            "mapping": {
              "type": "integer"
            }
          }
          
        },
        {
          "strings": {
            "match_mapping_type": "string",
            "mapping": {
              "type": "text",
              "fields": {
                "raw": {
                  "type":  "keyword",
                  "ignore_above": 256
                }
              }
            }
          }
        }
      ]
    }
  }
}

PUT my_index/_doc/1
{
  "my_integer": 5, // my_integer字段被映射为一个整数。
  "my_string": "Some string" // my_string字段被映射为一个text,有一个keywords的多字段。
}

match and unmatch

参数match使用一个模式来匹配字段名,而unmatch使用一个模式来排除match匹配的字段。

下面的例子匹配所有名称以long_开头的string字段(以_text结尾的字段除外),并将它们映射为long字段。

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "longs_as_strings": {
            "match_mapping_type": "string",
            "match":   "long_*",
            "unmatch": "*_text",
            "mapping": {
              "type": "long"
            }
          }
        }
      ]
    }
  }
}

PUT my_index/_doc/1
{
  "long_num": "5", //long_num字段被映射为一个long。
  "long_text": "foo" //long_text字段使用默认的字符串映射。
}

match_pattern

match_pattern参数调整了match参数的行为,例如,它支持字段名上的完整Java正则表达式匹配,而不是简单的通配符。

  "match_pattern": "regex",
  "match": "^profit_\d+$"

path_match and path_unmatch

path_matchpath_unmatch参数的工作方式与matchunmatch相同,但对字段的完整点状路径进行操作,而不仅仅是最终名称,例如:some_object.*.some_field

这个例子将name对象中的任何字段的值复制到顶层的full_name字段,除了middle字段。

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "full_name": {
            "path_match":   "name.*",
            "path_unmatch": "*.middle",
            "mapping": {
              "type":       "text",
              "copy_to":    "full_name"
            }
          }
        }
      ]
    }
  }
}

PUT my_index/_doc/1
{
  "name": {
    "first":  "Alice",
    "middle": "Mary",
    "last":   "White"
  }
}

{name} and {dynamic_type}

{name}{dynamic_type}占位符在mapping中被替换成字段名和检测到的动态类型。下面的例子将所有字符串字段设置为使用与字段名称相同的analyzer,并对所有非字符串字段禁用doc_values

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "named_analyzers": {
            "match_mapping_type": "string",
            "match": "*",
            "mapping": {
              "type": "text",
              "analyzer": "{name}"
            }
          }
        },
        {
          "no_doc_values": {
            "match_mapping_type":"*",
            "mapping": {
              "type": "{dynamic_type}",
              "doc_values": false
            }
          }
        }
      ]
    }
  }
}

PUT my_index/_doc/1
{
  "english": "Some English text", // The english field is mapped as a string field with the english analyzer.
  "count":   5  // 在禁用doc_values的情况下,count字段被映射为一个长字段。.
}

使用场景

只进行全文检索

如果字符串字段只进行全文搜索,不打算在字符串字段上运行聚合、排序或精确搜索,可以告诉Elasticsearch只把它映射为一个文本字段(这是5.0之前的默认行为)。

PUT my_index
{
 "mappings": {
   "_doc": {
     "dynamic_templates": [
       {
         "strings_as_text": {
           "match_mapping_type": "string",
           "mapping": {
             "type": "text"
           }
         }
       }
     ]
   }
 }
}

不考虑检索评分情况

Norms 是索引时的评分因素。如果你不关心评分,例如,如果你从不按分数对文件进行排序,你可以在索引中禁用这些评分因素的存储,以节省一些空间。

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "strings_as_keywords": {
            "match_mapping_type": "string",
            "mapping": {
              "type": "text",
              "norms": false,
              "fields": {
                "keyword": {
                  "type": "keyword",
                  "ignore_above": 256
                }
              }
            }
          }
        }
      ]
    }
  }
}

keyword字段出现在这个模板中是为了与动态映射的默认规则一致。当然,如果你不需要它们,因为你不需要对这个字段进行精确的搜索或聚合,可以把它删除。

时序数据

在使用Elasticsearch进行时间序列分析时,通常会有许多数字字段,你会经常对这些字段进行汇总,但从不进行过滤。在这种情况下,你可以禁用这些字段的索引,以节省磁盘空间,也可能获得一些索引速度。主要应用是监控类型场景。

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "unindexed_longs": {
            "match_mapping_type": "long",
            "mapping": {
              "type": "long",
              "index": false
            }
          }
        },
        {
          "unindexed_doubles": {
            "match_mapping_type": "double",
            "mapping": {
              "type": "float", // 像默认的动态映射规则一样,双数被映射为浮点数,通常足够精确,但需要一半的磁盘空间。
              "index": false
            }
          }
        }
      ]
    }
  }
}

英文原文

有关【ES实战】索引mapping的动态设置的更多相关文章

  1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  2. ruby-openid:执行发现时未设置@socket - 2

    我在使用omniauth/openid时遇到了一些麻烦。在尝试进行身份验证时,我在日志中发现了这一点:OpenID::FetchingError:Errorfetchinghttps://www.google.com/accounts/o8/.well-known/host-meta?hd=profiles.google.com%2Fmy_username:undefinedmethod`io'fornil:NilClass重要的是undefinedmethodio'fornil:NilClass来自openid/fetchers.rb,在下面的代码片段中:moduleNetclass

  3. ruby-on-rails - 如何使用 instance_variable_set 正确设置实例变量? - 2

    我正在查看instance_variable_set的文档并看到给出的示例代码是这样做的:obj.instance_variable_set(:@instnc_var,"valuefortheinstancevariable")然后允许您在类的任何实例方法中以@instnc_var的形式访问该变量。我想知道为什么在@instnc_var之前需要一个冒号:。冒号有什么作用? 最佳答案 我的第一直觉是告诉你不要使用instance_variable_set除非你真的知道你用它做什么。它本质上是一种元编程工具或绕过实例变量可见性的黑客攻击

  4. ruby-on-rails - date_field_tag,如何设置默认日期? [ rails 上的 ruby ] - 2

    我想设置一个默认日期,例如实际日期,我该如何设置?还有如何在组合框中设置默认值顺便问一下,date_field_tag和date_field之间有什么区别? 最佳答案 试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag,如何设置默认日期?[rails上的ruby],我们在StackOverflow上找到一个类似的问

  5. ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2

    我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器,但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型,并且只返回text/plain,如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain

  6. ruby-on-rails - 有没有办法为 CarrierWave/Fog 设置上传进度指示器? - 2

    我在Rails应用程序中使用CarrierWave/Fog将视频上传到AmazonS3。有没有办法判断上传的进度,让我可以显示上传进度如何? 最佳答案 CarrierWave和Fog本身没有这种功能;你需要一个前端uploader来显示进度。当我不得不解决这个问题时,我使用了jQueryfileupload因为我的堆栈中已经有jQuery。甚至还有apostonCarrierWaveintegration因此您只需按照那里的说明操作即可获得适用于您的应用的进度条。 关于ruby-on-r

  7. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  8. 微信小程序开发入门与实战(Behaviors使用) - 2

    @作者:SYFStrive @博客首页:HomePage📜:微信小程序📌:个人社区(欢迎大佬们加入)👉:社区链接🔗📌:觉得文章不错可以点点关注👉:专栏连接🔗💃:感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序(🔥)目录自定义组件-behaviors    1、什么是behaviors    2、behaviors的工作方式    3、创建behavior    4、导入并使用behavior    5、behavior中所有可用的节点    6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors    1、什么是behaviorsbehaviors是小程序中,用于实现

  9. ES基础入门 - 2

    ES一、简介1、ElasticStackES技术栈:ElasticSearch:存数据+搜索;QL;Kibana:Web可视化平台,分析。LogStash:日志收集,Log4j:产生日志;log.info(xxx)。。。。使用场景:metrics:指标监控…2、基本概念Index(索引)动词:保存(插入)名词:类似MySQL数据库,给数据Type(类型)已废弃,以前类似MySQL的表现在用索引对数据分类Document(文档)真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear

  10. objective-c - 在设置 Cocoa Pods 和安装 Ruby 更新时出错 - 2

    我正在尝试为我的iOS应用程序设置cocoapods但是当我执行命令时:sudogemupdate--system我收到错误消息:当前已安装最新版本。中止。当我进入cocoapods的下一步时:sudogeminstallcocoapods我在MacOS10.8.5上遇到错误:ERROR:Errorinstallingcocoapods:cocoapods-trunkrequiresRubyversion>=2.0.0.我在MacOS10.9.4上尝试了同样的操作,但出现错误:ERROR:Couldnotfindavalidgem'cocoapods'(>=0),hereiswhy:U

随机推荐