草庐IT

(一)什么是ElasticSearch

真香号 2023-11-14 原文


目录

市面上关于ElastichSearch 常见的关键词 分布式高性能,高可用,可伸缩的搜索和分析系统

一、 什么是搜索?

百度:国内的的网民搜索信息大部分方式都是通过百度检索。
互联网的搜索: 电商APP,照片软件,新闻网站,售卖汽车软件
IT系统的搜索: OA软件,办公自动化软件,会议管理,日程管理,项目管理

搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息


二、如果用数据库做搜索会怎么样?

做软件开发的话,或者对IT、计算机有一定的了解的话,都知道,数据都是存储在数据库里面的,比如说电商网站的商品信息,招聘网站的职位信息,新闻网站的新闻信息,等等吧。所以说,很自然的一点,如果说从技术的角度去考虑,如何实现如说,电商网站内部的搜索功能的话,就可以考虑,去使用数据库去进行搜索。

如下图:电商系统的商品搜索
1、搜索含有牙膏的商品
2、在数据库中商品名称字段中存储有关键字

数据库来处理的话,不考虑数据库的全文索引,假如商品有 1000万 个,那么基本上就要查找 1000 万次,且每次都需要加载商品的名称字段的整段字符串,并挨个寻找。

1、如果,每条记录的字段的文本,数据量很长很大,比如ProductDesc 商品描述的字段很长,内容很多,长达数万个字符,这个时候,每次查询都会对ProductDesc 进行扫描,难以判断,是否包含搜索条件关键词。

2、Mysql 查询无法将查询词拆分成多个词语,无法尽可能去搜索更多的符合你的期望的结果。例如 :比如输入“生化机”,就搜索不出来“生化危机”

3、大量的查询使得Mysql 的负载压力在短时间内上升,甚至造成宕机。


三、什么是全文检索和Lucene ?

1、全文检索是利用 倒排索引来实现。
2、lucenne 是一个Java Jar包。

lucenne 里面含了封装好的各种建立倒排索引,以及进行搜索的代码,包括各种算法。我们就用 java 开发的时候,引入 lucene jar,然后基于 lucene 的 api 进行去进行开发就可以了。用 lucene,我们就可以去将已有的数据建立索引,lucene 会在本地磁盘上面,给我们组织索引的数据结构。另外的话,我们也可以用 lucene 提供的一些功能和 api 来针对磁盘上的数据进行搜索。


四、全文检索和倒排索引的简述

1、有如下词条


假设场景: 搜索关键词 “生化机” 本意是“生化危机”,打错字,但是期望需要搜索结果展示 Id=1,2,3,4的4条记录结果。
1、有4条数据
2、将每条数据进行词条拆分。例如:“生化危机电影” 拆成:生化、危机、电影 三个关键词(拆分结果与算法策略有关)
3、每个关键词将对应包含此关键词的数据ID
4、搜索时直接匹配这些关键词,就能拿到包含关键词的数据。

上述过程就是全文检索
词条拆分和词条对应的ID是倒排索引的基本原理。


五、Elasticsearch 是什么

5.1 单台机 容量瓶颈


1、上图是部署在单台机器上,封装了lucene搜索功能,磁盘容量为500g的应用
2、电商前端网站发起搜索
3、随着时间的变化,磁盘中供用户搜索的数据量原来大,即将达到磁盘500g的容量瓶颈,怎么办?

5.2 水平扩容多台机器 弊端

有的同学可能想到多台机器水平扩容,再加一个500g

1、当数据查询到lucene1,而数据在lucene2,多台机器之间的查询请求转发,机器通信非常麻烦
2、每个机器存储部分数据,如果机器宕机,磁盘损坏,数据就永久丢失了,对于一个网站保证数据的完整性是非常重要的。这种方案不可取。

5.3 elastichserch


1、自动维护数据的分布到多个节点的索引建立、检索请求分布到多个节点的执行
2、多个node 节点,主副本存储数据,自动维护数据的冗余副本,保证了一些机器宕机,不丢失任何数
3、内置封装了许多高级特性API 例如复杂搜索、聚合函数,基于地理位置的搜索 ..

有关(一)什么是ElasticSearch的更多相关文章

  1. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  2. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  3. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996?但是 4.2%2==0.2 - 2

    为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返

  6. ruby - ruby 中的 TOPLEVEL_BINDING 是什么? - 2

    它不等于主线程的binding,这个toplevel作用域是什么?此作用域与主线程中的binding有何不同?>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案 事实是,TOPLEVEL_BINDING始终引用Binding的预定义全局实例,而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层,它们都包含相同的绑定(bind),但它们不是同一个对象,您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput

  7. ruby - Infinity 和 NaN 的类型是什么? - 2

    我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN?它们是对象、关键字还是其他东西? 最佳答案 您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串

  8. ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象,为什么它会起作用? - 2

    如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象

  9. ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串? - 2

    关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?

  10. ruby - 当使用::指定模块时,为什么 Ruby 不在更高范围内查找类? - 2

    我刚刚被困在这个问题上一段时间了。以这个基地为例:moduleTopclassTestendmoduleFooendend稍后,我可以通过这样做在Foo中定义扩展Test的类:moduleTopmoduleFooclassSomeTest但是,如果我尝试通过使用::指定模块来最小化缩进:moduleTop::FooclassFailure这失败了:NameError:uninitializedconstantTop::Foo::Test这是一个错误,还是仅仅是Ruby解析变量名的方式的逻辑结果? 最佳答案 Isthisabug,or

随机推荐