草庐IT

优化大数据量查询方案——SpringBoot(Cloud)整合ES

冷月寒雪 2025-05-20 原文

一、Elasticsearch简介

实际业务场景中,多端的查询功能都有很大的优化空间。常见的处理方式有:建索引、建物化视图简化查询逻辑、DB层之上建立缓存、分页…然而随着业务数据量的不断增多,总有那么一张表或一个业务,是无法通过常规的处理方式来缩短查询时间的。在查询功能优化上,作为开发人员应该站在公司的角度,本着优化客户体验的目的去寻找解决方案。本人有幸做过Tomcat整合solr,今天一起研究一下当前比较火热的Elasticsearch搜索引擎。
Elasticsearch 是一个非常强大的搜索引擎。它目前被广泛地使用于各个 IT 公司。Elasticsearch 是由 Elastic 公司创建。它的代码位于 GitHub - elastic/elasticsearch: Free and Open, Distributed, RESTful Search Engine。目前,Elasticsearch 是一个免费及开放(free and open)的项目。同时,Elastic 公司也拥有 Logstash 及 Kibana 开源项目。这个三个项目组合在一起,就形成了 ELK 软件栈。他们三个共同形成了一个强大的生态圈。简单地说,Logstash 负责数据的采集,处理(丰富数据,数据转换等),Kibana 负责数据展示,分析,管理,监督及应用。Elasticsearch 处于最核心的位置,它可以帮我们对数据进行快速地搜索及分析。

二、Elasticsearch使用

1.1下载

下载的方式有很多中,下面介绍我使用的方式。(MacOS系统)

wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-darwin-x86_64.tar.gz
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-darwin-x86_64.tar.gz.sha512
shasum -a 512 -c elasticsearch-7.3.0-darwin-x86_64.tar.gz.sha512 
tar -xzf elasticsearch-7.3.0-darwin-x86_64.tar.gz
cd elasticsearch-7.3.0/

1)weget命令下载,其中第三步是对下载内容进行完整性校验,当出现OK时,说明下载的内容共是完整无误的。

2)brew命令下载

brew install elasticsearch

我的电脑是macOS12.0系统,下载时提示我的Xcode版本过低不兼容。网上有很多使用brew命令下载成功的,可以进行参考。

1.2启动Elasticsearch

完成下载后,在bin目录下进行启动

./bin/elasticsearch

完成启动后,控制台显示如下

而后进行页面测试访问,postman也可以, curl也行,默认启动端口9200。

当出现如上图显示,表示ES第一步启动成功。
同时,为了方便查看ES中的相关数据,可以安装一下elasticsearch-head 可视化插件,网址如下
可视化插件下载
下载完成后打开代码,是一个前端项目

控制台启动

npm install
npm run start


启动成功如上图,打开浏览器访问9100

做到这步感觉对了又好像有点问题,打开控制台查看


发现全部是CORS错误。到下载的ESconfig文件夹下,修改文件elasticsearch.yml ,添加下面两行配置。

http.cors.enabled: true
http.cors.allow-origin: "*"

若出现如下图显示的内容,标识启动成功。如果未有下图这样显示,留言交流。

1.3Kibana

除了上面下载的可视化插件。官方提供的是Kibana。Kibana 是一个开源分析和可视化平台,旨在与 Elasticsearch 协同工作。 你使用 Kibana 搜索,查看和与存储在 Elasticsearch 索引中的数据进行交互。 你可以轻松执行高级数据分析,并在各种图表,表格和地图中可视化你的数据。

Kibana 使你可以轻松理解大量数据。 其简单的基于浏览器的界面使你能够快速创建和共享动态仪表板,实时显示 Elasticsearch 查询的更改。

1.3.1安装

官方网址
不支持运行 Kibana 和 Elasticsearch 的不同主要版本(例如 Kibana 5.x 和 Elasticsearch 2.x),也不支持比 Elasticsearch 版本更新的 Kibana 次要版本(例如 Kibana 5.1 和 Elasticsearch 5.0)。

curl -O https://artifacts.elastic.co/downloads/kibana/kibana-7.3.0-darwin-x86_64.tar.gz
shasum -a 512 kibana-7.3.0-darwin-x86_64.tar.gz 
tar -xzf kibana-7.3.0-darwin-x86_64.tar.gz
cd kibana-7.3.0-darwin-x86_64/

同时也可以使用brew命令下载

brew install kibana

启动命令

./bin/kibana


当出现上图所示以后,访问端口,默认5601

我们也可以在浏览器中输入如下的地址 http://localhost:5601/status 以查看 Kibana 的状态:

1.3.1汉化Kibana

进入Kibana的config文件下,修改yml文件

i18n.locale: "zh-CN"

完成后 重新启动Kibana,访问地址如下:


成功汉化。

1.4创建索引及文档

有了上面的实例化工具,下面在页面上创建一个索引(index),并插入一个文档(document)。在日常的DB层,我们通常需要有专用的语句来生产相应的数据库,表格,然后才可以让我们输入相应的记录,但是针对 Elasticsearch 来说,这个是不必须的。ES是resultful请求完成操作。我们在左边的窗口中输入如下:

PUT estest/_doc/1
{
  "user": "zym",
  "uid": 1,
  "city": "Nanjing",
  "province": "Nanjing",
  "country": "China"
}

请求参数解析:PUT请求。estest为索引名称,_doc 为索引类型。json为存储的内容。返回sussessful:1时候,表示成功。其实,从创建就可以看出来一个很明显的问题,我们的字段定义,如user,uid,city等我们并没有像常规数据库中把每个目标值定义数据类型,数据长度。为了提高入门时的易用性,Elasticsearch 可以自动动态地为你创建索 mapping。当我们建立一个索引的第一个文档时,如果你没有创建它的 schema,那么 Elasticsearch 会根据所输入字段的数据进行猜测它的数据类型,比如上面的 user 被被认为是 text 类型,而 uid 将被猜测为整数类型。这种方式我们称之为 schema on write,也即当我们写入第一个文档时,Elasticsearch 会自动帮我们创建相应的 schema。
写入文档时,如ID已存在,则更新文档内容,如不存在,创建文档。

根据索引名称_mapping请求,可以得到在ES中各字段被定义的类型。
关于控制台的resultful请求有很多,在这里不做过多诠释,创建(Create),读取(Read),修改(Update),删除文档(Delete)(CRUD)全部包含。具体的请求及参数可以查看官方文档。

至此,完成ES的配置、安装、启动。下面进行关键的一步,整合SpringBoot。

1.4整合SpringBoot

Sringboot整合ES的方法有很多,我也查询了相关资料,分别是TransportClient、RestClient、SpringData-Es、Elasticsearch-SQL。官方推荐的是RestClient。
相关依赖:

1.4.1引入依赖

  <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
  </dependency>

1.4.2配置bean

 @Bean
    public RestHighLevelClient restHighLevelClient() {
        // 如果有多个从节点可以持续在内部new多个HttpHost,参数1是IP,参数2是端口,参数3是通信协议
        return new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));
    }

该配置指向启动的ES服务。

1.4.2测试

做一个添加测试,代码如下

 	@Autowired
    private RestHighLevelClient restHighLevelClient;
   		// IndexRequest
        IndexRequest indexRequest = new IndexRequest("users");
        User user = new User();
        user.setName("张一鸣");
        user.setAge(20);
        String source = JSONObject.toJSONString(user);
        indexRequest.id("1").source(source, XContentType.JSON);
        // 操作ES
        IndexResponse indexResponse = restHighLevelClient.index(indexRequest, RequestOptions.DEFAULT);

debug查看,发现执行完成。

从Kibana控制台查看资源,像索引为users里 添加一条用户信息。通过控制台_source查询资源可以看到,数据已成功放入ES。

修改操作

	// UpdateRequest
    UpdateRequest updateRequest = new UpdateRequest("users", "1");
    User user = new User();
    user.setName("南京擎天");
    user.setAge(20);
    updateRequest.doc(JSON.toJSONString(user), XContentType.JSON);
    // 操作ES
    restHighLevelClient.update(updateRequest, RequestOptions.DEFAULT);

修改操作

// DeleteRequest
DeleteRequest deleteRequest = new DeleteRequest("users", "1");
// 操作ES
DeleteResponse deleteResponse = restHighLevelClient.delete(deleteRequest, RequestOptions.DEFAULT);

查询操作

@Test
public void search() throws IOException {
    // SearchRequest
    SearchRequest searchRequest = new SearchRequest();
    searchRequest.indices("users");
	// 构建检索条件
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    // 分页采用简单的from + size分页,适用数据量小的,了解更多分页方式可自行查阅资料
    //        searchSourceBuilder.from((page - 1) * rows);
    //        searchSourceBuilder.size(rows);
    // 查询所有
    //        QueryBuilder queryBuilder = QueryBuilders.matchAllQuery();
    // 根据字段匹配
    QueryBuilder queryBuilder = QueryBuilders.matchQuery("userName","李四");
    searchSourceBuilder.query(queryBuilder);
    
    searchRequest.source(searchSourceBuilder);
    // 查询ES
    SearchResponse searchResponse = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
    System.out.println("查询结果:" + searchResponse.toString());
    SearchHits hits = searchResponse.getHits();
    // 遍历封装列表对象
    List<User> userList = new ArrayList<>();
    SearchHit[] searchHits = hits.getHits();
    for (SearchHit searchHit : searchHits) {
        userList.add(JSON.parseObject(searchHit.getSourceAsString(), User.class));
    }
    System.out.println(userList);
}

以上以以简单的样例实现了springboot整合ES。使用起来很方便,对20W+的数据进行了测试,结果是毫秒级的响应。当然在实际项目应用当中,要充分根据项目的业务、框架进行拓展,充分发挥搜索引擎的优势,不断的提高客户体验,这样的产品才会得到客户的青睐。

注意问题

ES是个近实时查询引擎,和solr一样,所有的数据是在建立索引之上进行。在项目中对某一条数据的CUD一定要和数据库同步,对ES中的数据就行了相关调整后,也要异步对DB层的数据进行调整。确保数据的一致性。由于近段时间项目工作时间紧张,很多的细节操作及底层的实现包括结合项目的整体设计思路没有一一说明,需要用到的朋友可以对此篇文章做一个参考,有疑问欢迎留言沟通。

/* Powerd by zym */
0 error(s)0 warning(s)

有关优化大数据量查询方案——SpringBoot(Cloud)整合ES的更多相关文章

  1. ruby - ECONNRESET (Whois::ConnectionError) - 尝试在 Ruby 中查询 Whois 时出错 - 2

    我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表,并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码),并打印以下消息。鉴于该程序非常简单,我已经没有什么想法了-有什么建议吗?/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  4. ruby-on-rails - 在 Rails 和 ActiveRecord 中查询时忽略某些字段 - 2

    我知道我可以指定某些字段来使用pluck查询数据库。ids=Item.where('due_at但是我想知道,是否有一种方法可以指定我想避免从数据库查询的某些字段。某种反拔?posts=Post.where(published:true).do_not_lookup(:enormous_field) 最佳答案 Model#attribute_names应该返回列/属性数组。您可以排除其中一些并传递给pluck或select方法。像这样:posts=Post.where(published:true).select(Post.attr

  5. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  6. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  7. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  8. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  9. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  10. ruby-on-rails - 创建 ruby​​ 数据库时惰性符号绑定(bind)失败 - 2

    我正在尝试在Rails上安装ruby​​,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf

随机推荐