日志存储 elasticsearch vs clickhouse

lixia0417mul2 2023-04-11 原文

elasticsearch优点：

a. 查询速度快，es是基于lucene的倒排索引实现，数据分词后预先已经排好序了，所以查询速度很快,qps较高，并且cpu消耗不大
b.es的索引字段比较灵活，可以随意的增加新字段到es中

elasticsearch缺点：

a.数据写入时要对所有的字段进行分词操作，然后在对这些分词构建倒排索引，事实上，并不是所有的分词都会在搜索中用到，这里类似于数据预聚合的概念，有些分词是没必要的
b.es的倒排索引文件，正排文件，docvalue文件等都很大，压缩效果很小，这就造成了数据写入到IndexBuffer内存后flush到磁盘时不仅速度慢，而且磁盘占用很大，而且我们知道es搜索时是会把segment缓存到内存中的，segment文件很大也就意味着内存占用极大，不管是读取磁盘还是内存消耗都很大，硬件成本高
c.es的分片数的调整代价很大，需要新建新的索引才能做到调整分片的目的，这对于日志来说很不合理，因为你很难预先知道日志量的大小，所以分片数很难精确估计，此外，es需要很多的脚本做一些比如关闭旧索引，创建新索引等工作
d.es的查询语句有自己的一套规则，聚合查询语句尤其复杂，学习成本较高
e.es是Master-Slaver的架构，当某个分片挂掉时，Master需要重新确认并选择主分片，在这段时间内，该分片不能进行写入操作

clickhouse优点:

a. clickhouse是列式存储，有分区，一级稀疏索引，二级跳数索引，列式压缩存储的优势，这使得clickhouse的数据文件很小，压缩比一般都能达到十几倍的压缩率，所以clickhouse不管是磁盘io还是内存消耗都不高，而且因为文件很小，所以即使是磁盘io，速度也很快,clickhouse的数据定位流程如下：先通过分区建确定分区，然后通过主键确定数据块，定位到读取数据块，进行解压缩并搜索
b.clickhouse充分利用了SIMD单指令多数据指令，多线程，cpu L1 L2 L3等硬件层面的优化手段，加快查询速度
c.clickhouse的所有数据都可以放到一张mergetree的表中，通过使用时间作为分区键，域名+时间戳作为主键搜索条件即可，这样几千G的文件都可以放到一个表中，不需要考虑分片等操作，管理非常方便
d.clickhouse是基于sql语句的，很容易写出各种聚合操作的sql，查询方便，学习成本低
e.clickhouse是Mul-Master的架构，无论哪个副本挂掉了，另一个副本马上可以接管写入和查询操作，中途没有任何延迟.

clickhouse缺点

a. clickhouse的CPU消耗很大，因为clickhouse大量使用SIMD和多线程等手段，所以数据查询时cpu消耗很大，而且总体上来说查询速度相对es来说，查询响应的速度比es速度慢
b.clickhouse的每次insert操作，不管是批量还是只是一条数据，都会创建一个分区part的目录，如果每次都是写入小批量的数据的话，就会导致创建大量的分区part目录，clickhouse会一直忙于合并分区part，这对于clickhouse来说简直就是灾难，所以写入数据的时候，最好先按分区批量提交的方式，预先按照分区归类数据，然后一次insert写入，这样这一批的数据就只会创建一个分区part目录，这样目录文件数就会少的多，而且clickhouse也不用一直合并大量的分区目录文件了

clickhouse日志表可以这样创建:

create table ck_log(ts timestamp, domain string, loglevel string,msg string, INDEX msg_index msg token_bf_v1(10240,2,0) granularity 2) engine = ReplicateMergeTree partition by toDate(ts) order by domain,ts
以天的时间作为分区键，域名+时间戳作为一级索引查找创建日志表，单表就可以搞定几千g的日志文件了,并且对字符串列创建了二级索引（tokenbf_v1会通过标点符号对字符串进行分词），这样就通过索引直接支持msg like ‘%test clickhouse%’的模糊查询

有关日志存储 elasticsearch vs clickhouse的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Rack:如何将 URL 存储为变量？ - 2
我正在编写一个简单的静态Rack应用程序。查看下面的config.ru代码:useRack::Static,:urls=>["/elements","/img","/pages","/users","/css","/js"],:root=>"archive"map'/'dorunProc.new{|env|[200,{'Content-Type'=>'text/html','Cache-Control'=>'public,max-age=6400'},File.open('archive/splash.html',File::RDONLY)]}endmap'/pages/search.
ruby-on-rails - 为什么在 Rails 5.1.1 中删除了 session 存储初始化程序 - 2
我去了这个website查看Rails5.0.0和Rails5.1.1之间的区别为什么5.1.1不再包含:config/initializers/session_store.rb？谢谢最佳答案这是删除它的提交:Setupdefaultsessionstoreinternally,nolongerthroughanapplicationinitializer总而言之，新应用没有该初始化器，session存储默认设置为cookie存储。即与在该初始值设定项的生成版本中指定的值相同。关于
ruby-on-rails - 尝试设置 Amazon 的 S3 存储桶 : 403 Forbidden error & setting permissions - 2
我正在关注Hartl的railstutorial.org并已到达11.4.4:Imageuploadinproduction.我做了什么:注册亚马逊网络服务在AmazonIdentityandAccessManagement中，我创建了一个用户。用户创建成功。在AmazonS3中，我创建了一个新存储桶。设置新存储桶的权限:权限:本教程指示“授予上一步创建的用户读写权限”。但是，在存储桶的“权限”下，未提及新用户名。我只能在每个人、经过身份验证的用户、日志传送、我和亚马逊似乎根据我的名字+数字创建的用户名之间进行选择。我已经通过选择经过身份验证的用户并选中了上传/删除和查看权限的框(而不
ruby - 如何打印出 Mechanized 存储的 cookie？ - 2
我正在使用mechanize登录网站，然后检索页面。我遇到了一些问题，我怀疑这是由于cookie中的某些值造成的。当Mechanize登录网站时，我假设它存储了cookie。如何通过Mechanize打印出存储在cookie中的所有数据？最佳答案代理有一个cookie方法。agent=Mechanize.newpage=agent.get("http://www.google.com/")agent.cookiesagent.cookies.to_scookie返回一个Mechanize::Cookiesobject
ruby-on-rails - 闪存消息存储在哪里？ - 2
我以为它们存储在cookie中-但不，检查cookie没有任何结果。session也不存储它们。那么，我在哪里可以找到它们？我需要这个来直接设置它们(而不是通过flashhash)。最佳答案它们存储在inyoursessionstore.自rails2.0以来的默认设置是cookie存储，但请检查config/initializers/session_store.rb以检查您是否使用默认设置以外的东西。关于ruby-on-rails-闪存消息存储在哪里？，我们在StackOverf
ruby - Sinatra 中的全局救援和日志记录异常 - 2
如何在出现异常时指定全局救援，如果您将Sinatra用于API或应用程序，您将如何处理日志记录？最佳答案 404可以在not_found方法的帮助下处理，例如:not_founddo'Sitedoesnotexist.'end500s可以通过调用带有block的错误方法来处理，例如:errordo"Applicationerror.Plstrylater."end错误的详细信息可以通过request.env中的sinatra.error访问，如下所示:errordo'Anerroroccured:'+request.env['si
ruby-on-rails - 使用 Ruby 标准 Logger 每天只创建一个日志 - 2
我正在使用ruby标准记录器，我想要每天轮换一次，所以在我的代码中我有:Logger.new("#{$ROOT_PATH}/log/errors.log",'daily')它运行完美，但它创建了两个文件errors.log.20130217和errors.log.20130217.1。如何强制它每天只创建一个文件？最佳答案您的代码对于长时间运行的应用程序是正确的。发生的事情是您在给定的一天多次运行代码。第一次运行时，Ruby会创建一个日志文件“errors.log”。当日期改变时，Ruby将文件重命名为“errors.log
ruby - Cucumber/Savon 省略或删除日志输出 - 2
在运行Cucumber测试时，我得到(除了测试结果)大量调试/日志相关的输出形式:D,[2013-03-06T12:21:38.911829#49031]DEBUG--:SOAPrequest:D,[2013-03-06T12:21:38.911919#49031]DEBUG--:Pragma:no-cache,SOAPAction:"",Content-Type:text/xml;charset=UTF-8,Content-Length:1592W,[2013-03-06T12:21:38.912360#49031]WARN--:HTTPIexecutesHTTPPOSTusingt
ruby-on-rails - faraday如何设置日志级别 - 2
我最近将我的http客户端切换到faraday，一切都按预期工作。我有以下代码来创建连接:@connection=Faraday.new(:url=>base_url)do|faraday|faraday.useCustim::Middlewarefaraday.request:url_encoded#form-encodePOSTparamsfaraday.request:jsonfaraday.response:json,:content_type=>/\bjson$/faraday.response:loggerfaraday.adapterFaraday.default_ada