elasticsearch做如何进行日志采集

秃头禅师 2023-04-18 原文

elasticsearch做如何进行日志采集

首先elasticsearch应理解为日志的存储介质,由于其查询的便利,尤其结合kibana进行可视化查询,很多项目采用elasticsearch来存储收集的日志,至于如何进行日志采集,下面列举了项目中常用的一些采集手段

ElasticsearchAppender

lockback日志组件,集成 ElasticsearchAppender 插件的方式采集,具体操作如下
1,引入pom依赖

    <dependency>
        <groupId>com.internetitem</groupId>
        <artifactId>logback-elasticsearch-appender</artifactId>
        <version>1.6</version>
    </dependency>

2, lockback.xml中新增appender

  <appender name="ELASTIC" class="com.internetitem.logback.elasticsearch.ElasticsearchAppender">
    <url>http://elastic:elastic@127.0.0.1:9200/_bulk</url>
    <index>log-%d{yyyy-MM}</index> 
    <connectTimeout>30000</connectTimeout> 
    <errorsToStderr>false</errorsToStderr> 
    <includeCallerData>false</includeCallerData> 
    <logsToStderr>false</logsToStderr> 
    <maxQueueSize>104857600</maxQueueSize> 
    <maxRetries>3</maxRetries> 
    <readTimeout>30000</readTimeout> 
    <sleepTime>250</sleepTime> 
    <rawJsonMessage>false</rawJsonMessage> 
    <includeMdc>false</includeMdc> 
    <maxMessageSize>-1</maxMessageSize> 
    <authentication class="com.internetitem.logback.elasticsearch.config.BasicAuthentication"/> <!-- optional -->
    <properties>
        <property>
            <name>host</name>
            <value>${HOSTNAME}</value>
            <allowEmpty>false</allowEmpty>
        </property>
        <property>
            <name>ip</name>
            <value>%ip</value>
        </property>
        <property>
            <name>@timestamp</name>
            <value>%d{yyyy-MM-dd}</value>
        </property>
        <property>
            <name>level</name>
            <value>%level</value>
        </property>
        <property>
            <name>thread</name>
            <value>%thread</value>
        </property>
        <property>
            <name>stacktrace</name>
            <value>%ex</value>
        </property>
        <property>
            <name>logger</name>
            <value>%logger</value>
        </property>
        <property>
            <name>env</name>
            <value>${active}</value>
        </property>
    </properties>
    <headers>
        <header>
            <name>Content-Type</name>
            <value>application/json</value>
        </header>
    </headers>
</appender>

ps: 此配置包含两部分,一部分为连接信息,主要是账号,密码,超时时间等连接配置,另一部分为日志内容信息,比如主机名,ip,日志level等,这些信息最终会自动同步到es中,建议同步之前先建立好索引(es的特性是可以自动建立索引,可能有些字段类型,分词器未必满足需求),或者使用索引模板,事先定义好mapping

ELK

由于 ElasticsearchAppender 是一个非常轻量的插件,功能很单一,只能简单的进行日志采集,对于一些复杂性的需求,比如对传输过来的日志进行清洗,过滤等需求就显得无能为力,而且与项目的集成度过高,如果项目吞吐量很大,比如每秒上万条日志,会造成日志积压(很好理解,单机总会有瓶颈),严重点会影响应用本身的吞吐量,所以稍微大点的项目一般会采用elk
所谓elk 实际上是 elasticsearch+logstash+kibana, elasticsearch和kibana上面都有提过,是用来存储和可视化查询的,最重要的采集工作是logstash去做的,本文只讲实战,理论东西如有兴趣,朋友们可以留言后续会更新
logstash的标准格式为

input {     从哪个地方读取，输入数据。
   
}

filter {    依据grok模式对数据进行分析结构化
   
}

output {    将分析好的数据输出存储到哪些地方
  
}

1,新增一个配置conf

input {
   file {     读取日志文件
   path => ["/tmp/log"]   日志文件路径
   type => "web log"    文件类型,这个是日志类型,后面filter 可根据类型进行区分
   start_position => "beginning"    从最开始取数据
   }
}

filter {
    grok {
    match => { "message" => "%{IP:clientip} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
 }
}

output {
    # 一般通过模板的方式,达到自动创建,比如每天创建新的索引
    elasticsearch {
        hosts => ["http://localhost:9200""]
        user => "test"
        password => "test"
        index => "log-%{+YYYY.MM.dd}"
        template_overwrite => "false"
    }

ELK + filebeat + kafka

1,上面的elk logstash是直接部署在应用服务器的,对于中小型项目足够,对于一些大型项目,依然会有些不妥,还是上面说的和项目的耦合度太大,理论上还是会出现单点瓶颈,而且logstash使用Java语言写的,大家都知道jvm是很吃资源的,所以大型项目一般会在elk的基础上,采集端使用 filebeat 进行采集,采集到的日志传输到kafka,logstash对接kafka的topic,后续的操作和之前一样.
1, 配置filebeat

filebeat.inputs:
- type: log
  enabled: true
  encoding: utf-8
  paths:
  - /tmp/log
  fields_under_root: true

output.kafka:
  enabled: true
  hosts: ["127.0.0.1:9092"]
  topic: "log"
  username: "test"
  password: "test"

2,配置logstash

input就变成了kafka
input {
 kafka{
        bootstrap_servers => "127.0.0.1:9092"
        client_id => "consumer_id"
        group_id => "consumer_group"
        auto_offset_reset => "latest" 
        consumer_threads => 1
        decorate_events => true 
        topics => ["log"]
      }
}

filter {
    grok {
    match => { "message" => "%{IP:clientip} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
 }
}

output {
    # 一般通过模板的方式,达到自动创建,比如每天创建索引
    elasticsearch {
        hosts => ["http://localhost:9200""]
        user => "test"
        password => "test"
        index => "log-%{+YYYY.MM.dd}"
        template_overwrite => "false"
    }

总结

以上的几种方式大家可以简单理解为,项目从小到大的过程,如果只是一个简单的小项目,比如一个用户量不大的管理系统,或者是资源申请比较紧张,那就不妨使用第一种方案,如果是中小型的项目,比如两三个集群节点,可以考虑使用第二种,对于大型项目,或者开发阶段没法准确预估用户量的情况下,用第三种方案准没错

elasticsearch 做 gt lt 34 搜索引擎大数据

有关elasticsearch做如何进行日志采集的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息？最佳答案在Rails3中，update_all不返回任何有意义的信息，除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2
在控制台中反复尝试之后，我想到了这种方法，可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法，但它确实有效。有没有人有更好的建议，或者这是一个很好的方法？#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
ruby - 如何每月在 Heroku 运行一次 Scheduler 插件？ - 2
在选择我想要运行操作的频率时，唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。最佳答案这不是一个优雅的解决方案，但您可以安排它每天运行，并在实际开始工作之前检查日期是否为当月的第一天。关于ruby-如何每月在Heroku运行一次Scheduler插件？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/8692687/

elasticsearch做如何进行日志采集

elasticsearch做如何进行日志采集

ElasticsearchAppender

ELK

ELK + filebeat + kafka

总结

有关elasticsearch做如何进行日志采集的更多相关文章

随机推荐