我们开始通过向Kafka主题发布消息来整合应用程序的事件日志数据。虽然我们可以直接从应用程序写入Kafka,但我们选择将其视为一般问题并使用Flume代理。这提供了一些灵active:如果我们想从服务器捕获其他内容,我们可以拖尾不同的来源并发布到不同的Kafka主题。我们创建了一个Flume代理配置文件来跟踪日志并发布到Kafka主题:tier1.sources=source1tier1.channels=channel1tier1.sinks=sink1tier1.sources.source1.type=exectier1.sources.source1.command=tail-
我已经手动安装了Flume和Hadoop(我的意思是,不是CDH),我正在尝试运行twitterexample来自Cloudera。在apache-flume-1.5.0-SNAPSHOT-bin目录下,我使用以下命令启动代理:bin/flume-ngagent-cconf-fconf/twitter.conf-Dflume.root.logger=DEBUG,console-nTwitterAgent我的conf/twitter.conf文件使用记录器作为接收器。conf/flume-env.sh将包含twitter源定义的flume-sources-1.0-SNAPSHOT.jar
是否可以在Flume代理上指定压缩选项,以便数据以压缩格式传输到收集器?我知道在收集器级别有压缩选项,但如果能够从代理传输压缩数据也将非常有用。谢谢! 最佳答案 Flume具有您可以使用的gzip和gunzip接收器装饰器。将gzip装饰器放在代理接收器上,将gunzip装饰器放在收集器接收器上,然后在代理和收集器之间传输压缩数据应该就可以了。 关于hadoop-Flume代理-我可以指定像gzip或bz2这样的压缩吗?,我们在StackOverflow上找到一个类似的问题:
我正在尝试将Twitter提要流式传输到hdfs,然后使用配置单元。但是第一部分,流数据和加载到hdfs不工作,并给出空指针异常。这是我试过的。1.下载apache-flume-1.4.0-bin.tar。提取它。将所有内容复制到/usr/lib/flume/。在/usr/lib/中,我将所有者更改为水槽目录的用户。当我在/usr/lib/flume/中执行ls命令时,它显示binCHANGELOGconfDEVNOTESdocslibLICENSElogsNOTICEREADMERELEASE-NOTEStools2.移动到conf/目录。我将文件flume-env.sh.templ
我关注了link用于设置TwitterSource和HDFS接收器。用于启动代理的命令:bin/flume-ngagent-nTwitterAgent-cconf-fconf/flume-conf.properties-Dflume.root.logger=DEBUG,console我成功地做到了这一点,但现在有一个问题。在停止水槽代理之前不会写入输出。一旦我杀死我的水槽代理,它就会被写入HDFS。这里有两个问题:1)如何停止flumeagent-除了CTRL+C之外还有什么办法吗。2)我可以让flume-agent随时写入HDFS,而不必杀死代理吗。注意:终止进程后,写入的文件扩展名
我有一堆压缩成*gz格式的二进制文件。这些是在远程节点上生成的,必须传输到位于数据中心服务器之一的HDFS。我正在探索使用Flume发送文件的选项;我探索了使用假脱机目录配置执行此操作的选项,但显然这仅在文件目录位于本地同一HDFS节点上时才有效。有什么解决这个问题的建议吗? 最佳答案 你为什么不运行两个不同的Flume代理,一个在远程机器上,一个在你的日期节点上。远程机器上的代理可以读取假脱机目录并将其发送到avrosink。并且datanode上的代理可以读取avro源并将数据转储到HDFS。
我已经构建了一个在IIS服务器上发布的apiweb应用程序,我正在尝试配置ApacheFlume以监听该webapi并将http请求的响应保存在HDFS中,这是我需要的post方法听:[HttpPost]publicIEnumerableobtenerValores(argumentsarg){Randomrdm=newRandom();intano=arg.ano;intrdmInt;decimalrdmDecimal;intanoActual=DateTime.Now.Year;intmesActual=DateTime.Now.Month;Listano_mes_sales=ne
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭9年前。我有一项移动服务分布在7台服务器上,每台服务器都执行特定任务。我想从他们那里记录信息,然后从他们那里获得商业情报。我已将其四舍五入为Flume。我如何使用它来收集信息?我的系统是用PHP编写的。flume可以在PHP上运行吗?
我是Flume和Hadoop的新手。我们正在开发一个BI模块,我们可以将来自不同服务器的所有日志存储在HDFS中。为此,我使用Flume。我刚开始尝试。已成功创建一个节点,但现在我愿意设置一个HTTP源和一个将通过HTTP将传入请求写入本地文件的接收器。有什么建议吗?提前致谢/ 最佳答案 希望这可以帮助您入门。我在我的机器上测试时遇到了一些问题,现在没有时间对其进行全面的故障排除,但我会解决的...假设你现在已经启动并运行了Flume,这应该是你的flume.conf文件需要看起来像使用HTTPPOST源和本地文件接收器(注意:这会
文章目录1.简介2.核心三大组件2.1.Source组件2.2.Channel组件2.3.Sink组件3.安装Flume4.采集数据测试5.日志汇总到HDFS中5.1.日志收集服务配置5.2.日志汇总服务配置5.3.运行服务测试1.简介 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume具备3大特性:1.有一个简单,灵活,基于流的数据流结构2.具有负载均衡机制和故障转移机制,能保证数据采集的稳定性和