草庐IT

Flume-KafkaSource

全部标签

hadoop - Flume 与 SLF4J : Class path contains multiple SLF4J bindings 冲突 hadoop

每次启动Flume时,我都会在Flume、Hive和Hadoop之间收到此消息。避免这种情况的最佳方法是什么?我正在考虑从flumelib目录中删除一个jar,但不确定这是否会影响其他(hive、hadoop)。Info:Sourcingenvironmentconfigurationscript/usr/local/flume/conf/flume-env.shInfo:IncludingHadooplibrariesfoundvia(/usr/local/hadoop/bin/hadoop)forHDFSaccess+exec/usr/java/jdk1.7.0_79/bin/ja

hadoop - 当 rolloverSize 设置为 150 MB 时,每隔几秒就会刷新一次 Flume 消息

我创建了一个flume管道,使用flume将数据从Kafka移动到HDFS。我已将rolloverSize设置为150MB,它可以正确滚动。但是我希望将消息频繁写入HDFS文件,而不是将所有消息一次性写入,即目前消息保存在缓冲区中,并在达到150MB大小时刷新。基本上,我想以近乎实时的方式将消息写入HDFS,并在达到150MB时翻转文件。我尝试设置batchSize属性,但没有太大帮助。上面的需求是否可以在flume中实现? 最佳答案 hdfs.rollInterval是你应该在你的flumeconf中设置的。此参数使Flume每隔

hadoop - 数据从 Kafka 流向 HDFS 时,Flume 空间不足错误

我们正在努力处理从Kafka到由Flume管理的HDFS的数据流。由于下述异常,数据未完全传输到hdfs。然而这个错误看起来误导了我们,我们在数据目录和hdfs中都有足够的空间。我们认为这可能是channel配置的问题,但我们对其他来源也有类似的配置,并且对它们工作正常。如果有人必须处理这个问题,我将不胜感激。17Aug201714:15:24,335ERROR[Log-BackgroundWorker-channel1](org.apache.flume.channel.file.Log$BackgroundWorker.run:1204)-Errordoingcheckpointj

hadoop - Flume 不接受 Twitter 流的关键字

这里是Hadoop新手,使用本教程:https://acadgild.com/blog/streaming-twitter-data-using-flume/捕捉推文。这是我的flume.conf文件:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=org.apache.flume.source.twitter.TwitterSourceTwitterAgent.sources.Twitter.cons

hadoop - Flume HDFS 接收器写入错误 "no protocol: value"

尝试运行flume作业时出现以下错误。我在cloudera设置上运行它。Kafka是源Morphline用作拦截器,并从中创建avro记录。接收器是HDFS测试环境中的完全相同的文件(morphline、avro模式等、flume配置)。但是在另一个环境中它会抛出这个错误。2019-07-1514:24:17,669WARNorg.apache.flume.sink.hdfs.BucketWriter:CaughtIOExceptionwritingtoHDFSWriter(noprotocol:value).Closingfile(hdfs://8.8.8.8:8020/user/h

java - hadoop flume log4j 配置

如果您运行hadoopflume节点,默认情况下它会使用log4j在/var/log/flume下生成日志。这些文件看起来像/var/log/flume/flume-$FLUME_IDENT_STRING-$command-$HOSTNAME.log根据水槽用户指南here,更改flume日志配置的唯一方法是通过flume-daemon.sh,它使用Flume环境变量运行flume节点,例如:exportFLUME_LOGFILE=flume-$FLUME_IDENT_STRING-$command-$HOSTNAME.logexportFLUME_ROOT_LOGGER="INFO,

logging - 使用 Flume Avro 的日志数据未正确存储在 Hive 中

我使用Flume1.5.0从应用程序服务器收集日志。假设我有三个App服务器,App-A、App-B、App-C。运行配置单元的一个HDFS服务器。现在水槽代理在所有3个应用服务器上运行,并将日志消息从应用服务器传递到Hdfs服务器,其中另一个水槽代理正在运行,最后日志存储在hadoop文件系统中。现在我已经创建了一个外部Hive表来映射这些日志数据。但是除了hive无法正确解析日志数据并存储在表中之外,一切都运行顺利。这是我的Flume和Hive配置:虚拟日志文件格式(|分隔):ClientId|AppRequest|URL应用服务器上的Flumeconf:app-agent.sou

hadoop - Apache Flume : cannot commit transaction. 达到堆空间限制

我正在尝试使用Flume将一些数据流式传输到HDFS,并将单个代理配置为具有netcat源、内存channel和HDFS接收器。配置如下:a1.sources=src1a1.channels=ch1a1.sinks=snk1#SOURCESCONFIGURATIONa1.sources.src1.type=netcata1.sources.src1.bind=0.0.0.0a1.sources.src1.port=99999a1.sources.src1.ack-every-event=false#SOURCE->CHANNELa1.sources.src1.channels=ch1#

hadoop - 关于如何在 Windows 中使用 hadoop 安装 flume 的任何想法?

我在c:\hadoop2.5.2下安装hadoop,然后解压flume二进制文件在c:\hadop2.5.2\apache-flume-1.6.0下Iamgettingtheerrorasshownbelowanyidea?C:\hadoop2.5.2\apache-flume-1.6.0\bin>flume-ngagent-conf-fconf/flume-twitter.conf-Dflume.root.logger=DEBUG,console-nTwitterAgentC:\hadoop2.5.2\apache-flume-1.6.0\bin>powershell.exe-NoP

hadoop - 使用 FILE channel 配置 flume 的多个源时出现 channel 锁定错误

为代理配置多个源,使用FILEchannel抛出锁定错误。下面是我的配置文件。a1.sources=r1r2a1.sinks=k1k2a1.channels=c1c3#sourcesa1.sources.r1.type=netcata1.sources.r1.bind=localhosta1.sources.r1.port=4444a1.sources.r2.type=execa1.sources.r2.command=tail-f/opt/gen_logs/logs/access.log#sinksa1.sinks.k1.type=hdfsa1.sinks.k1.hdfs.path=