草庐IT

hadoop - Flume HDFS 接收器写入错误 "no protocol: value"

尝试运行flume作业时出现以下错误。我在cloudera设置上运行它。Kafka是源Morphline用作拦截器,并从中创建avro记录。接收器是HDFS测试环境中的完全相同的文件(morphline、avro模式等、flume配置)。但是在另一个环境中它会抛出这个错误。2019-07-1514:24:17,669WARNorg.apache.flume.sink.hdfs.BucketWriter:CaughtIOExceptionwritingtoHDFSWriter(noprotocol:value).Closingfile(hdfs://8.8.8.8:8020/user/h

java - hadoop flume log4j 配置

如果您运行hadoopflume节点,默认情况下它会使用log4j在/var/log/flume下生成日志。这些文件看起来像/var/log/flume/flume-$FLUME_IDENT_STRING-$command-$HOSTNAME.log根据水槽用户指南here,更改flume日志配置的唯一方法是通过flume-daemon.sh,它使用Flume环境变量运行flume节点,例如:exportFLUME_LOGFILE=flume-$FLUME_IDENT_STRING-$command-$HOSTNAME.logexportFLUME_ROOT_LOGGER="INFO,

logging - 使用 Flume Avro 的日志数据未正确存储在 Hive 中

我使用Flume1.5.0从应用程序服务器收集日志。假设我有三个App服务器,App-A、App-B、App-C。运行配置单元的一个HDFS服务器。现在水槽代理在所有3个应用服务器上运行,并将日志消息从应用服务器传递到Hdfs服务器,其中另一个水槽代理正在运行,最后日志存储在hadoop文件系统中。现在我已经创建了一个外部Hive表来映射这些日志数据。但是除了hive无法正确解析日志数据并存储在表中之外,一切都运行顺利。这是我的Flume和Hive配置:虚拟日志文件格式(|分隔):ClientId|AppRequest|URL应用服务器上的Flumeconf:app-agent.sou

hadoop - Apache Flume : cannot commit transaction. 达到堆空间限制

我正在尝试使用Flume将一些数据流式传输到HDFS,并将单个代理配置为具有netcat源、内存channel和HDFS接收器。配置如下:a1.sources=src1a1.channels=ch1a1.sinks=snk1#SOURCESCONFIGURATIONa1.sources.src1.type=netcata1.sources.src1.bind=0.0.0.0a1.sources.src1.port=99999a1.sources.src1.ack-every-event=false#SOURCE->CHANNELa1.sources.src1.channels=ch1#

hadoop - 关于如何在 Windows 中使用 hadoop 安装 flume 的任何想法?

我在c:\hadoop2.5.2下安装hadoop,然后解压flume二进制文件在c:\hadop2.5.2\apache-flume-1.6.0下Iamgettingtheerrorasshownbelowanyidea?C:\hadoop2.5.2\apache-flume-1.6.0\bin>flume-ngagent-conf-fconf/flume-twitter.conf-Dflume.root.logger=DEBUG,console-nTwitterAgentC:\hadoop2.5.2\apache-flume-1.6.0\bin>powershell.exe-NoP

hadoop - 使用 FILE channel 配置 flume 的多个源时出现 channel 锁定错误

为代理配置多个源,使用FILEchannel抛出锁定错误。下面是我的配置文件。a1.sources=r1r2a1.sinks=k1k2a1.channels=c1c3#sourcesa1.sources.r1.type=netcata1.sources.r1.bind=localhosta1.sources.r1.port=4444a1.sources.r2.type=execa1.sources.r2.command=tail-f/opt/gen_logs/logs/access.log#sinksa1.sinks.k1.type=hdfsa1.sinks.k1.hdfs.path=

hadoop - 增加 Flume 管道创建的文件大小到 Hadoop

我有一个Flume的配置文件,如下所示:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=TwitterAgent.sources.Twitter.channels=MemChannelTwitterAgent.sources.Twitter.consumerKey=TwitterAgent.sources.Twitter.consumerSecret=TwitterAgent.sources.Twitt

hadoop - Flume HDFS 接收器未从 Kafka channel 在 hdfs 中创建文件

我正在尝试实现一个简单的FlumeHDFS接收器,它将从Kafkachannel获取事件并将它们作为文本文件写入hdfs。该架构非常简单。这些事件从twitter流式传输到kafka主题,而flumehdfssink确实会将这些事件写入hdfs。这是Kafka-producerstackoverflowquestion的第2部分.当我执行这个命令时没有错误,看起来它工作得很好,但我无法在hdfs中看到文本文件。我无法调试或调查,因为/var/log/flume/文件夹中没有创建日志文件。我正在使用Hortonworks沙盒2.3.1和hue来浏览文件系统。执行flume的命令:flum

hadoop - 错误 : Could not find or load main class org. apache.flume.node.Application - 在 hadoop 版本 1.2.1 上安装 flume

我搭建了一个hadoop集群,其中一个是master-slave节点,另一个是slave。现在,我想建立一个水槽来获取主机上集群的所有日志。但是,当我尝试从tarball安装flume时,我总是得到:错误:无法找到或加载主类org.apache.flume.node.Application所以,请帮我找到答案,或者在我的集群上安装水槽的最佳方法。非常感谢! 最佳答案 主要是因为FLUME_HOME..试试这个命令$unsetFLUME_HOME 关于hadoop-错误:Couldnotf

hadoop - Flume HDFS Sink Flush 和 Roll 的区别

我在Flume文档中遇到了HDFSSink的两个配置属性:hdfs.rollCountNumberofeventswrittentofilebeforeitrolled(0=neverrollbasedonnumberofevents)和hdfs.batchSizenumberofeventswrittentofilebeforeitisflushedtoHDFS我想知道这两个属性之间的区别,以及roll和flush的区别。在我看来它们看起来一样。 最佳答案 在HDFSSink中,roll表示关闭当前文件,将即将发生的事件写入新文件