flume_test

hadoop - Flume-NG:如何使用 Flume-ng 自动读取目录中新添加的文件(Flume 代理的来源)

spooldir选项用于流式传输特定目录的所有文件。完成整个目录读取后，作业将暂停/停止。但是，如果我想将新文件添加到同一目录中，会发生什么？？我的要求是在任何新文件添加到该特定spooldir文件夹时流式传输该目录。请指教!!!提前致谢。最佳答案假脱机目录源将在文件出现在目录中时继续读取文件，它不会在处理flume启动时存在于目录中的文件集后暂停。这就是文档所说的“此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。此来源将监视指定目录中的新文件，并在新文件出现时解析事件。”

Flume 中新 section 流式摄取 hadoop streaming flume-ng

hadoop - 使用 Flume 获取推文时出现问题

我可以使用flume获取推文，但是，流式传输所使用的语言不是我想要的。下面是flume.conf文件我收到的推文如下所示:任何人都可以建议我需要进行的更改吗？最佳答案 ApacheFlume中的TwitterSource目前不支持语言过滤。这个先前的问题描述了一个过程(公认的复杂)，您可以通过该过程部署您自己的具有语言支持的代码补丁版本:Flume-TwitterSourcelanguagefilter我认为ApacheFlume支持语言过滤将是一个有值(value)的增强。我鼓励您在FLUME中的ApacheJIRA中提交请求项

时出 hadoop section noreferrer noopener flume

hadoop - 到 HBase 的 Flume 交易失败

我有一个Flume代理将推文写入HBase接收器。几秒钟后，到接收器的事务失败，每隔8-10秒我就会在Flume代理日志中收到这些错误消息，告诉我到HBase的事务失败。奇怪的是，一些推文仍然通过并进入HBase表。是什么原因造成的？这是在单节点ClouderaQuickstartVM上运行，会不会是资源问题？这是代理日志9:20:44.618PMERRORorg.apache.flume.SinkRunnerUnabletodeliverevent.Exceptionfollows.org.apache.flume.EventDeliveryException:Couldnotwri

hadoop HBase 39 apache HBaseTweet cloudera apache-zookeeper flume

hadoop - Flume 通过网络获取日志

我一直在Flume工作，将日志从服务器计算机提取到HDFS。如果服务器和客户端机器连接在同一个网络中，我就能实现这一点。但是，如果服务器和客户端位于不同的网络中，我该如何实现相同的目标。我需要为此编写自定义源代码吗？[刚刚检查了来自cloudera的twitter示例，他们在其中使用自己的自定义源来获取twitter推文。]如有任何帮助，我们将不胜感激。谢谢，卡莱最佳答案如果你有一个多宿主主机加入两个你想传送的非对话网络，你可以有一个水槽代理在那里运行来桥接来自一个网络的日志并将其传递到另一个网络。因此，您的多宿主主机将充当一种

hadoop Flume 自定 section 并将

testing - 如何测试Hadoop mapreduce

如何在hadoopmapreduce应用程序准备好投入生产之前对其进行测试。我现在能想到的测试视角是：单元测试这是为了确保映射器和还原器中的方法正常工作。看来我们已经有了mrunit，但我想看看我们是否还有其他选择。数据准确性这对我来说是最重要的，因为产生准确和正确的输出是mapreduce应用程序的主要职责。这里的问题是如何生成测试数据集和如何验证输出数据，以及正确的测试数据量是多少？性能我们应该如何对mapreduce应用程序的性能进行基准测试？我们能利用什么工具？我们还需要考虑其他的测试吗？最佳答案 jumbune是您的工具

mapreduce testing section br jumbune hadoop

hadoop - Flume + HDFS-200 追加

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说HDFSsink支持附加，但我没能找到任何关于如何启用它的信息，每个示例都在滚动文件上。因此，如果可能的话，我将不胜感激有关如何使水槽附加到现有文件的任何信息)更新可以将所有滚动属性设置为0，这将使flume写入单个文件，但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:FlumeNGandHDFS，Dmitry说Flume不支持追加，但答案是一年前的，文档说的恰恰相反，所以我想也许flume得到了改进，或者我误解了什么，任何线索都将不

hadoop Flume section strong hdfs flume-ng

hadoop - Flume - 即使接收器无法运行，源也会接受事件吗？

水槽新手。假设我有一个代理，它有一个avero-source、一个hdfs-sink和一个文件channel。假设在某个时候接收器无法写入hdfs。源是否会继续接受事件，直到channel填满？或者即使文件channel未满，源也会停止接受事件？最佳答案我对此进行了相当广泛的测试。您将很难应对这种情况。当接收器失败时，Flume将开始抛出异常。根据流的速度，channel也会填满并导致更多异常。控制失败的最好办法是使用failoversinkprocessor并配置汇聚组。这样，如果一个接收器发生故障，您将设置一个备份接收器，并

即使 hadoop section Flume channel flume-ng

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录？说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等最佳答案我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取，我们在StackOver

自定摄取 section code hadoop apache-kafka flume

hadoop - Flume 假脱机目录源 : Cannot load files larger files

我正在尝试使用flume假脱机目录将数据摄取到HDFS(SpoolDir>MemoryChannel>HDFS)。我正在使用ClouderaHadoop5.4.2。(Hadoop2.6.0，Flume1.5.0)。它适用于较小的文件，但不适用于较大的文件。请在下面找到我的测试场景:大小为KB到50-60MBytes的文件，处理无问题。大于50-60MB的文件，它将大约50MB写入HDFS，然后我发现flumeagent意外退出。水槽日志中没有错误消息。我发现它试图多次创建“.tmp”文件(HDFS)，并且每次在意外退出之前写入几兆字节(有时2MB，有时45MB)。一段时间后，最后尝试的

files hadoop spoolDir hdfs sink_to_hdfs large-files flume

Hadoop异常-清理暂存区/staging/test/.staging/job_201211221353_0010

我的作业配置如下，我正在尝试对我的hadoop作业进行简单的两步链接，publicintrun(String[]args)throwsException{Configurationconf=getConf();if(args.length!=2){System.err.println("Usage:moviecount3");System.exit(2);}ConfigurationUtil.dumpConfigurations(conf,System.out);LOG.info("input:"+args[0]+"output:"+args[1]);Jobjob=newJob(con

存区 staging java hadoop job mapreduce

50 51 525354 55 56