flume

hadoop - 使用水槽的kafka channel 中的动态主题

是否有可能有一个带有动态主题的kafkachannel-比如可以在其中指定主题header的kafka接收器，或者可以在其中使用header中的值的HDFS接收器？我知道我可以多路复用以使用多个channel(具有一堆channel配置)，但这是不可取的，因为我希望有一个动态HDFS接收器，而不是每个kafkachannel都有一个HDFS接收器。最佳答案我的理解是FlumeKafkachannel只能映射到单个主题，因为它同时生成和使用该特定主题的日志。查看Flume1.6.0的KafkaChannel.java中的代码，我可

水槽 channel section kafka hadoop flume flume-ng apache-kafka

hadoop - 如何提高水槽的性能

我正在通过flumesink将事件从flume发送到kafka主题....为此，我正在使用文件channel，但是在写入kafka时我的性能非常低，flumesink以每秒190msg的速度写入而水槽源正在以每秒3000条消息的速率将事件转储到channel....我想提高我的接收器性能......请帮助我如何实现......我已经尝试了各种配置....这是我的配置文件-----agent1.sources=AspectJagent1.channels=fileTailChannelagent1.sinks=APMNullSink#AspectJsourceagent1.sources

水槽 hadoop agent1 agent APMNullSink flume

hadoop - Flume-NG:如何使用 Flume-ng 自动读取目录中新添加的文件(Flume 代理的来源)

spooldir选项用于流式传输特定目录的所有文件。完成整个目录读取后，作业将暂停/停止。但是，如果我想将新文件添加到同一目录中，会发生什么？？我的要求是在任何新文件添加到该特定spooldir文件夹时流式传输该目录。请指教!!!提前致谢。最佳答案假脱机目录源将在文件出现在目录中时继续读取文件，它不会在处理flume启动时存在于目录中的文件集后暂停。这就是文档所说的“此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。此来源将监视指定目录中的新文件，并在新文件出现时解析事件。”

Flume 中新 section 流式摄取 hadoop streaming flume-ng

hadoop - 只有一个文件从带有水槽的kafka到hdfs

我正在尝试通过水槽将数据从kafka放入hdfs。kafka_producer每10秒发送一条消息。我会在hdfs上的一个文件中收集所有消息。这是我使用的flume配置，但它在hdfs上存储了很多文件(一个用于消息):agent1.sources.kafka-source.type=org.apache.flume.source.kafka.KafkaSourceagent1.sources.kafka-source.zookeeperConnect=localhost:2181agent1.sources.kafka-source.topic=provaagent1.sources.

水槽 hadoop agent1 agent hdfs apache-kafka flume

hadoop - 使用 Flume 获取推文时出现问题

我可以使用flume获取推文，但是，流式传输所使用的语言不是我想要的。下面是flume.conf文件我收到的推文如下所示:任何人都可以建议我需要进行的更改吗？最佳答案 ApacheFlume中的TwitterSource目前不支持语言过滤。这个先前的问题描述了一个过程(公认的复杂)，您可以通过该过程部署您自己的具有语言支持的代码补丁版本:Flume-TwitterSourcelanguagefilter我认为ApacheFlume支持语言过滤将是一个有值(value)的增强。我鼓励您在FLUME中的ApacheJIRA中提交请求项

时出 hadoop section noreferrer noopener flume

hadoop - 到 HBase 的 Flume 交易失败

我有一个Flume代理将推文写入HBase接收器。几秒钟后，到接收器的事务失败，每隔8-10秒我就会在Flume代理日志中收到这些错误消息，告诉我到HBase的事务失败。奇怪的是，一些推文仍然通过并进入HBase表。是什么原因造成的？这是在单节点ClouderaQuickstartVM上运行，会不会是资源问题？这是代理日志9:20:44.618PMERRORorg.apache.flume.SinkRunnerUnabletodeliverevent.Exceptionfollows.org.apache.flume.EventDeliveryException:Couldnotwri

hadoop HBase 39 apache HBaseTweet cloudera apache-zookeeper flume

hadoop - Flume 通过网络获取日志

我一直在Flume工作，将日志从服务器计算机提取到HDFS。如果服务器和客户端机器连接在同一个网络中，我就能实现这一点。但是，如果服务器和客户端位于不同的网络中，我该如何实现相同的目标。我需要为此编写自定义源代码吗？[刚刚检查了来自cloudera的twitter示例，他们在其中使用自己的自定义源来获取twitter推文。]如有任何帮助，我们将不胜感激。谢谢，卡莱最佳答案如果你有一个多宿主主机加入两个你想传送的非对话网络，你可以有一个水槽代理在那里运行来桥接来自一个网络的日志并将其传递到另一个网络。因此，您的多宿主主机将充当一种

hadoop Flume 自定 section 并将

hadoop - Flume + HDFS-200 追加

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说HDFSsink支持附加，但我没能找到任何关于如何启用它的信息，每个示例都在滚动文件上。因此，如果可能的话，我将不胜感激有关如何使水槽附加到现有文件的任何信息)更新可以将所有滚动属性设置为0，这将使flume写入单个文件，但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:FlumeNGandHDFS，Dmitry说Flume不支持追加，但答案是一年前的，文档说的恰恰相反，所以我想也许flume得到了改进，或者我误解了什么，任何线索都将不

hadoop Flume section strong hdfs flume-ng

hadoop - 我没有收到来自 Twitter 的推文

我尝试在HDFS中通过Flume流式传输推文，但我没有从twitter获取推文。该过程在下面提到的这一点停止....!!除了这一步什么都没有。INFOinstrumentation.MonitoredCounterGroup:Monitoriedcountergroupfortype:SINK,name:HDFS,registeredsuccessfully.INFOinstrumentation.MonitoredCounterGroup:Componenttype:SINK,name:HDFSstarted我的flume.conf文件:TwitterAgent.sources=Tw

Twitter hadoop TwitterAgent sinks HDFS bigdata flume

hadoop - Flume - 即使接收器无法运行，源也会接受事件吗？

水槽新手。假设我有一个代理，它有一个avero-source、一个hdfs-sink和一个文件channel。假设在某个时候接收器无法写入hdfs。源是否会继续接受事件，直到channel填满？或者即使文件channel未满，源也会停止接受事件？最佳答案我对此进行了相当广泛的测试。您将很难应对这种情况。当接收器失败时，Flume将开始抛出异常。根据流的速度，channel也会填满并导致更多异常。控制失败的最好办法是使用failoversinkprocessor并配置汇聚组。这样，如果一个接收器发生故障，您将设置一个备份接收器，并

即使 hadoop section Flume channel flume-ng

1 2 345 6 7