spooldir选项用于流式传输特定目录的所有文件。完成整个目录读取后,作业将暂停/停止。但是,如果我想将新文件添加到同一目录中,会发生什么??我的要求是在任何新文件添加到该特定spooldir文件夹时流式传输该目录。请指教!!!提前致谢。 最佳答案 假脱机目录源将在文件出现在目录中时继续读取文件,它不会在处理flume启动时存在于目录中的文件集后暂停。这就是文档所说的“此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。此来源将监视指定目录中的新文件,并在新文件出现时解析事件。”
我可以使用flume获取推文,但是,流式传输所使用的语言不是我想要的。下面是flume.conf文件我收到的推文如下所示:任何人都可以建议我需要进行的更改吗? 最佳答案 ApacheFlume中的TwitterSource目前不支持语言过滤。这个先前的问题描述了一个过程(公认的复杂),您可以通过该过程部署您自己的具有语言支持的代码补丁版本:Flume-TwitterSourcelanguagefilter我认为ApacheFlume支持语言过滤将是一个有值(value)的增强。我鼓励您在FLUME中的ApacheJIRA中提交请求项
我有一个Flume代理将推文写入HBase接收器。几秒钟后,到接收器的事务失败,每隔8-10秒我就会在Flume代理日志中收到这些错误消息,告诉我到HBase的事务失败。奇怪的是,一些推文仍然通过并进入HBase表。是什么原因造成的?这是在单节点ClouderaQuickstartVM上运行,会不会是资源问题?这是代理日志9:20:44.618PMERRORorg.apache.flume.SinkRunnerUnabletodeliverevent.Exceptionfollows.org.apache.flume.EventDeliveryException:Couldnotwri
我一直在Flume工作,将日志从服务器计算机提取到HDFS。如果服务器和客户端机器连接在同一个网络中,我就能实现这一点。但是,如果服务器和客户端位于不同的网络中,我该如何实现相同的目标。我需要为此编写自定义源代码吗?[刚刚检查了来自cloudera的twitter示例,他们在其中使用自己的自定义源来获取twitter推文。]如有任何帮助,我们将不胜感激。谢谢,卡莱 最佳答案 如果你有一个多宿主主机加入两个你想传送的非对话网络,你可以有一个水槽代理在那里运行来桥接来自一个网络的日志并将其传递到另一个网络。因此,您的多宿主主机将充当一种
页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说HDFSsink支持附加,但我没能找到任何关于如何启用它的信息,每个示例都在滚动文件上。因此,如果可能的话,我将不胜感激有关如何使水槽附加到现有文件的任何信息)更新可以将所有滚动属性设置为0,这将使flume写入单个文件,但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:FlumeNGandHDFS,Dmitry说Flume不支持追加,但答案是一年前的,文档说的恰恰相反,所以我想也许flume得到了改进,或者我误解了什么,任何线索都将不
水槽新手。假设我有一个代理,它有一个avero-source、一个hdfs-sink和一个文件channel。假设在某个时候接收器无法写入hdfs。源是否会继续接受事件,直到channel填满?或者即使文件channel未满,源也会停止接受事件? 最佳答案 我对此进行了相当广泛的测试。您将很难应对这种情况。当接收器失败时,Flume将开始抛出异常。根据流的速度,channel也会填满并导致更多异常。控制失败的最好办法是使用failoversinkprocessor并配置汇聚组。这样,如果一个接收器发生故障,您将设置一个备份接收器,并
如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录?说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等 最佳答案 我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取,我们在StackOver
我正在尝试使用flume假脱机目录将数据摄取到HDFS(SpoolDir>MemoryChannel>HDFS)。我正在使用ClouderaHadoop5.4.2。(Hadoop2.6.0,Flume1.5.0)。它适用于较小的文件,但不适用于较大的文件。请在下面找到我的测试场景:大小为KB到50-60MBytes的文件,处理无问题。大于50-60MB的文件,它将大约50MB写入HDFS,然后我发现flumeagent意外退出。水槽日志中没有错误消息。我发现它试图多次创建“.tmp”文件(HDFS),并且每次在意外退出之前写入几兆字节(有时2MB,有时45MB)。一段时间后,最后尝试的
我只是想知道是否有人遇到过需要将数据从excel导入或读取到Hadoop的场景?有没有FlumeExcel之类的源码?顺便说一句,我知道我可以将excel文件转换为csv然后处理它。真的只是想在这里进一步探索水槽源。 最佳答案 SpoolingDirectorySource可以配置为从Excel文件(或任何其他格式)读取。如文档所述,此源可以配置为EventDeserializer-实现将文件解析为事件的逻辑的类。我不认为有人已经实现了这样的反序列化器,但使用ApachePOI库似乎很容易完成任务。
如何使用Flume将一组csv文件从我的本地目录复制到HDFS?我尝试使用假脱机目录作为我的来源,但未能复制。然后我使用以下水槽配置来获得我的结果:agent1.sources=tailagent1.channels=MemoryChannel-2agent1.sinks=HDFSagent1.sources.tail.type=execagent1.sources.tail.command=tail-F/home/cloudera/runs/*agent1.sources.tail.channels=MemoryChannel-2agent1.sinks.HDFS.channel=M