草庐IT

Flume-ng

全部标签

hadoop - Flume:通过 API 将文件发送到 HDFS

我是ApacheFlume-ng的新手。我想将文件从客户端代理发送到服务器代理,服务器代理最终将文件写入HDFS。我看过http://cuddletech.com/blog/?p=795.这是迄今为止我发现的最好的。但它是通过脚本而不是通过API。我想通过FlumeAPI来完成。请在这方面帮助我。并告诉我步骤,如何开始和组织代码。 最佳答案 我认为您或许应该更多地解释一下您想要实现的目标。您发布的链接似乎正好满足您的需要。您需要在客户端启动Flume代理来读取文件并使用Avro接收器发送它们。然后您的服务器上需要一个Flume代理,

hadoop - 配置flume从不同目录读取日志

不同的应用程序正在将它们的日志写入不同的目录结构。我想阅读那些日志并将其放入接收器(可以是hadoop或物理文件)。flume如何支持单代理多源?是否可以为单个代理提供多个来源?任何人都可以指导我吗?感谢和问候查雅 最佳答案 使用多个源配置您的水槽代理-每个日志文件一个。它们可能应该是假脱机文件源类型。请注意,当源获取文件时,它不需要更改-您需要配置源以确保这一点..然后这些源可以进入一个channel,该channel可以有一个接收器。 关于hadoop-配置flume从不同目录读取日

java - Hadoop Flume java客户端将日志传输到hdfs

是否可以使用flumejava客户端将Web服务器日志传输到HDFS?如果是这样,怎么办??请帮帮我......我见过几个人在写入HDFS时遇到问题 最佳答案 使用log4jFlumeappender将应用程序事件发送到Flume。然后Flume可以将事件写入HDFS,稍后可以使用Hive或其他一些框架对其进行分析。检查这个article有关代码和配置文件的详细说明。appender文中提到的是Flume的一部分,已经moved至Log4J2.另外,看看Scribe来自Facebook。但是,它已经超过2年没有更新了。看起来它并没有

hadoop - 带有 Hadoop 2.2.0 和 hdfs 接收器类型的 Flume 1.4 有问题

下面提到的是我的flume配置文件...#example.conf:Asingle-nodeFlumeconfiguration#Namethecomponentsonthisagenta1.sources=r1a1.sinks=k1a1.channels=c1#readingfileusingtailcommandandsendingdatatochannela1.sources.r1.type=spooldira1.sources.r1.spoolDir=/data/apache-flume-1.4.0-bin/logsa1.sources.r1.channels=c1#Useac

hadoop - Apache Flume 连接到 twitter API 401 :Authentication credentials

我正在尝试使用ApacheFlume将推文保存到我的HDFS。我目前正在将Cloudera图像与Hadoop和Flume一起使用。我正在按照Cloudera博客中的教程进行操作,但无法连接到TwitterAPI。我收到以下错误:2014-03-1409:43:14,021INFOorg.apache.flume.node.Application:Waitingforchannel:MemChanneltostart.Sleepingfor500ms2014-03-1409:43:14,069INFOorg.apache.flume.instrumentation.MonitoredCo

apache - 使用 apache flume 将数据流式传输到 hbase

我正在尝试使用apacheflume将数据加载到hbase中。当我使用水槽将数据流式传输到hadoop时,它工作正常。但是当我启动水槽代理将数据加载到hbase时,我得到了NoClassDefFoundError。14/05/1223:14:10INFOnode.PollingPropertiesFileConfigurationProvider:Reloadingconfigurationfile:agent4.conf14/05/1223:14:10INFOconf.FlumeConfiguration:Processing:sink114/05/1223:14:10INFOcon

java - 使用拦截器运行 flume agent 时出错

我正在尝试使用Linux从终端运行自定义水槽代理。我正在研究clouderaVM。命令运行水槽看起来像:flume-ngagent--conf.-fspoolDirLocal2hdfs_memoryChannel.conflume.root.logger=DEBUG,console-nAgent5带有拦截器的源代码如下:Agent5.sources.spooldir-source.interceptors=i1Agent5.sources.spooldir-source.interceptors.i1.type=org.flumefiles.flume.HtmlInterceptor$

hadoop - Flume - 有没有办法将 avro 事件(标题和正文)存储到 hdfs 中?

水槽的新手...我正在接收avro事件并将它们存储到HDFS中。我知道默认情况下只有事件的主体存储在HDFS中。我也知道有一个avro_eventserializer.但是我不知道这个序列化器到底在做什么?它如何影响接收器的最终输出?此外,我不知道如何将事件转储到HDFS中以保留其header信息。我需要编写自己的序列化程序吗? 最佳答案 事实证明,序列化程序avro_event确实将header和正文都存储在文件中。这是我设置水槽的方式:a1.sinks.i1.type=hdfsa1.sinks.i1.hdfs.path=hdfs

hadoop - Flume 使用 ec2 实例 IAM 凭证汇入 s3

我有一个水槽,用于将数据写入awss3存储桶。Flume配置如下aggregator.sinks.s3LogSink.type=hdfsaggregator.sinks.s3LogSink.channel=flumeLogAgentFileChannelaggregator.sinks.s3LogSink.hdfs.path=s3n://aggregator.sinks.s3LogSink.hdfs.fileType=DataStreamaggregator.sinks.s3LogSink.hdfs.writeFormat=Textaggregator.sinks.s3LogSink.

hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少?

我们将推文保存在目录顺序中,例如/user/flume/2016/06/28/13/FlumeData...。但每小时它会创建超过100个FlumeData文件。我更改了TwitterAgent.sinks.HDFS.hdfs.rollSize=52428800(50mb)同样的事情又发生了。之后我也尝试更改rollcount参数但没有成功。我如何设置参数以每小时获取一个FlumeData文件。 最佳答案 rollInterval怎么样?你把它设置为零了吗?如果是,那么问题可能出在其他地方。如果rollInterval设置为某个值,