水槽的新手...我可以看到channel容量设置对内存channel很有用,但是a)文件channel的真正含义是什么?b)我应该如何使用它?我是否设置它以确保channel不会用完文件系统空间? 最佳答案 如果我理解ApacheFlume-Hadoop的分布式日志收集一书中的摘录,文件channel容量仅受磁盘大小的限制。 关于hadoop-在Flume中,文件channel的channel容量到底意味着什么?,我们在StackOverflow上找到一个类似的问题:
我有一个用例,我必须使用FLUMEcat文件并加载到本地目录。我知道Flume不是为这样的用例设计的,但我没有任何流数据。所以我决定继续看看水槽是如何工作的我已经创建了我的配置文件,其中sources.type作为exec,channels.type作为file,sink.types作为file_roll,我还为checkpointDirs和dataDir等channel配置了适当的配置。但是,当我运行代理时,它在源头上失败了(flume.log)仅供引用的配置文件####Defineasource,achannel,andasinkagent.sources=src1agent.ch
我在仅节点(测试)模式下使用flume;我的水槽以下列方式启动:flumenode-1-c$FQDN':amqp("exchangeName=[exchangename]","bindings=[bindingname]","host=127.0.0.1","port=5672","userName=[user]","password=[pass]","exchangeType=direct","durableExchange=false","queueName=[queuename]","durableQueue=true","exclusiveQueue=false","autoD
所以我配置了flume以将我的apache2访问日志写入hdfs...并且我通过flume的日志发现所有配置都是正确的,但我不知道为什么它仍然不写入hdfs.所以这是我的水槽配置文件#agentandcomponentofagentsearch.sources=sosearch.sinks=sisearch.channels=sc#Configureachannelthatbufferseventsinmemory:search.channels.sc.type=memorysearch.channels.sc.capacity=20000search.channels.sc.tran
我有一个API它以xml格式返回数据。我想每天运行一次并将返回的数据存储在Hadoop中。通过水槽设置文件后有点丢失。对于通过水槽从简单的外部API提取数据(如上)/使用oozie进行调度的用例,任何人都有端到端的步骤吗?目前,我已经创建了一个Java程序,它可以提取数据并将其放置在一个文件中,该文件具有indeed_ddmmyyyyhhmmss.xml以及随后类似的命名制表符分隔的txt格式,以便于使用。我可以每天cron它并在配置单元中创建外部表以指向文件的位置。对我来说这看起来不像是优雅的解决方案。 最佳答案 您可能会使用th
您好,我对从多源日志生成服务器进行日志分析的水槽配置没有什么疑问我有2个在linux服务器上运行的apache服务器。一个节点正在运行HDFS,所有守护进程都在同一节点上运行。需要在哪个节点上安装flume以从两个服务器捕获流式日志并加载到HDFS数据库中。请为此方案提供水槽配置文件。这里如果我们想使用命令捕获流:tail-f/home/tomcat/webapps/logs/catalina.out 最佳答案 关于你的第一个问题:1.Inwhichnode(s)flumeneedtoinstalltocapturestreamin
我有2个CDH4集群。一个是CentOS6.4(真实硬件),另一个是Ubuntu12.04(AmazonEC2)。所有配置文件都是手动制作的(使用Cloudera管理器)。我尝试开始Cloudera-twitter-example.当我在CentOS集群上启动flume时,它可以正常工作。但是在Ubuntu集群上,Flume在日志文件中给出了这样的错误:2013-09-1115:04:54,491INFOorg.apache.flume.instrumentation.MonitoredCounterGroup:Componenttype:SINK,name:HDFSstarted
我正在尝试使用flume从Twitter检索数据并以JSON格式存储到hdfs。数据正在加载到HDFS。但不是JSON格式。我附上从Twitter存储的HDFS文件中的几行:Objavro.schema\E4{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name"
我是flume和hadoop的新手。我有一个疑惑:不配置hadoop能不能用flume?任何人都可以分享他们的知识吗? 最佳答案 是的,Flume可以完全独立于hadoop工作。但是它确实对HDFS有一些包依赖性。如果你不打算使用HDFS接收器,你可以在没有Hadoop的情况下使用它 关于没有hadoop的ApacheFlume,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/26
我是Flume和Hadoop的新手,所以我正在尝试设置最简单(但有点帮助/现实)的示例。我正在使用HortonWorksSandbox在VM客户端中。在遵循一个教程12(涉及设置和使用Flume)之后,一切似乎都在正常工作。所以我设置了自己的flume.conf读取apache访问日志使用内存channel写入HDFS很简单吧?这是我的配置文件agent.sources=exec-sourceagent.sinks=hdfs-sinkagent.channels=ch1agent.sources.exec-source.type=execagent.sources.exec-sourc