我想在ubuntu上安装ApacheFlume1.4.0以移动数据并将其存储到HDFS,但我找不到显示如何正确安装flume的安装指南。我下载了二进制zip。有什么帮助吗? 最佳答案 Ubuntu中的ApacheFlume安装步骤:Step1:DownloadtheLatestVersionofFlume.Step2:tar–xzvfapache-flume-1.5.0-bin.tar.gzStep3:sudomvapache-flume-1.5.2-bin/usr/local/flumeStep4:sudonano~/.bashr
我正在尝试使用flume将Twitter数据流式传输到hdfs中:https://github.com/cloudera/cdh-twitter-example/无论我在这里尝试什么,它都会不断在HDFS中创建大小在1.5kB到15kB之间的文件,而我希望看到大文件(64Mb)。这是代理配置:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.Twitte
我已将flume配置为读取日志文件并写入HDFS。当我启动水槽时,会读取日志文件但不会写入HDFS。flume.log有警告消息-couldnotconfiguresink-nochannelconfiguredforsink但我已经在conf文件中分配了一个channel以接收。下面是配置文件和错误信息:File:spool-to-hdfs.properties#Listallcomponents.agent1.sources=source1agent1.sinks=sink1agent1.channels=channel1#Describesource.agent1.sources
我想使用ApacheFlume提取与6月和7月的关键字相关的Twitter提要。这首先可以做到吗? 最佳答案 AFAIK,来自Cloudera的TwitterSource仅用于在生成数据的同时接收数据。我认为Twitter1%firehosesource会发生类似的事情.尽管如此,我发现TwitterAPI可以与timelines一起使用,因此这是修改TwitterSource的问题源代码。 关于apache-ApacheFlume可以用于提取特定时间段内的推文吗?,我们在StackOv
水槽的新手...我可以看到channel容量设置对内存channel很有用,但是a)文件channel的真正含义是什么?b)我应该如何使用它?我是否设置它以确保channel不会用完文件系统空间? 最佳答案 如果我理解ApacheFlume-Hadoop的分布式日志收集一书中的摘录,文件channel容量仅受磁盘大小的限制。 关于hadoop-在Flume中,文件channel的channel容量到底意味着什么?,我们在StackOverflow上找到一个类似的问题:
我有一个用例,我必须使用FLUMEcat文件并加载到本地目录。我知道Flume不是为这样的用例设计的,但我没有任何流数据。所以我决定继续看看水槽是如何工作的我已经创建了我的配置文件,其中sources.type作为exec,channels.type作为file,sink.types作为file_roll,我还为checkpointDirs和dataDir等channel配置了适当的配置。但是,当我运行代理时,它在源头上失败了(flume.log)仅供引用的配置文件####Defineasource,achannel,andasinkagent.sources=src1agent.ch
我在仅节点(测试)模式下使用flume;我的水槽以下列方式启动:flumenode-1-c$FQDN':amqp("exchangeName=[exchangename]","bindings=[bindingname]","host=127.0.0.1","port=5672","userName=[user]","password=[pass]","exchangeType=direct","durableExchange=false","queueName=[queuename]","durableQueue=true","exclusiveQueue=false","autoD
所以我配置了flume以将我的apache2访问日志写入hdfs...并且我通过flume的日志发现所有配置都是正确的,但我不知道为什么它仍然不写入hdfs.所以这是我的水槽配置文件#agentandcomponentofagentsearch.sources=sosearch.sinks=sisearch.channels=sc#Configureachannelthatbufferseventsinmemory:search.channels.sc.type=memorysearch.channels.sc.capacity=20000search.channels.sc.tran
我有一个API它以xml格式返回数据。我想每天运行一次并将返回的数据存储在Hadoop中。通过水槽设置文件后有点丢失。对于通过水槽从简单的外部API提取数据(如上)/使用oozie进行调度的用例,任何人都有端到端的步骤吗?目前,我已经创建了一个Java程序,它可以提取数据并将其放置在一个文件中,该文件具有indeed_ddmmyyyyhhmmss.xml以及随后类似的命名制表符分隔的txt格式,以便于使用。我可以每天cron它并在配置单元中创建外部表以指向文件的位置。对我来说这看起来不像是优雅的解决方案。 最佳答案 您可能会使用th
您好,我对从多源日志生成服务器进行日志分析的水槽配置没有什么疑问我有2个在linux服务器上运行的apache服务器。一个节点正在运行HDFS,所有守护进程都在同一节点上运行。需要在哪个节点上安装flume以从两个服务器捕获流式日志并加载到HDFS数据库中。请为此方案提供水槽配置文件。这里如果我们想使用命令捕获流:tail-f/home/tomcat/webapps/logs/catalina.out 最佳答案 关于你的第一个问题:1.Inwhichnode(s)flumeneedtoinstalltocapturestreamin