草庐IT

hadoop - 如何访问水槽事件头属性?

我在Flume中添加了一些事件header属性,但我不确定如何在flumeagent配置文件中访问它例如:我添加了fileHeader使用flumeagent.sinks.sinkname.hdfs.fileHeader=true目标是能够在路径中添加事件头属性,例如:flumeagent.sinks.sinkname.hdfs.path=/user/name/flumedir/%y-%m-%d/event-attribute 最佳答案 发现您可以使用以下方法添加文件名或绝对文件路径flumeagent.sources.src1.f

hadoop - 水槽配置

我正在尝试配置Flume。当我运行以下命令时:sudomvDownloads/flume-sources-1.0-SNAPSHOT.jar/usr/lib/apache-1.7.0-bin/lib/我收到以下错误:mv:cannotmoveDownloads/flume-sources-1.0-SNAPSHOT.jar'to/usr/lib/apache-1.7.0-bin/lib/':Nosuchfileordirectory.谁能帮帮我?谢谢。 最佳答案 在第5步中,系统会要求您下载文件:Usebelowlinkanddownl

java - 水槽配置java异常

我在运行flume代理时遇到问题(来自apacheflume站点的基本示例)。我正在运行的命令是./bin/flume-ngagent--confconf--conf-filetest.conf--namea1-Dflume.root.logger=INFO,console我的test.conf文件看起来像#example.conf:Asingle-nodeFlumeconfiguration#Namethecomponentsonthisagenta1.sources=r1a1.sinks=k1a1.channels=c1#Describe/configurethesourcea1.

hadoop - 水槽不使用 SocialAgent 获取 Facebook 数据

我正在尝试使用flumeSocialAgent检索facebook数据。我已经使用TwitterAgent成功检索了推特数据。但在Facebook的情况下,我在hdfs中一无所获。我的终端卡在了这个阶段。当我终止这个过程时,我得到了这个我的HDFSfacebook文件夹是空的。我正在使用以下flume.confSocialAgent.sources=FacebookHttpSourceTwitterSocialAgent.channels=FBmemoryChannelMemChannelSocialAgent.sinks=fbHDFSHDFS#Foreachoneofthesourc

hadoop - 水槽和远程 hdfs 接收器出错

我正在尝试使用hdfs接收器运行水槽。hdfs在不同的机器上正常运行,我什至可以与flume机器上的hdfs交互,但是当我运行flume并向它发送事件时,我收到以下错误:2013-05-2614:22:11,399(SinkRunner-PollingRunner-DefaultSinkProcessor)[WARN-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:456)]HDFSIOerrorjava.io.IOException:Callabletimedoutafter25000msator

hadoop - 使用水槽将推特数据流式传输到 Hadoop 时出错

我在Ubuntu14.04上使用Hadoop-1.2.1我正在尝试使用Flume-1.6.0将数据从Twitter流式传输到HDFS。我已经下载了flume-sources-1.0-SNAPSHOT.jar并将其包含在flume/lib文件夹中。我在conf/flume-env.sh中将flume-sources-1.0-SNAPSHOT.jar的路径设置为FLUME_CLASSPATH。这是我的水槽代理conf文件:#settingpropertiesofagentTwitter-agent.sources=source1Twitter-agent.channels=channel1

hadoop - Spark 流无法读取从 hdfs 中的水槽创建的文件

我创建了一个实时应用程序,在其中使用flume将数据流从weblogs写入hdfs,然后使用sparkstream处理该数据。但是当flume在hdfs中写入和创建新文件时,spark流无法处理这些文件。如果我使用put命令将文件放入hdfs目录,则sparkstream能够读取和处理文件。任何有关相同的帮助都会很棒。 最佳答案 您自己已经检测到问题:当数据流继续时,HDFS文件被“锁定”并且不能被任何其他进程读取。相反,正如您所经历的那样,如果您放入一批数据(这是您的文件,一批,而不是流),一旦上传就可以读取了。无论如何,不​​是

hadoop - 如何确定水槽拓扑方法?

我正在设置水槽,但非常不确定要为我们的用例继续使用什么拓扑。我们基本上有两个可以以每秒2000个条目的速度生成日志的Web服务器。每个条目的大小约为137字节。目前我们使用rsyslog(写入tcp端口),php脚本将这些日志写入其中。我们在每个网络服务器上运行一个本地flume代理,这些本地代理监听一个tcp端口并将数据直接放在hdfs中。所以localhost:tcpport是“flumesource”,“hdfs”是flumesink。我不确定上述方法并且对三种方法感到困惑:方法一:每台机器上的Web服务器、RSyslog和FlumeAgent以及在hadoop集群的Nameno

hadoop - 使用 Hive Sink 将水槽输出保存到 Hive 表

我正在尝试使用Hive配置flume,以将flume输出保存到HiveSink类型的hive表。我有单节点集群。我使用maprhadoop发行版。这是我的flume.confagent1.sources=source1agent1.channels=channel1agent1.sinks=sink1agent1.sources.source1.type=execagent1.sources.source1.command=cat/home/andrey/flume_test.dataagent1.sinks.sink1.type=hiveagent1.sinks.sink1.chan