水槽

hadoop - 如何访问水槽事件头属性？

我在Flume中添加了一些事件header属性，但我不确定如何在flumeagent配置文件中访问它例如:我添加了fileHeader使用flumeagent.sinks.sinkname.hdfs.fileHeader=true目标是能够在路径中添加事件头属性，例如:flumeagent.sinks.sinkname.hdfs.path=/user/name/flumedir/%y-%m-%d/event-attribute 最佳答案发现您可以使用以下方法添加文件名或绝对文件路径flumeagent.sources.src1.f

水槽 hadoop flumeagent code section flume

hadoop - 水槽配置

我正在尝试配置Flume。当我运行以下命令时:sudomvDownloads/flume-sources-1.0-SNAPSHOT.jar/usr/lib/apache-1.7.0-bin/lib/我收到以下错误:mv:cannotmoveDownloads/flume-sources-1.0-SNAPSHOT.jar'to/usr/lib/apache-1.7.0-bin/lib/':Nosuchfileordirectory.谁能帮帮我？谢谢。最佳答案在第5步中，系统会要求您下载文件:Usebelowlinkanddownl

水槽 hadoop code flume section configuration

java - 水槽配置java异常

我在运行flume代理时遇到问题(来自apacheflume站点的基本示例)。我正在运行的命令是./bin/flume-ngagent--confconf--conf-filetest.conf--namea1-Dflume.root.logger=INFO,console我的test.conf文件看起来像#example.conf:Asingle-nodeFlumeconfiguration#Namethecomponentsonthisagenta1.sources=r1a1.sinks=k1a1.channels=c1#Describe/configurethesourcea1.

水槽 java URLClassLoader flume hadoop configuration

hadoop - 水槽不使用 SocialAgent 获取 Facebook 数据

我正在尝试使用flumeSocialAgent检索facebook数据。我已经使用TwitterAgent成功检索了推特数据。但在Facebook的情况下，我在hdfs中一无所获。我的终端卡在了这个阶段。当我终止这个过程时，我得到了这个我的HDFSfacebook文件夹是空的。我正在使用以下flume.confSocialAgent.sources=FacebookHttpSourceTwitterSocialAgent.channels=FBmemoryChannelMemChannelSocialAgent.sinks=fbHDFSHDFS#Foreachoneofthesourc

水槽 SocialAgent FacebookHttpSource FBmemoryChannel hadoop bigdata flume sentiment-analysis

hadoop - 水槽和远程 hdfs 接收器出错

我正在尝试使用hdfs接收器运行水槽。hdfs在不同的机器上正常运行，我什至可以与flume机器上的hdfs交互，但是当我运行flume并向它发送事件时，我收到以下错误:2013-05-2614:22:11,399(SinkRunner-PollingRunner-DefaultSinkProcessor)[WARN-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:456)]HDFSIOerrorjava.io.IOException:Callabletimedoutafter25000msator

水槽 hadoop HDFSEventSink hdfs java flume

hadoop - 使用水槽将推特数据流式传输到 Hadoop 时出错

我在Ubuntu14.04上使用Hadoop-1.2.1我正在尝试使用Flume-1.6.0将数据从Twitter流式传输到HDFS。我已经下载了flume-sources-1.0-SNAPSHOT.jar并将其包含在flume/lib文件夹中。我在conf/flume-env.sh中将flume-sources-1.0-SNAPSHOT.jar的路径设置为FLUME_CLASSPATH。这是我的水槽代理conf文件:#settingpropertiesofagentTwitter-agent.sources=source1Twitter-agent.channels=channel1

时出流式 Twitter-agent Twitter java hadoop streaming flume

hadoop - Spark 流无法读取从 hdfs 中的水槽创建的文件

我创建了一个实时应用程序，在其中使用flume将数据流从weblogs写入hdfs，然后使用sparkstream处理该数据。但是当flume在hdfs中写入和创建新文件时，spark流无法处理这些文件。如果我使用put命令将文件放入hdfs目录，则sparkstream能够读取和处理文件。任何有关相同的帮助都会很棒。最佳答案您自己已经检测到问题:当数据流继续时，HDFS文件被“锁定”并且不能被任何其他进程读取。相反，正如您所经历的那样，如果您放入一批数据(这是您的文件，一批，而不是流)，一旦上传就可以读取了。无论如何，不是

水槽 hadoop section Spark 放入 apache-spark hdfs spark-streaming flume-ng

hadoop - 如何确定水槽拓扑方法？

我正在设置水槽，但非常不确定要为我们的用例继续使用什么拓扑。我们基本上有两个可以以每秒2000个条目的速度生成日志的Web服务器。每个条目的大小约为137字节。目前我们使用rsyslog(写入tcp端口)，php脚本将这些日志写入其中。我们在每个网络服务器上运行一个本地flume代理，这些本地代理监听一个tcp端口并将数据直接放在hdfs中。所以localhost:tcpport是“flumesource”，“hdfs”是flumesink。我不确定上述方法并且对三种方法感到困惑:方法一:每台机器上的Web服务器、RSyslog和FlumeAgent以及在hadoop集群的Nameno

水槽 hadoop 收集器 section strong hive flume

hadoop - 使用 Hive Sink 将水槽输出保存到 Hive 表

我正在尝试使用Hive配置flume，以将flume输出保存到HiveSink类型的hive表。我有单节点集群。我使用maprhadoop发行版。这是我的flume.confagent1.sources=source1agent1.channels=channel1agent1.sinks=sink1agent1.sources.source1.type=execagent1.sources.source1.command=cat/home/andrey/flume_test.dataagent1.sinks.sink1.type=hiveagent1.sinks.sink1.chan

水槽 Hive agent1 agent flume_test hadoop flume

csv - 使用水槽将 csv 文件传输到 hdfs，并将它们转换为 avro

并将水槽 hdfs dataSink dataSource csv hadoop avro flume bigdata

1 2 345 6