水槽

hadoop - 无法通过水槽从推特下载数据

bin/flume-ngagent-nTwitterAgent--conf./conf/-fconf/flume-twitter.conf-Dflume.root.logger=DEBUG,console当我运行上面的命令时，它会生成以下错误:2016-05-0613:33:31,357(TwitterStreamconsumer-1[Establishingconnection])[INFO-twitter4j.internal.logging.SLF4JLogger.info(SLF4JLogger.java:83)]404:TheURIrequestedisinvalidorth

水槽 hadoop TwitterAgent Twitter sources flume flume-ng flume-twitter

hadoop - 查询包含水槽流的外部表时出现 Hive 错误

在CDH5.4上，我正在尝试使用以下方法在Twitter分析上创建演示:用于将推文捕获到HDFS文件夹中的Flume使用Hive-Serde查询推文的Hive第一步成功。我可以看到正在捕获推文并将其正确定向到所需的HDFS文件夹。我观察到首先创建了一个临时文件，然后将其转换为永久文件:-rw-r--r--3roothadoop75482015-10-0606:39/user/flume/tweets/FlumeData.1444127932782-rw-r--r--3roothadoop100342015-10-0606:39/user/flume/tweets/FlumeData.1

时出水槽 string section hadoop twitter hive flume

hadoop - 使用内存 channel 增加水槽中的文件大小

下面是我的水槽配置文件。即使在更改rollInterval和rollSize之后，也只有10个事件被写入，控制台也显示rollCount=10和events=10。我还尝试将rollCount增加到1000，但输出没有变化。谁能建议增加用hdfs写入的文件大小。下面的conf文件有什么问题？#namingcomponentsNetAgent.sources=NetCat_1NetCat_2NetAgent.sinks=HDFSNetAgent.channels=MemChannelNetAgent.sources.NetCat_1.type=netcatNetAgent.sources

水槽 channel NetAgent sinks HDFS hadoop bigdata flume flume-ng

hadoop - 使用水槽如何仅以英语从推特流式传输推文？

我正在尝试流式传输关于死侍电影的英文推文并将其加载到我的hdfs。我将我的flume.conf配置为thisTwitterAgent.sources.Twitter.keywords=Deadpool但它会传输任何语言的所有推文，所以我如何只传输英语语言的推文？最佳答案看起来apachetwittersource和clouderatwittersource没有语言过滤。正如thispost中的建议您需要添加自己的推特源并运行以获得所需的结果。可以看看twitter官方客户端here

以英流式 section twitter strong hadoop flume

hadoop - 水槽+卡夫卡+HDFS : Split messages

我有以下flume代理配置来从kafka源读取消息并将它们写回HDFS接收器tier1.sources=source1tier1.channels=channel1tier1.sinks=sink1tier1.sources.source1.type=org.apache.flume.source.kafka.KafkaSourcetier1.sources.source1.zookeeperConnect=192.168.0.100:2181tier1.sources.source1.topic=testtier1.sources.source1.groupId=flumetier1

卡夫水槽 tier1 tier channel hadoop hdfs apache-kafka avro flume

regex - 使用水槽拦截器逐行过滤文件

我正在尝试配置一个从.csv或.xl3读取的水槽代理。文件示例:ClientAClientBStart-timeEnd-timeDurationStatus358625153695845216/01/201716/01/201710good324569882258369416/01/201716/01/201705good359684783698572416/01/201716/01/2017324569882258369416/01/201716/01/201701good我希望代理逐行过滤文件。如果Duration不为空，则事件将发送到hdfs/usr/admin/Good_Cal

拦截器水槽 section 2017 regex hadoop hadoop2 flume flume-ng

hadoop - 使用水槽将普通事件网站流式传输到 HDFS。有效率吗？

我们的组织有一个非常普通的活跃网站，每小时大约有1000次点击。我们计划将这些日志流式传输到HDFS/Hive。现在的问题是HDFS在处理较小文件时的效率。无论我们怎么看，每小时累积的文件大小都不会很大。Hadoop处理较大的文件时效率很高。是否建议将多个较小的文件加载到生产hadoop系统中？如果hdfs上堆满了各种小文件，会有什么影响？最佳答案在将文件滚动到新文件之前，您可以尝试添加到文件中的事件数量。如documentation中所述，这是通过HDFS接收器的类似滚动的参数完成的:hdfs.rollInterval30Nu

流式水槽 section hdfs hadoop hive flume

hadoop - 水槽代理抛出调试，可能是什么问题？

当我尝试运行flume代理时，我反复收到以下语句。除非我强行停止它连续显示的任务，否则可能是什么问题请帮帮我2013-05-2703:47:12,517(conf-file-poller-0)[DEBUG-org.apache.flume.conf.file.AbstractFileConfigurationProvider$FileWatcherRunnable.run(AbstractFileConfigurationProvider.java:188)]检查文件:/etc/flume-ng/conf![在此处输入图像描述][1]/loclog.conf进行更改2013-05-27

水槽 hadoop AbstractFileConfigurationProvider conf section flume

hadoop - 如何使用水槽从大型机文件中提取数据到hadoop HDFS

我正在使用clouderaCDH5，并且需要使用flume将数据从大型机文件提取到hadoophdfs。有人可以帮助我需要注意哪些步骤.. 最佳答案您确定需要Flume吗？Sqoop1.4.5现在有一个大型机连接器，可能更适合开箱即用。关于hadoop-如何使用水槽从大型机文件中提取数据到hadoopHDFS，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/26626052/

大型机 hadoop section 大型 apache-pig cloudera flume cloudera-cdh

java - 使用水槽反序列化Json文件并下沉到HDFS

我有一个所有json文件都存在的假脱机目录，传入的文件将每秒添加到此目录中，我必须反序列化传入的json文件并获取需要的字段并将其附加到HDFS目录中。我所做的是创建了一个flumeconf文件，其中将假脱机目录中的文件作为源，并使用1个Sink将json文件直接放入HDFS。我必须在Sink之前将这个json做成结构格式，然后放到HDFS中。最重要的是，它不是推特数据。而且我必须实现纯粹的Flume。我使用下面的水槽配置来完成工作:agent_slave_1.channels.fileChannel1_1.type=fileagent_slave_1.channels.fileCha

水槽下沉 agent_slave agent slave java json hadoop flume flume-ng

1 234 5 6