草庐IT

TwitterAgent

全部标签

java - Flume Twitter Agent 生成的 Avro 文本文件未在 Java 中读取

无法使用Flume推特代理读取和解析流推特数据创建的文件,既不使用Java也不使用Avro工具。我的需求是将avro格式转换成JSON格式。当使用任何一种方法时,我得到异常:org.apache.avro.AvroRuntimeException:java.io.IOException:Blocksizeinvalidortoolargeforthisimplementation:-40我在伪节点集群中使用Hadoopvanilla配置,hadoop版本是2.7.1Flume版本为1.6.0twitter代理的flume配置文件和解析avro文件的java代码附在下面:TwitterA

hadoop - 我没有收到来自 Twitter 的推文

我尝试在HDFS中通过Flume流式传输推文,但我没有从twitter获取推文。该过程在下面提到的这一点停止....!!除了这一步什么都没有。INFOinstrumentation.MonitoredCounterGroup:Monitoriedcountergroupfortype:SINK,name:HDFS,registeredsuccessfully.INFOinstrumentation.MonitoredCounterGroup:Componenttype:SINK,name:HDFSstarted我的flume.conf文件:TwitterAgent.sources=Tw

hadoop - 如何通过水槽将 Twitter 数据通过代理提供给 hdfs?

我已经安装了flume并且正在尝试将Twitter数据输入到hdfs文件夹中。我的flume.conf文件如下所示:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent.sources.Twitter.channels=MemChannelTwitterAgent.sources.Twitter.consu

使用 Flume/Hadoop 时 Ubuntu 中的 Java 内存不足异常

当我尝试使用Flume下载推文并将它们通过管道传输到Hadoop时,由于缺少Java堆空间,我遇到了内存不足异常。我在Hadoop的mapred-site.xml中设置了当前堆空间为4GB,如下所示:mapred.child.java.opts-Xmx4096m我希望连续两天下载推文,但不能超过45分钟而不会出错。因为我确实有足够的磁盘空间来保存所有这些,所以我假设错误来自Java必须同时处理这么多事情。有没有办法让我减慢这些推文的下载速度,或者采取其他措施来解决这个问题?编辑:包括flume.confTwitterAgent.sources=TwitterTwitterAgent.c

java - 如何从 java 代码启动 Flume 代理

我在centos6.5中使用hadoop1.2.1稳定版并使用apacheflume1.x我正在运行flume代理并在hdfs中收集推文我的flume.conf是TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent.sources.Twitter.channels=MemChannelTwitterAgen