草庐IT

twitter-feed

全部标签

hadoop - Flume - Twitter源语言过滤器

在以下情况下,我想请求您的帮助。我目前正在使用ClouderaCDH5.1.2,我尝试使用Flume收集Twitter数据,如下面的端口(Cloudera)中所述:http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/github.com/cloudera/cdh-twitter-example在更新pom.xml中的版本后,我下载了源代码并重建了flume-sources:1.5.0-cdh5.1.22.3.0-cdh5.1.2

apache - 运行 flume agent 获取 Twitter 数据

我一直在尝试在我的Windows系统上运行一个flume代理来获取Twitter数据。我正在关注这个博客https://acadgild.com/blog/streaming-twitter-data-using-flume但是,每当我尝试运行flume代理时,我都会收到以下错误-flume-ngagent-nTwitterAgent-f./conf/flume.confE:\apache-flume-1.7.0-bin\apache-flume-1.7.0-bin\bin>powershell.exe-NoProfile-InputFormatnone-ExecutionPolicy

hadoop - 如何在 Hadoop 中使用 Twitter 搜索 API?

我是Hadoop新手。我最近学习了很多关于hadoop的知识。我已成功使用StreamingAPI并将推特数据导入HDFS。现在我正在尝试使用搜索API,这样我就可以获得历史推文,但我无法在网上找到任何示例。StreamingApi有很多示例,但找不到SearchAPI的示例。 最佳答案 您没有提到编程语言,所以我假设您将使用Java。Twitter4j推荐库,它的文档有一些搜索示例,例如:publicclassSearchTweets{/***Usage:javatwitter4j.examples.search.SearchTw

linux - 异常(exception)如下。 org.apache.flume.FlumeException : Unable to load source type in flume twitter analysis 异常

我正在尝试使用Flume和Hive进行Twitter分析。为了从twitter获取推文,我在flume.conf文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken和accessTokenSecret)。TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent

json - Apache pig/Twitter 象鸟 Json 解析器 ClassCastException

我正在尝试使用Pig和Twitter的elephant-bird库解析一个相当简单的json文件,但它变成了一个非常痛苦的调试过程。json的结构如下:oid_id:(oid:chararray),bookmarks:{(oid_id:(oid:chararray),id:chararray,creator:chararray,position:chararray,creationdate:($ate:chararray))},lastaction:(date:chararray),settings:(preferredlanguage:chararray),userid:charar

json - 使用 flume 从 twitter 检索数据并以 JSON 格式存储到 hdfs

我正在尝试使用flume从Twitter检索数据并以JSON格式存储到hdfs。数据正在加载到HDFS。但不是JSON格式。我附上从Twitter存储的HDFS文件中的几行:Objavro.schema\E4{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name"

twitter - 如何在 Pig 中使用 rcfilepigstorage

我想将一个文本文件加载到pig中,然后将其存储为rc文件,为此我发现twitter在这个链接中提供了一个存储udfhttp://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java谁能告诉我如何编译它并在我的pig代码中使用它? 最佳答案 包括所有twitter依赖项和pigjars并编译R

hadoop - 无法将 twitter avro 数据正确加载到配置单元表中

需要你的帮助!我正在尝试一个简单的练习,即从Twitter获取数据,然后将其加载到Hive中进行分析。尽管我能够使用水槽(使用Twitter1%firehoseSource)将数据导入HDFS,并且还能够将数据加载到Hive表中。但是无法看到我期望在Twitter数据中出现的所有列,例如user_location、user_description、user_friends_count、user_description、user_statuses_count。从Avro派生的架构仅包含两列标题和正文。以下是我完成的步骤:1)使用以下配置创建一个水槽代理:a1.sources=r1a1.s

hadoop - Twitter Storm 对比 Apache Hadoop

如果有人能向我解释TwitterStorm和ApacheHadoop之间的架构差异,那就太好了?我正在寻找一些超越实时与批处理的内部结构。由于这两种技术在为Storm编写拓扑或在Hadoop上进行map-reduce方面非常相似,在Hadoop的任务跟踪器/作业跟踪器和Storm的等效nimbus/supervisor方面,在Hadoop分区和等效洗牌(随机)方面,字段等)在Storm等上(如果我说Storm在内部使用消息队列在spouts/bolt之间传输数据,这与Hadoop的情况不完全一样,在Hadoop中创建中间文件并因此创建I/O,我是否正确?涉及。)编辑:我已经完成了问题A

php - RSS-Feed 返回一个空字符串

我有一个显示RSS源项目的新闻门户。阅读了大约50个来源,效果很好。只有在有源的情况下,我总是得到一个空字符串。W3C的RSSValidator可以读取RSS提要。甚至我的程序Vienna也接收数据。我能做什么?这是我的简单代码:$link='http://blog.bosch-si.com/feed/';$response=file_get_contents($link);if($response!==false){var_dump($response);}else{echo'Error';} 最佳答案 提供该提要的服务器需要设置