草庐IT

$Twitter

全部标签

hadoop - pig :Twitter Sentiment Analysis

我正在尝试实现Twitter情绪分析。我需要获取所有正面推文和负面推文并将它们存储在特定的文本文件中。示例.json{"id":252479809098223616,"created_at":"WedApr1208:23:20+00002016","text":"googleisagoodcompany","user_id":450990391}{"id":252479809098223616,"created_at":"WedApr1208:23:20+00002016","text":"facebookisabadcompany","user_id":450990391}dicti

twitter - 如何在 HDFS 中存储推文?

如何在HDFS中存储特定网站的推文?假设一个网站www.abcd.com,我想收集该网站所有用户的推文并存储到HDFS或Hive中。Flume和sqoop也有助于存储数据。所以有人请告诉我flume和sqoop如何在HDFS中存储推文? 最佳答案 Sqoop不是为此目的而制作的。Flume就是用来满足这些需求的。您可以编写您的自定义Flume源代码,它将提取推文并将它们转储到您的HDFS中。参见this例如。它展示了如何使用Flume从TwitterStreamingAPI收集数据,并将其转发到HDFS。您可以在officialdo

hadoop - Flume - Twitter源语言过滤器

在以下情况下,我想请求您的帮助。我目前正在使用ClouderaCDH5.1.2,我尝试使用Flume收集Twitter数据,如下面的端口(Cloudera)中所述:http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/github.com/cloudera/cdh-twitter-example在更新pom.xml中的版本后,我下载了源代码并重建了flume-sources:1.5.0-cdh5.1.22.3.0-cdh5.1.2

apache - 运行 flume agent 获取 Twitter 数据

我一直在尝试在我的Windows系统上运行一个flume代理来获取Twitter数据。我正在关注这个博客https://acadgild.com/blog/streaming-twitter-data-using-flume但是,每当我尝试运行flume代理时,我都会收到以下错误-flume-ngagent-nTwitterAgent-f./conf/flume.confE:\apache-flume-1.7.0-bin\apache-flume-1.7.0-bin\bin>powershell.exe-NoProfile-InputFormatnone-ExecutionPolicy

hadoop - 如何在 Hadoop 中使用 Twitter 搜索 API?

我是Hadoop新手。我最近学习了很多关于hadoop的知识。我已成功使用StreamingAPI并将推特数据导入HDFS。现在我正在尝试使用搜索API,这样我就可以获得历史推文,但我无法在网上找到任何示例。StreamingApi有很多示例,但找不到SearchAPI的示例。 最佳答案 您没有提到编程语言,所以我假设您将使用Java。Twitter4j推荐库,它的文档有一些搜索示例,例如:publicclassSearchTweets{/***Usage:javatwitter4j.examples.search.SearchTw

linux - 异常(exception)如下。 org.apache.flume.FlumeException : Unable to load source type in flume twitter analysis 异常

我正在尝试使用Flume和Hive进行Twitter分析。为了从twitter获取推文,我在flume.conf文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken和accessTokenSecret)。TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent

json - Apache pig/Twitter 象鸟 Json 解析器 ClassCastException

我正在尝试使用Pig和Twitter的elephant-bird库解析一个相当简单的json文件,但它变成了一个非常痛苦的调试过程。json的结构如下:oid_id:(oid:chararray),bookmarks:{(oid_id:(oid:chararray),id:chararray,creator:chararray,position:chararray,creationdate:($ate:chararray))},lastaction:(date:chararray),settings:(preferredlanguage:chararray),userid:charar

json - 使用 flume 从 twitter 检索数据并以 JSON 格式存储到 hdfs

我正在尝试使用flume从Twitter检索数据并以JSON格式存储到hdfs。数据正在加载到HDFS。但不是JSON格式。我附上从Twitter存储的HDFS文件中的几行:Objavro.schema\E4{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name"

twitter - 如何在 Pig 中使用 rcfilepigstorage

我想将一个文本文件加载到pig中,然后将其存储为rc文件,为此我发现twitter在这个链接中提供了一个存储udfhttp://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java谁能告诉我如何编译它并在我的pig代码中使用它? 最佳答案 包括所有twitter依赖项和pigjars并编译R

hadoop - 无法将 twitter avro 数据正确加载到配置单元表中

需要你的帮助!我正在尝试一个简单的练习,即从Twitter获取数据,然后将其加载到Hive中进行分析。尽管我能够使用水槽(使用Twitter1%firehoseSource)将数据导入HDFS,并且还能够将数据加载到Hive表中。但是无法看到我期望在Twitter数据中出现的所有列,例如user_location、user_description、user_friends_count、user_description、user_statuses_count。从Avro派生的架构仅包含两列标题和正文。以下是我完成的步骤:1)使用以下配置创建一个水槽代理:a1.sources=r1a1.s