草庐IT

widget-twitter

全部标签

apache - 如何配置 Apache Flume 1.4.0 从 Twitter 获取数据并放入 HDFS(Apache Hadoop 2.5 版)?

我使用的是Ubuntu14.04我的配置文件如下:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent.sources.Twitter.channels=MemChannelTwitterAgent.sources.Twitter.consumerKey=Q5JF4gVmrahNk93C913GjgJgBT

Spring-xd 不会在 HDFS 上写入来自 Twitter 的流

我正在写我的期末论文,但我对Spring-xd有疑问:我从我的xd-shell运行:streamcreate--namecyrustweets--definition"twitterstream--track='mileycyrus,mileycyrus'|log"--deploy而且它有效。我的xd-singlenode向我显示推文。但是当我尝试在HDFS上写入时:streamcreate--namecyrustweets--definition"twitterstream--track='mileycyrus,mileycyrus'|hdfs"--deployxd-singleno

json - 从 Twitter JSON 文件中提取列名

我正在尝试使用hadoop分析Twitter数据。我根据之前的推文创建了一个配置单元表。现在我又下载了推特数据,问题是推文中出现了新的列,而以前的推文数据中没有。我的问题是,有什么方法可以找到推文的最大列数,以便为它创建一个配置单元表。到目前为止无助请帮助谢谢 最佳答案 我不知道获取推文包含的所有列我认为你应该使用像AVRO这样在内部存储元数据的存储格式并相应地更新模式,这样你就可以支持动态模式 关于json-从TwitterJSON文件中提取列名,我们在StackOverflow上找到

twitter-bootstrap - 大数据的最佳实践?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion根据您的经验,我有以下大数据系统:我们的主要目标是分析数十亿条每日推文,并在我们的门户网站上向决策者展示它们。图形的类型包括条形图、柱形图、网络图。到目前为止我们的系统是这样的:Cloudera平台(CDH)仅用于将数据存储在HDFS中用于从GNIP流式传输推文的ApacheFlumeElasticsearch和php开发图表我想知道在大数据上产生在线可视化和离线可视

hadoop - Flume 不接受 Twitter 流的关键字

这里是Hadoop新手,使用本教程:https://acadgild.com/blog/streaming-twitter-data-using-flume/捕捉推文。这是我的flume.conf文件:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=org.apache.flume.source.twitter.TwitterSourceTwitterAgent.sources.Twitter.cons

hadoop - Apache Flume 连接到 twitter API 401 :Authentication credentials

我正在尝试使用ApacheFlume将推文保存到我的HDFS。我目前正在将Cloudera图像与Hadoop和Flume一起使用。我正在按照Cloudera博客中的教程进行操作,但无法连接到TwitterAPI。我收到以下错误:2014-03-1409:43:14,021INFOorg.apache.flume.node.Application:Waitingforchannel:MemChanneltostart.Sleepingfor500ms2014-03-1409:43:14,069INFOorg.apache.flume.instrumentation.MonitoredCo

java - 使用 mapreduce : Java, Pig 解析 twitter json

我敢肯定您可能会发现这个问题有些“重复”,但我敢肯定我在发布相同问题之前已经完成了研究。我也为在此处的一个线程中发布Java和Pig问题而道歉,但只是不想为同一问题创建另一个线程。我得到了一个包含一些Twitter摘录的json文件。我也在尝试使用javaMR&Pig执行解析,但遇到了问题。下面是我尝试编写的Java代码:publicclasstwitterDataStore{privatestaticfinalObjectMappermapper=newObjectMapper();publicstaticabstractclassMapextendsMapReduceBaseimp

hadoop - pig :Twitter Sentiment Analysis

我正在尝试实现Twitter情绪分析。我需要获取所有正面推文和负面推文并将它们存储在特定的文本文件中。示例.json{"id":252479809098223616,"created_at":"WedApr1208:23:20+00002016","text":"googleisagoodcompany","user_id":450990391}{"id":252479809098223616,"created_at":"WedApr1208:23:20+00002016","text":"facebookisabadcompany","user_id":450990391}dicti

twitter - 如何在 HDFS 中存储推文?

如何在HDFS中存储特定网站的推文?假设一个网站www.abcd.com,我想收集该网站所有用户的推文并存储到HDFS或Hive中。Flume和sqoop也有助于存储数据。所以有人请告诉我flume和sqoop如何在HDFS中存储推文? 最佳答案 Sqoop不是为此目的而制作的。Flume就是用来满足这些需求的。您可以编写您的自定义Flume源代码,它将提取推文并将它们转储到您的HDFS中。参见this例如。它展示了如何使用Flume从TwitterStreamingAPI收集数据,并将其转发到HDFS。您可以在officialdo

hadoop - Flume - Twitter源语言过滤器

在以下情况下,我想请求您的帮助。我目前正在使用ClouderaCDH5.1.2,我尝试使用Flume收集Twitter数据,如下面的端口(Cloudera)中所述:http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/github.com/cloudera/cdh-twitter-example在更新pom.xml中的版本后,我下载了源代码并重建了flume-sources:1.5.0-cdh5.1.22.3.0-cdh5.1.2