草庐IT

json - 如何使用 hadoop map-reduce 和 es-hadoop 将 json 索引到 elasticsearch?

我在HDFS中存储了大量数据,我们希望将其索引到Elasticsearch中。琐碎的想法是使用Elasticsearch-hadoop库。我遵循了thisvideo中的概念,这是我为这项工作编写的代码。publicclassTestOneFileJobextendsConfiguredimplementsTool{publicstaticclassTokenizerextendsMapReduceBaseimplementsMapper{privatefinalMapWritablemap=newMapWritable();privatefinalTextkey=newText("te

hadoop - 如何通过水槽将 Twitter 数据通过代理提供给 hdfs?

我已经安装了flume并且正在尝试将Twitter数据输入到hdfs文件夹中。我的flume.conf文件如下所示:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent.sources.Twitter.channels=MemChannelTwitterAgent.sources.Twitter.consu

hadoop - 是否有适用于 Hadoop 的 NLP API 或实用程序?

我正在从事基于大型panic文本的分析。更准确地说,我正在对特定产品的Twitter数据进行情绪分析。我正在使用Flume在HDFS中提取Twitter数据。是否有任何NLPAPI或实用程序我可以在这些推特上应用以从中获得正确和有意义的情绪?我正在寻找可以在Hadoop系统中使用的NLPAPI或实用程序。 最佳答案 两种可能的解决方案是:整合nltk与Hadoop。一些资源:http://strataconf.com/stratany2013/public/schedule/detail/30806,http://www.datac

hadoop - 创建hive表加载推特数据报错

我正在尝试创建外部表并将Twitter数据加载到表中。创建表时出现以下错误,无法跟踪错误。hive>ADDJAR/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar>;Added[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]toclasspathAddedresources:[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]hive>CREATEEXTERNALTABLEtweets(>idBIGINT,>created_atSTRING,

algorithm - 运行趋势或无趋势 Twitter 谣言项目

我正在学习算法“热门话题”,我阅读了StanislavNikolov的文章,趋势或无趋势:一种用于对时间序列进行分类的新型非参数方法。我尝试在here中下载他的项目.当我尝试运行时,出现错误:hduser@master:~/rumor$./test_detection.pyTraceback(mostrecentcalllast):File"./test_detection.py",line6,ints_viral=rumor.parsing.parse_timeseries('data/'+sys.argv[1])IndexError:listindexoutofrange我打算在H

使用 Flume/Hadoop 时 Ubuntu 中的 Java 内存不足异常

当我尝试使用Flume下载推文并将它们通过管道传输到Hadoop时,由于缺少Java堆空间,我遇到了内存不足异常。我在Hadoop的mapred-site.xml中设置了当前堆空间为4GB,如下所示:mapred.child.java.opts-Xmx4096m我希望连续两天下载推文,但不能超过45分钟而不会出错。因为我确实有足够的磁盘空间来保存所有这些,所以我假设错误来自Java必须同时处理这么多事情。有没有办法让我减慢这些推文的下载速度,或者采取其他措施来解决这个问题?编辑:包括flume.confTwitterAgent.sources=TwitterTwitterAgent.c

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre

scala - Scalding 示例 WordCount 本地模式

我正在尝试运行Scalding示例字数统计示例。我已按照此github链接执行步骤:-https://github.com/twitter/scalding/wiki/Getting-Started但是我遇到了ClassNotFoundException。下面是我的StackTrace:-[cloudera@localhostscalding-develop]$**sudoscripts/scald.rb--localWordCount--inputinput.txt--output./someOutputFile.tsv**cannotfind/root/.sbt/boot/scal

facebook - 推特(社交网络)数据集

我正在为我的项目寻找Twitter或其他社交网站数据集。我目前有CAW2.0twitter数据集,但它只包含用户的推文。我想要一个显示friend、关注者等数量的数据。它不一定是推特,但我更喜欢推特或Facebook。我已经尝试过infochimps,但显然该文件无法再用于Twitter下载。谁能给我找到这类数据集的好网站。我将把数据集提供给hadoop。 最佳答案 尝试以下三个数据集:包含大约9700万条推文:http://demeter.inf.ed.ac.uk/index.php?option=com_content&view

php - Twitter Search API 多个哈希标签或用户

我正在尝试为一个用户、多个用户、一个主题标签、多个主题标签或它们的任意组合查询Twitter搜索API。我在语法上苦苦挣扎。多用户(WORKS)?q=from:user1ORfrom:user2ORfromuser3单个标签(WORKS)?q=with:#hashtag组合(损坏)?q=from:user1ORfrom:user2ORwith:#hash1ORwith:hash2//returnsmostrecenttweetsandignoresmyqueryaltogether.Noerror我不想查询特定用户的特定主题标签。我想要一个/或结果。如果我使用以下语法,它会起作用,但它