作业队

hadoop - 为什么 hadoop 对于一个简单的 hello world 作业来说很慢

我正在关注hadoop网站上的教程:https://hadoop.apache.org/docs/r3.1.2/hadoop-project-dist/hadoop-common/SingleCluster.html.我在伪分布式模式下运行以下示例。timehadoopjarhadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jargrepinputoutput'dfs[a-z.]+'完成需要1:47分钟。当我关闭网络(wifi)时，它会在大约50秒内完成。当我使用本地(独立)模式运行相同的命令时，它会在大约5秒内

hadoop - MapReduce 作业从不进入运行状态

我有一个正确的小jar文件，因为我在其他计算机上测试过它并且它可以与hadoop一起使用。现在我在我的电脑上安装了hadoop，当我提交作业时它永远不会通过接受状态。在浏览器中，我可以看到作业已被接受，但从未执行过。这是屏幕截图。我看到控制台中有一个警告:WARNmapreduce.JobResourceUploader:Hadoopcommand-lineoptionparsingnotperformed.ImplementtheToolinterfaceandexecuteyourapplicationwithToolRunnertoremedythis.完整的日志是:C:\Use

MapReduce 从不 2019 section hadoop

hadoop - 运行 Hadoop wordcount 示例时找不到作业 token 文件

我刚刚在一个小型集群上成功安装了Hadoop。现在我正在尝试运行wordcount示例，但出现此错误:****hdfs://localhost:54310/user/myname/test1112/04/2413:26:45INFOinput.FileInputFormat:Totalinputpathstoprocess:112/04/2413:26:45INFOmapred.JobClient:Runningjob:job_201204241257_000312/04/2413:26:46INFOmapred.JobClient:map0%reduce0%12/04/2413:26

wordcount hadoop java apache cluster-computing word-count

ruby - 您能否以编程方式轻松控制 Elastic Mapreduce 作业？

有一个用ruby编写的命令行客户端用作标准。但是，它不会在1.9中运行。还有一个非常好的rubyaws-sdk，但它不支持EMR。有更好的选择吗？最佳答案 2012年6月22日更新:亚马逊正在审查@nkadwa的拉取请求(见上文)。请留意这一点。我一直在使用Ruby命令行客户端，但我构建的许多基于Ruby/Rails的工具需要ruby1.9.3。我的解决方法是RVM.假设您有$HOME/projects/elastic-mapreduce，其中有EMRRuby客户端假设您还有$HOME/projects/myproj您

Mapreduce Elastic elastic-mapreduce section ruby hadoop elastic-map-reduce amazon-emr

hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

我一直致力于使用Mahout提供的SparseVectorsFromSequenceFiles、RowIdJob和RowSimilarityJobHadoop作业执行潜在语义分析，这些作业运行Map/减少工作。我一直在尝试为这些在内存中运行的功能寻找一个等效的实现，可以在单个线程中，也可以最好是在多个线程中。有这样的事情吗？最佳答案我不知道，我不这么认为，但写起来会很简单。您只需打开一个SequenceFile.Reader并针对每条记录，从值Writable中获取Vector并执行您想要的操作这可能是10行代码而不值得一个工具

SparseVectorsFromSequenceFiles RowSimilarityJob code section hadoop mahout semantic-analysis lsa latent-semantic-analysis

java - 仅报告 mapReduce 作业的映射器中的 k 个最低值

我正在编写一个mapReduce作业，它从一个巨大的数据集中找到与一个点的距离最短的k个对象。在我的映射器中，我只想报告与该数据block距离最短的k个对象。这样，对于每个数据block，我都有k个中间值(键，值)，其中键是距离，值是object_id。所以在我的reducer()中，我可以轻松地处理和汇总k个最低值。我想不出一种方法来只报告与我的映射器类中一个数据block的一个点的距离最短的k对象的中间键值对吗？我知道我可以返回该数据block中所有输入数据的(distance,obj_id)作为中间键值对，然后在我的reducer类中减少它并获得相同的结果。但是k感谢任何帮助谢谢

射器 mapReduce section 的 java hadoop report

hadoop - 作业完成后如何更改distributedCache的内容？

有没有办法在作业完成时更改与分布式缓存关联的文件的内容，并在随后的另一个映射/归约作业中用作新的分布式缓存？最佳答案检查TrackerDistributedCacheManager.java代码了解更多详情。Hadoop保留一个关于有多少任务正在使用DistributedCache中的文件的引用计数。如果计数降为0，则将文件标记为删除。因此，在作业结束时，DistributedCache中的文件会被清理，否则它们会在作业间继续堆积在节点上。因此，您不能更改分布式缓存中的文件并在连续作业中使用它。

distributedCache hadoop section mapreduce

java - 尝试在 Hadoop 中开始作业时出错

我一直在尝试将pagerank算法与hadoop一起使用，但我在作业初始化方面遇到了一些问题。当我尝试使用Job类进行初始化时，我在编译时遇到以下错误:线程“main”中的异常java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactory在org.apache.hadoop.mapreduce.Job.(Job.java:89)在Pagerank.main(Pagerank.java:244)代码如下:Jobjob;job=newJob();job.setJarByClass(Pagerank.class);//

时出 Hadoop class section job java configuration

java - 在 CDH4 示例上运行 map reduce 作业

我是CDH4和Hadoop的新手。我正在尝试运行wordcountexample并收到以下错误。你能纠正我并让我知道问题是什么吗:WordCount.java:25:interfaceexpectedherepublicstaticclassMapextendsMapReduceBaseimplementsMapper{^WordCount.java:39:interfaceexpectedherepublicstaticclassReduceextendsMapReduceBaseimplementsReducer{^WordCount.java:56:setMapperClass(

reduce java hadoop apache WordCount mapreduce

hadoop - Hadoop 中的并行 Map Reduce 作业

我必须在hadoop1.0.4中运行许多(也许12个)作业。我希望这五个首先并行运行，当所有完成后并行运行其他4个作业，最后再次运行最后3个并行运行。我如何在hadoop1.0.4中设置它，因为我看到所有作业都相互运行而不是并行运行。最佳答案 JobControlAPI可用于MR作业依赖。对于复杂的工作流程，Oozie或Azkaban被推荐。Here是OozievsAzkaban，关于hadoop-Hadoop中的并行MapReduce作业，我们在StackOverflow上找到一个

hadoop section noreferrer mapreduce

146 147 148149150 151 152