草庐IT

作业队

全部标签

hadoop - 为什么 hadoop 对于一个简单的 hello world 作业来说很慢

我正在关注hadoop网站上的教程:https://hadoop.apache.org/docs/r3.1.2/hadoop-project-dist/hadoop-common/SingleCluster.html.我在伪分布式模式下运行以下示例。timehadoopjarhadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jargrepinputoutput'dfs[a-z.]+'完成需要1:47分钟。当我关闭网络(wifi)时,它会在大约50秒内完成。当我使用本地(独立)模式运行相同的命令时,它会在大约5秒内

hadoop - MapReduce 作业从不进入运行状态

我有一个正确的小jar文件,因为我在其他计算机上测试过它并且它可以与hadoop一起使用。现在我在我的电脑上安装了hadoop,当我提交作业时它永远不会通过接受状态。在浏览器中,我可以看到作业已被接受,但从未执行过。这是屏幕截图。我看到控制台中有一个警告:WARNmapreduce.JobResourceUploader:Hadoopcommand-lineoptionparsingnotperformed.ImplementtheToolinterfaceandexecuteyourapplicationwithToolRunnertoremedythis.完整的日志是:C:\Use

hadoop - 运行 Hadoop wordcount 示例时找不到作业 token 文件

我刚刚在一个小型集群上成功安装了Hadoop。现在我正在尝试运行wordcount示例,但出现此错误:****hdfs://localhost:54310/user/myname/test1112/04/2413:26:45INFOinput.FileInputFormat:Totalinputpathstoprocess:112/04/2413:26:45INFOmapred.JobClient:Runningjob:job_201204241257_000312/04/2413:26:46INFOmapred.JobClient:map0%reduce0%12/04/2413:26

ruby - 您能否以编程方式轻松控制 Elastic Mapreduce 作业?

有一个用ruby​​编写的命令行客户端用作标准。但是,它不会在1.9中运行。还有一个非常好的ruby​​aws-sdk,但它不支持EMR。有更好的选择吗? 最佳答案 2012年6月22日更新:亚马逊正在审查@nkadwa的拉取请求(见上文)。请留意这一点。我一直在使用Ruby命令行客户端,但我构建的许多基于Ruby/Rails的工具需要ruby​​1.9.3。我的解决方法是RVM.假设您有$HOME/projects/elastic-mapreduce,其中有EMRRuby客户端假设您还有$HOME/projects/myproj您

hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

我一直致力于使用Mahout提供的SparseVectorsFromSequenceFiles、RowIdJob和RowSimilarityJobHadoop作业执行潜在语义分析,这些作业运行Map/减少工作。我一直在尝试为这些在内存中运行的功能寻找一个等效的实现,可以在单个线程中,也可以最好是在多个线程中。有这样的事情吗? 最佳答案 我不知道,我不这么认为,但写起来会很简单。您只需打开一个SequenceFile.Reader并针对每条记录,从值Writable中获取Vector并执行您想要的操作这可能是10行代码而不值得一个工具

java - 仅报告 mapReduce 作业的映射器中的 k 个最低值

我正在编写一个mapReduce作业,它从一个巨大的数据集中找到与一个点的距离最短的k个对象。在我的映射器中,我只想报告与该数据block距离最短的k个对象。这样,对于每个数据block,我都有k个中间值(键,值),其中键是距离,值是object_id。所以在我的reducer()中,我可以轻松地处理和汇总k个最低值。我想不出一种方法来只报告与我的映射器类中一个数据block的一个点的距离最短的k对象的中间键值对吗?我知道我可以返回该数据block中所有输入数据的(distance,obj_id)作为中间键值对,然后在我的reducer类中减少它并获得相同的结果。但是k感谢任何帮助谢谢

hadoop - 作业完成后如何更改distributedCache的内容?

有没有办法在作业完成时更改与分布式缓存关联的文件的内容,并在随后的另一个映射/归约作业中用作新的分布式缓存? 最佳答案 检查TrackerDistributedCacheManager.java代码了解更多详情。Hadoop保留一个关于有多少任务正在使用DistributedCache中的文件的引用计数。如果计数降为0,则将文件标记为删除。因此,在作业结束时,DistributedCache中的文件会被清理,否则它们会在作业间继续堆积在节点上。因此,您不能更改分布式缓存中的文件并在连续作业中使用它。

java - 尝试在 Hadoop 中开始作业时出错

我一直在尝试将pagerank算法与hadoop一起使用,但我在作业初始化方面遇到了一些问题。当我尝试使用Job类进行初始化时,我在编译时遇到以下错误:线程“main”中的异常java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactory在org.apache.hadoop.mapreduce.Job.(Job.java:89)在Pagerank.main(Pagerank.java:244)代码如下:Jobjob;job=newJob();job.setJarByClass(Pagerank.class);//

java - 在 CDH4 示例上运行 map reduce 作业

我是CDH4和Hadoop的新手。我正在尝试运行wordcountexample并收到以下错误。你能纠正我并让我知道问题是什么吗:WordCount.java:25:interfaceexpectedherepublicstaticclassMapextendsMapReduceBaseimplementsMapper{^WordCount.java:39:interfaceexpectedherepublicstaticclassReduceextendsMapReduceBaseimplementsReducer{^WordCount.java:56:setMapperClass(

hadoop - Hadoop 中的并行 Map Reduce 作业

我必须在hadoop1.0.4中运行许多(也许12个)作业。我希望这五个首先并行运行,当所有完成后并行运行其他4个作业,最后再次运行最后3个并行运行。我如何在hadoop1.0.4中设置它,因为我看到所有作业都相互运行而不是并行运行。 最佳答案 JobControlAPI可用于MR作业依赖。对于复杂的工作流程,Oozie或Azkaban被推荐。Here是OozievsAzkaban, 关于hadoop-Hadoop中的并行MapReduce作业,我们在StackOverflow上找到一个