井下作业

ubuntu - Hadoop Yarn 作业跟踪器未启动

前言:我有一个网络应用程序的问题，该应用程序是由一名已离职的员工开发的。由于几乎没有关于可用实现的文档，我不确定从哪里获得更多关于该问题的信息，因此提出了这个问题。我试图找到与此问题(Hadooppseudodistributedmode-Datanodeandtasktrackernotstarting)类似的问题的解决方案。但是，由于我对hadoop的经验很少，所以我无法确定我需要修复什么才能让应用程序正常工作。场景:应用程序分为两部分:有一个运行应用程序的Tomcat服务器处理用户输入并提供mapreduce的结果作业(localhost:8080/WebApp)。localho

sorting - 在具有 "X"个映射器和 "Y"个缩减器的大型 MapReduce 作业中，排序/洗牌阶段将有多少个不同的复制操作

据我了解会有X+Y个复制操作，不对请指正谢谢最佳答案在最坏的情况下，每个reducer可能会从所有映射器中获取记录，假设它的键在所有可用的映射器中都存在。在最坏的情况下，这将为一个reducer提供X个副本。这将导致XY操作而不是X+Y。关于sorting-在具有"X"个映射器和"Y"个缩减器的大型MapReduce作业中，排序/洗牌阶段将有多少个不同的复制操作，我们在StackOverflow上找到一个类似的问题： https://stackoverf

射器 amp section stackoverflow sorting hadoop mapreduce hdfs

Hadoop:如何在同一个作业中输出不同的格式类型？ (第二部分)

我想使用MultipleOutputs在同一个reducer中写入压缩和未压缩的文件，但它似乎是全有或全无。如果我这样做:MultipleOutputs.addNamedOutput(job,"ToGzip",TextOutputFormat.class,NullWritable.class,Text.class);TextOutputFormat.setCompressOutput(job,true);TextOutputFormat.setOutputCompressorClass(job,GzipCodec.class);它将压缩所有内容，而不仅仅是我想要的文件。如果你看这个非常

何在 Hadoop section TextOutputFormat class

hadoop - M/R 作业提交失败，错误为 : Could not find Yarn tags property > (mapreduce. job.tags)

我在运行map/reduce作业时遇到以下异常。我们通过oozie提交map/reduce作业。FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.JavaMain],main()threwexception,CouldnotfindYarntagsproperty(mapreduce.job.tags)java.lang.RuntimeException:CouldnotfindYarntagsproperty(mapreduce.job.tags)atorg.apache.oozie.action.hadoop

tags mapreduce java hadoop apache cloudera oozie cloudera-cdh

hadoop - Giraph 作业始终以本地模式运行

我在Hadoop2.6.0上运行Giraph1.1.0。mapredsite.xml看起来像这样mapreduce.framework.nameyarnTheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.mapreduce.map.memory.mb4096mapreduce.reduce.memory.mb8192mapreduce.map.java.opts-Xmx3072mmapreduce.reduce.java.opts-Xmx6144mmapred.tasktracker.ma

hadoop Giraph lt gt property mapreduce illegalargumentexception

hadoop - 如何将 Hadoop MapReduce 作业的输出作为值/键而不是键/值返回？

例如，典型的WordCountmapreduce可能会返回如下输出:hello3world4again1我想对输出进行稍微不同的格式化，以便它显示为:3hello4world1again我读过很多想要按值排序的帖子，答案建议在第一个输出上进行第二个mapreduce作业。但是，我不需要按值排序，并且多个键可能具有相同的值——我不希望将它们混为一谈。有没有一种简单的方法可以简单地切换键/值的打印顺序？看起来应该很简单。最佳答案按难易程度顺序考虑的两个选项是:在Reduce中切换Key/Value修改reduce的输出以切换键和值。

MapReduce hadoop IntWritable code

Hadoop - 有没有办法在作业之间共享自定义计数器？

我正在运行一个MapReduce工作流，该工作流当前包含2个链式MR任务。在第一个任务中，映射器写入自定义计数器。我希望在第二个任务中的reducer的setup()方法中读取这个计数器的值。当我在第二个任务中尝试读取计数器的值时，我得到了0的值。为清楚起见，每个任务都有自己的驱动程序代码，有自己的Configuration和Job。计数器在主驱动程序类中定义为staticenum，它负责链接任务(并启动EMR集群，而不是在单节点集群设置中本地运行工作流).我正在使用Hadoop2.7.3和Java8。最佳答案我看到至少3个选项

自定 Hadoop section code

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0，运行在3个节点上，Kerberos版本是1.10.1。现在，我面临一个问题，希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

MapReduce Kerberos code section 34 hadoop hbase cloudera-cdh

amazon-web-services - 我可以像在本地集群上一样在 EMR 上运行作业吗

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。我在哪里运行不同的mapreduce命令，例如hadoop-streaming-Dmapred.output.compress=true\-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec\-filesmy_mapper.py,my_reducer.py\-mappermy_mapper.py\-reducermy_reducer.py\-input/aws/input/input_warc.txt\-output/aws/output现

amazon-web-services services section aws output hadoop emr amazon-emr

hadoop - 为什么 mapreduce 作业指向本地主机 :8080?

我正在处理MapReduce作业并使用ToolRunner的运行方法执行它。这是我的代码:publicclassMaxTemperatureextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{System.setProperty("hadoop.home.dir","/");intexitCode=ToolRunner.run(newMaxTemperature(),args);System.exit(exitCode);}@Overridepublicintrun(Stri

mapreduce hadoop job 1454583076 java-8 bigdata

31 32 333435 36 37