mapr

hadoop - pig 忽略 maxReducers 并使用 mapred.reduce.tasks 代替

我的pig脚本生成了大约5个MR作业。当它开始执行时，pig打印:BytesPerReducer=1000000000maxReducers=999并继续创建一个只有一个reducer的MR作业:NeitherPARALLELnordefaultparallelismissetforthisjob.Settingnumberofreducersto1但是，对于从同一脚本生成的后续作业，它不会打印此行，并且在其中一个中创建mapred.reduce.tasksreducers，在我的集群中是4992.这是一个已知错误吗？或者我在这里遗漏了什么？最佳答案

Hadoop on CentOS streaming example with python - permission denied on/mapred/local/taskTracker

我已经能够使用python映射器和缩减器设置流式示例。mapred文件夹位置是/mapred/local/taskTrackerroot和mapred用户都拥有此文件夹和子文件夹的所有权然而，当我运行我的流式传输时，它会创建map但不会减少并给出以下错误无法运行程序/mapred/local/taskTracker/root/jobcache/job_201303071607_0035/attempt_201303071607_0035_m_000001_3/work/./mapper1.py权限被拒绝我注意到，虽然它为mapred/local/taskTracker及其所有子目录提供

taskTracker permission code section mapred hadoop hadoop-streaming

java - mapred-site.xml 未覆盖 mapred-default.xml 中的参数

我正在使用Hadoop版本0.20.2(Cloudera发行版cdh3u6)并发现问题。据我了解，如果我在/etc/hadoop/conf/mapred-site.xml中设置一个值，它应该自动覆盖Hadoop默认值。所以我设置了一个变量如下:mapred.child.java.opts-Xmx1024m但是，这没有任何效果。现在，我知道hadoop正在读取该文件，因为如果我将变量设置为final(true)，则该设置确实适用于我的工作。但是，据我了解，这不是必需的，因为mapred-site.xml应该在mapred-default.xml之后加载所以它应该简单地覆盖它。您可能会问，

mapred mapred-default code mapred-site java hadoop configuration

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir？

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业？最佳答案您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下，它不能被覆盖。关于had

mapred mapred-site section hadoop hive

hadoop - Hue 不想为用户创建主目录 - MapR

我使用MapR，我想从LDAP创建用户。我可以创建我的用户，但Hue不想创建关联文件夹，我收到此消息:“获取当前用户的用户信息时出错，***(错误500)”我尝试使用本地用户，但这是同样的问题...我只有mapr用户，当我手动创建文件夹时没问题，但是当我想更改组或所有者时，我收到此消息:“无法为路径/user/test设置所有者/组mapr/默认值(错误500)”我不明白为什么我有这些问题....请帮帮我。谢谢。编辑:我有一些消息，我用MapRSandbox测试过，我遇到了同样的问题。使用Cloudera或Hortonworks的Hue可以正常工作，当我使用Hue创建用户时，会自动创建

hadoop MapR section strong 所有者 hdfs hue

hadoop - CDH5 上的启动/停止 hadoop hdfs/mapred 脚本在哪里

CDH4的文档引用了/etc/init.d/hadoop-*脚本，但这些在CDH5中不再存在。我已经仔细阅读了文档，但未能成功找到/理解什么是CDH5等价物。我能找到的最接近的是SCM经理:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM5/latest/Cloudera-Manager-Administration-Guide/cm5ag_agents.html将不胜感激新流程(/es)的指针和解释。最佳答案我在Cloudera用户的邮件列表上收

hadoop mapred project cloudera cloudera-manager cloudera-cdh

java - 如果 mapred.job.reuse.jvm.num.tasks 设置为 -1，则 hadoop 集群中每个节点启动了多少个 jvm

我最近看到了hadoop的mapred.job.reuse.jvm.num.tasks属性。默认情况下，它设置为+1，这意味着每个map/reduce任务都会启动一个新的JVM。相反，如果它设置为-1，那么一个jvm可以被无限数量的任务使用。在这种情况下，任务依次执行以使用相同的JVM。因此，当该属性设置为+1时，每个节点启动的JVM数量等于任务数量。没有混淆....但是，我的具体问题是，如果我将mapred.job.reuse.jvm.num.tasks设置为-1，每个节点将启动多少个JVM。每个节点只有一个JVM吗？还是别的？最佳答案

jvm hadoop section java

java - Oozie > Java 操作 > 为什么属性 oozie.launcher.mapred.child.java.opts 不起作用

我正在使用Java操作开发Oozie。Java操作应使用Java选项-Xmx15g。因此，我将属性oozie.mapreduce.map.memory.mb设置为25600(25G)，以防需要一些额外的内存。在这个简单的设置之后，我运行了Oozie作业，然后在Java运行时当然出现了OutofMemory(堆空间不足)错误。因此，我根据链接在Java操作的属性节点中相应地将oozie.launcher.mapred.child.java.opts设置为-Xmx15g:http://downright-amazed.blogspot.fi/2012/02/configure-oozies

java amp gt lt launcher hadoop mapreduce oozie

java - Oozie 作业失败 Mapr 6.x

我正尝试在yarn-client模式下向oozie提交一个spark作业。当我在oozie之外运行spark作业时，它运行良好。但是当我提交oozie作业时，它一直失败并出现以下错误:Exceptioninthread"main"java.lang.IllegalStateException:basedirjob.jar/libdoesnotexist.atorg.apache.tools.ant.DirectoryScanner.scan(DirectoryScanner.java:871)atorg.apache.spark.classpath.ClasspathFilter$$a

Oozie java scala ClasspathFilter apache apache-spark hadoop

hadoop - 当 mapred.job.shuffle.input.buffer.percent=0.70 时，pig join 在 reducer 中出现 OutOfMemoryError

我们正在一个小表和一个大倾斜表之间进行简单的pig连接。由于另一个错误(pigskewedjoinwithabigtablecauses"Splitmetadatasizeexceeded10000000")，我们无法使用"usingskewed":(如果我们使用默认的mapred.job.shuffle.input.buffer.percent=0.70我们的一些reducer在shuffle阶段会失败:org.apache.hadoop.mapred.Task:attempt_201305151351_21567_r_000236_0:Mapoutputcopyfailure:ja

OutOfMemoryError shuffle section code hadoop mapreduce out-of-memory apache-pig

7 8 91011 12 13