start-mapred

hadoop - 在 Hive 脚本中设置 mapred.child.java.opts 会导致 MR 作业立即获得 'killed'

由于OutOfMemory和GCoverheadlimitexceeded错误，我有一些作业失败了。为了对抗前者，我尝试在配置单元脚本的开头设置SETmapred.child.java.opts="-Xmx3G";**。基本上，每当我将此选项添加到脚本时，安排的MR作业(对于脚本中几个查询中的第一个)都会立即“终止”。关于如何纠正这个问题有什么想法吗？是否有任何其他参数需要与最大堆空间一起修改(例如io.sort.mb)？任何帮助将非常感谢。FWIW，我正在使用hive-0.7.0和hadoop-0.20.2。我们集群中最大堆大小的默认设置是1200M。TIA。**-尝试过的其他一些替

中设 amp code mapred child hadoop hive hiveql

Hadoop 2.6.0 : Basic error "starting MRAppMaster" after installing

我刚刚开始使用Hadoop2。使用基本配置安装后，我总是无法运行任何示例。有没有人看到这个问题，请帮助我？错误是这样的ErrorstartingMRAppMasterjava.lang.RuntimeException:java.lang.reflect.InvocationTargetException这是日志20152015-01-0611:56:23,194INFO[main]org.apache.hadoop.mapreduce.v2.app.MRAppMaster:CreatedMRAppMasterforapplicationappattempt_1420510526926

MRAppMaster installing hadoop java apache mapreduce hadoop-yarn

python - Apache Spark : Error while starting PySpark

在Centos机器上，Pythonv2.6.6和ApacheSparkv1.2.1尝试运行./pyspark时出现以下错误似乎是python的一些问题，但无法弄清楚15/06/1808:11:16INFOspark.SparkContext:SuccessfullystoppedSparkContextTraceback(mostrecentcalllast):File"/usr/lib/spark_1.2.1/spark-1.2.1-bin-hadoop2.4/python/pyspark/shell.py",line45,insc=SparkContext(appName="PyS

starting PySpark python section spark hadoop apache-spark

hadoop - master节点的"start-all.sh"和"start-dfs.sh"不启动slave节点服务？

我已经用我的从节点的主机名更新了Hadoop主节点上的/conf/slaves文件，但是我无法从主节点启动从节点。我必须单独启动从站，然后我的5节点集群启动并运行。如何使用主节点的单个命令启动整个集群？此外，SecondaryNameNode正在所有从节点上运行。那是问题吗？如果是这样，我怎样才能将它们从奴隶中移除？我认为一个集群中应该只有一个SecondaryNameNode和一个NameNode，对吗？谢谢! 最佳答案在ApacheHadoop3.0中使用$HADOOP_HOME/etc/hadoop/workers文件每行添

amp start section SecondaryNameNode stackoverflow hadoop hdfs namenode hadoop3

hadoop - 如何从 DFS 而不是从 Mapred 中删除 hadoop 节点？

我是hadoop的新手。为了运行一些基准测试，我需要各种hadoop配置进行比较。我想知道一种从DFS(不再运行datanode守护进程)中删除hadoop从站但不从Mapred中删除(继续运行tasktracker)的方法，反之亦然。据我所知，此类hadoop节点只有一个从属文件，而DFS和Mapred没有单独的从属文件。目前，我正在尝试在从属节点上同时启动DFS和Mapred，然后在从属节点上终止数据节点。但是将该节点放入HDFSGUI上的“死节点”需要一段时间。可以调整任何参数以使此超时更快？谢谢最佳答案尝试使用dfs.h

hadoop Mapred section 从属 mapreduce hdfs

java - 找不到 org.apache.hadoop.mapred.LocalClientProtocolProvider

我用Java编写了一个程序来执行嵌入的Pig语句。我执行了java语句registryQuery。但是当我尝试存储结果时，我给出了org.apache.hadoop.mapred.localClientProtocolProvidernotfound的错误。我不明白这个错误。附上句子:这是java代码pigServer.registerQuery("source=load'"+inputFile+"'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage("+"'datos:bikes','-loadKeytrue')"+"as(id

LocalClientProtocolProvider apache java hadoop apache-pig

hadoop - "Starting flush of map output"在 hadoop 映射任务中花费很长时间

我在一个小文件(3-4MB)上执行maptask，但map输出相对较大(150MB)。显示Map100%后，需要很长时间才能完成溢出。请建议我如何减少这段时间。以下是一些示例日志...13/07/1017:45:31INFOmapred.MapTask:Startingflushofmapoutput13/07/1017:45:32INFOmapred.JobClient:map98%reduce0%13/07/1017:45:34INFOmapred.LocalJobRunner:13/07/1017:45:35INFOmapred.JobClient:map100%reduce0%

长时 hadoop mapred LocalJobRunner INFO map flush

Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败

我正在运行一个运行MRv1(CDH5)与LocalFileSystem配对的测试集群，我唯一能够运行作业的用户是mapred(因为mapred是启动jobtracker/tasktracker守护进程的用户)。当以任何其他用户提交作业时，作业失败，因为jobtracker/tasktracker无法在.staging目录下找到job.jar。当YARN(MRv2)与LocalFileSystem配对时，我遇到了完全相同的问题，即当由“yarn”以外的用户提交作业时，应用程序主管无法在.staging目录下找到job.jar。查看提交作业的用户的.staging目录，发现.staging

MRv Hadoop section staging gt hadoop2

hadoop - Oozie 作业停留在 PREP 状态下的 START 操作

我有一个从Java客户端启动的Oozie作业，它卡在START操作中，它说它正在运行，但START节点处于PREP状态。这是为什么以及如何解决这个问题？Oozie工作流只包含一个java操作。集群上的Hadoop版本是2.4.0，集群上的Oozie是4.0.0。这是workflow.xml${jobTracker}${nameNode}mapred.job.queue.namedefaulttestingoozieclient.ClientJavafailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]这是java客户端Oo

hadoop Oozie java 150619153616589 oozie-oozi-W

hadoop - 在 hadoop 安装中找不到 start-all.sh

我正在尝试在我的本地机器上安装hadoop并正在关注this.我也设置了hadoophome这是我现在尝试运行的命令hduser@ubuntu:~$/usr/local/hadoop/bin/start-all.sh这是我得到的错误-su:/usr/local/hadoop/bin/start-all.sh:Nosuchfileordirectory这是我添加到我的$HOME/.bashrc文件中的内容#SetHadoop-relatedenvironmentvariablesexportHADOOP_HOME=/usr/local/hadoop#SetJAVA_HOME(wewill

hadoop start-all code section installation ubuntu-14.04

115 116 117118119 120 121