Yarn-site_草庐IT

hadoop - Apache Spark 在 YARN 错误上运行 spark-shell

我从http://spark.apache.org/downloads.html下载:spark-2.1.0-bin-hadoop2.7.tgz.我的HadoopHDFS和YARN以$start-dfs.sh和$start-yarn.sh开头。但是运行$spark-shell--masteryarn--deploy-modeclient给我以下错误:$spark-shell--masteryarn--deploy-modeclientSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel

scala - 在 Yarn 集群上提交 Spark 作业

我现在已经为以下问题苦苦挣扎了2天多。我用Scala编写了一个基本的“HelloWorld”脚本:objectHelloextendsApp{println("WELCOMETOAFIRSTTESTWITHSCALACOMPILEDWITHSBTcountingfr.1:15withsleep1")valdata=1to15for(a然后我用SBT编译以获得JAR编译版本。然后我使用HDP2.2.4.2将所有内容传输到集群(这是在虚拟Linux机器上运行的Horthonworks沙箱)。我实际上能够使用yarn-client在集群上使用以下命令运行该作业:spark-submit--v

scala Spark ApplicationMaster yarn 15 apache-spark hadoop jobs

Hadoop:为distcp指定 yarn 队列

在我们的集群上，我们设置了动态资源池。规则设置为首先yarn将查看指定的队列，然后是用户名，然后是主要组......但是对于distcp我似乎无法指定队列，它只是将其设置为主要组。这就是我现在运行它的方式(这是行不通的):hadoopdistcp-Dmapred.job.queue.name:root.default....... 最佳答案您在指定参数时犯了错误。您不应该使用“:”来分隔键/值对。你应该使用“=”。命令应该是hadoopdistcp-Dmapred.job.queue.name=root.default......

Hadoop distcp section hadoop-yarn

Hadoop/YARN 作业失败 - "exited with exitCode: -1000 due to: Could not find any valid local directory for nmPrivate..."

我正在尝试使用Hadoop、YARN和Accumulo运行MapReduce作业。我收到以下输出，但我无法找到问题所在。看起来是YARN问题，但我不确定它在寻找什么。我在$HADOOP_PREFIX/grid/hadoop/hdfs/yarn/logs位置有一个nmPrivate文件夹。这是它说找不到的文件夹吗？14/03/3108:48:46INFOmapreduce.Job:Jobjob_1395942264921_0023failedwithstateFAILEDdueto:Applicationapplication_1395942264921_0023failed2times

amp directory section spark code hadoop hadoop-yarn accumulo

hadoop - Yarn : Make yarn-site. xml 更改对集群中的工作节点有效

我们有一个在HDFS2.7.3上运行的Spark流应用程序，使用Yarn作为资源管理器。运行应用程序时，这两个文件夹:/tmp/hadoop/data/nm-local-dir/filecache/tmp/hadoop/data/nm-local-dir/filecache正在填满磁盘。因此，根据我的研究发现，在yarn-site.xml中配置这两个属性会有所帮助。yarn.nodemanager.localizer.cache.cleanup.interval-ms2000yarn.nodemanager.localizer.cache.target-size-mb2048我已经在每

yarn-site hadoop section yarn strong hadoop-yarn hadoop2

hadoop - YARN FairScheduler 配置

ResourcemodelinHadoop3允许我们定义自定义资源类型。我进行了一些谷歌搜索，但找不到任何可以说明如何配置YARNFairScheduler以在其池中分配/隔离这些资源的信息。最佳答案找到JIRA[Umbrella]YARNResourceProfilesphase#2enhancements，以及一些与RMUI和FairScheduler的内部工作相关的子任务，例如“Addsupportfordynamicresourceupdateswithmultipleresourcetypes”。截至2019年7月，部

FairScheduler hadoop section noreferrer noopener hadoop-yarn hadoop3

hadoop - 如何在配置单元 Metastore 连接的 Hive-Site.xml 文件中设置配置？

我想使用java代码连接MetaStore。我不知道如何在Hive-Site.xml文件中设置配置设置以及我将在哪里发布Hive-Site.xml文件。请帮忙。importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.Statement;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hive.conf.HiveConf;importorg.apache.hadoop.hive.conf.Hi

中设配置单 code mysql hive hadoop cloudera impala metastore

hadoop - YARN REST API - Spark 作业提交

我正在尝试使用YARNRESTAPI提交spark-submit作业，我通常通过命令行运行它。我的命令行spark-submit看起来像这样JAVA_HOME=/usr/local/java7/HADOOP_CONF_DIR=/etc/hadoop/conf/usr/local/spark-1.5/bin/spark-submit\--driver-class-path"/etc/hadoop/conf"\--classMySparkJob\--masteryarn-cluster\--conf"spark.executor.extraClassPath=/usr/local/hado

hadoop Spark 34 apache-spark hadoop-yarn

hadoop - 在 YARN 上运行 Spark-Submit 但不平衡(只有 1 个节点在工作)

我尝试在YARN-CLUSTER(2个节点)上运行SparkApps但似乎这2个节点不平衡，因为只有1个节点在工作而另一个不工作.我的脚本:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--deploy-modecluster--num-executors2--driver-memory1G--executor-memory1G--executor-cores2spark-examples-1.6.1-hadoop2.6.0.jar1000我看到我的一个节点正在工作，但另一个没有，所以这是

Spark-Submit 不平 section strong code hadoop apache-spark cluster-computing hadoop-yarn

Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败

我正在运行一个运行MRv1(CDH5)与LocalFileSystem配对的测试集群，我唯一能够运行作业的用户是mapred(因为mapred是启动jobtracker/tasktracker守护进程的用户)。当以任何其他用户提交作业时，作业失败，因为jobtracker/tasktracker无法在.staging目录下找到job.jar。当YARN(MRv2)与LocalFileSystem配对时，我遇到了完全相同的问题，即当由“yarn”以外的用户提交作业时，应用程序主管无法在.staging目录下找到job.jar。查看提交作业的用户的.staging目录，发现.staging

MRv Hadoop section staging gt hadoop2