yarn-site_草庐IT

python - 无法通过远程在 YARN Hadoop 集群上启动 python 脚本

几周以来，我尝试通过远程访问或连接到YARN集群的pysparkshell来提交python脚本。我是HADOOP世界的新手。我想要的是在外部HADOOP集群上的本地shell中提交spark脚本。我的情况:外部hadoopYARN集群。可以访问重要端口。我有Windows764位/Python2.7.964位/Spark1.4.1。HADOOP集群运行没有任何问题。我的问题:在HADOOP集群上通过远程访问提交python脚本不起作用。如果我尝试spark-submit--masteryarn-cluster--num-executors2--driver-memory512m--e

hadoop - 在 YARN 中，容器大小是如何确定的？

在YARN应用中，ApplicationMaster如何决定容器的大小？我知道有一些参数控制最小内存分配、vcores比率等。但是应用程序主管如何理解它需要如此多的内存和如此多的CPU来完成特定作业-MapReduce/Spark？最佳答案首先让我用一两行解释YARN的工作原理，然后我们回答问题。因此，假设我们有100GB的YARN集群总内存和1GBminimum-allocation-mb，那么我们有100个最大容器。如果我们将最小分配设置为4GB，那么我们有25个最大容器。每个应用程序将获得它要求的内存，向上舍入到下一个容器

scala - YARN 模式下的 Spark 作业失败

我有一个用Scala编写的Spark程序，它从HDFS读取CSV文件，计算一个新列并将其保存为Parquet文件。我在YARN集群中运行该程序。但每次我尝试启动它时，执行程序都会在某个时候因此错误而失败。您能帮我找出可能导致此错误的原因吗？从执行器上登录16/10/2715:58:10WARNstorage.BlockManager:Puttingblockrdd_12_225failedduetoanexception16/10/2715:58:10WARNstorage.BlockManager:Blockrdd_12_225couldnotberemovedasitwasnotf

hadoop - Spark 应用程序可以在独立模式下运行，但不能在 yarn 集群中运行

恩，大家好，一个困扰我很久的问题。我可以通过这个命令以独立模式运行我的spark应用spark-submit--masterspark://fuxiuyin-virtual-machine:7077test_app.py但是此应用程序无法通过此命令在yarn集群中运行spark-submit--masteryarntest_app.py我认为我的yarn簇很健康。jps的输出是$jps8289Worker14882NameNode15475ResourceManager8134Master15751NodeManager15063DataNode17212Jps15295Seconda

java - Spark Yarn Cluster 连接到 Hbase 错误

我有一个应用程序可以解析vcf文件并将数据插入到hbase中。该应用程序在使用masterlocal时运行，使用apachespark没有问题，但是当我使用apachesparkyarncluster运行它时，出现以下错误:17/03/3110:36:09INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(state:RUNNING)17/03/3110:36:10INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(stat

hadoop - 警告 org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor : Exit code from container container_1494943588964_0010_01_000001 is : 143

我在Ubuntu16.04上以独立模式安装了hadoop2.7.3。我已经安装了Hive2.1.1并在HQL上工作。大多数查询都会触发MR作业。当我运行触发MR作业的查询时，系统会通过终止所有进程自动注销。当我检查节点管理器的日志时，我可以看到导致问题的语句是，WARNorg.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor:Exitcodefromcontainercontainer_1494943588964_0010_01_000001is:1432017-05-1619:48:08,263ERRORor

hadoop - spark Yarn模式如何从spark-submit获取applicationId

当我使用带有masteryarn和部署模式集群的spark-submit提交spark作业时，它不会打印/返回任何applicationId，作业完成后我必须手动检查MapReducejobHistory或sparkHistoryServer以获取作业详细信息.我的集群被许多用户使用，需要花费大量时间才能在jobHistory/HistoryServer中发现我的工作。有没有办法配置spark-submit返回applicationId？注意:我发现了许多类似的问题，但他们的解决方案使用sparkcontext.applicationId在驱动程序代码中检索applicationId，

Hadoop Yarn 容器日志丢失

我们通常会在“/var/log/hadoop-yarn/containers”路径下看到yarn容器日志。虽然我能够看到成功作业的日志，但看不到失败作业的日志。节点管理器日志显示日志被删除。日志:2017-07-1314:16:04,170INFOorg.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor(DeletionService#1):Deletingpath:/var/log/hadoop-yarn/containers/application_1234567890_12345/container_11

hadoop - 当查看在 yarn 上运行的已完成 spark 作业的日志时重定向到容器的日志服务器

我在yarn上运行spark。我的spark版本是2.1.1，hadoop版本是apachehadoop2.7.3。当spark作业以集群模式在yarn上运行时，我可以通过stdout/stderr链接查看Executor的日志，如http://hadoop-slave1:8042/node/containerlogs/container_1500432603585_0148_01_000001/hadoop/stderr?start=-4096但是当作业完成时，通过stdout/stderr链接查看Executor的日志将得到类似的错误页面Redirectingtologserver

hadoop - 如何使用 Dask 在 yarn 上运行并行化的 python 作业？

我有几个关于将Dask与Hadoop/Yarn结合使用的问题。1)如何将Dask连接到Hadoop/YARN并并行化作业？当我尝试使用时:fromdask.distributedimportClientclient=Client('Mynamenode:50070')它导致错误:CommClosedError:in:Streamisclosed:whiletryingtocallremotemethod'identity'我应该传递名称节点或数据节点的地址吗？我可以改用Zookeeper吗？2)如何使用Dask和HDFS3从HDFS读取数据？当我尝试使用以下方式读取文件时:import