草庐IT

Yarn-site

全部标签

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用?外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的?)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它,但是我找不到从任何配置/SparkEnv

hadoop - 在 YARN 上启动的 h2o 不起作用

当我在cdh集群上启动H2o时,出现以下错误。我从他的网站下载了所有内容并按照教程进行操作。我运行的命令是hadoopjarh2odriver.jar-nodes2-mapperXmx1g-outputhdfsOutputDirName表示容器没有被使用。目前尚不清楚这些将在hadoop上进行哪些设置。我已经给了所有设置内存。内存的0.0没有意义,为什么容器不使用内存。集群现在是否正在运行?-----YARNclustermetrics-----NumberofYARNworkernodes:3-----Nodes-----Node:http://data-node-3:8042Rac

shell - 在 yarn 客户端错误上运行 spark shell

我有Spark1.6.1并且我已经设置了exportHADOOP_CONF_DIR=/folder/location现在,如果我运行sparkshell:$./spark-shell--masteryarn--deploy-mode客户端我得到这种类型的错误(相关部分)$16/09/1815:49:18INFOimpl.TimelineClientImpl:Timelineserviceaddress:http://URL:PORT/ws/v1/timeline/16/09/1815:49:18INFOclient.RMProxy:ConnectingtoResourceManager

hadoop 权限问题 (hdfs-site.xml dfs.permissions.enabled)

我最近在我的机器上安装了Hadoop。我有权限问题。我以用户rahul身份登录并尝试在HDFS中创建目录(hdfsdfs-mkdir/rahul_workspace)。但它给了我一个错误Permissiondenied:user=Rahul,access=WRITE,inode="/user":hdfs:hdfs:drwxr-xr-x。在Google上快速搜索此错误会导致许多响应建议通过将hdfs-site.xml中的dfs.permissions属性设置为false来禁用权限检查的解决方法。现在我可以在HDFS中创建目录。将上述属性设置为false后,我可以访问所有其他hadoop服

hadoop - Yarn Resource Manager UI 中的 Num Off Switch Containers 是什么意思?

我有一个ETL作业占用大量CPU和内存并运行了很长时间。我在调试时观察到的第一件事如下(来自资源管理器GUI上的作业)NumNodeLocalContainers(满足)=6NumRackLocalContainers(满足)=00NumOffSwitchContainers(满足)=11367我们只有两个架子。我需要帮助回答以下三个问题NumOffSwitchContainer的含义是什么?我如何识别这些“关闭开关”容器以及它们在哪些节点上运行?关闭开关容器是否会导致作业处理时间变慢? 最佳答案 1.NumOffSwitchCon

hadoop - hadoop-2.7.3 中的 yarn : yarn-default. xml 位置

我们正在尝试在hadoop-2.7.3中找到yarn-default.xml的位置,有人可以指出它可能位于的位置......我能够找到yarn-site.xml但找不到yarn-default.xml如果有人能指出它的位置,将不胜感激。 最佳答案 在包含您的hadoop安装的目录中导航到share/doc/hadoop/hadoop-yarn/hadoop-yarn-common.如您所知,yarn-default.xml用作默认值的文档,而yarn-site.xml代表您的自定义配置值。

hadoop - MRv2/YARN 特性

我正在努力思考新API的实际用途,并且通过互联网阅读,我找到了对我正在处理的相同问题的不同答案。我想知道答案的问题是:1)哪个MRv2/YARN守护进程负责启动应用程序容器和监控应用程序资源使用情况。2)MRv2/YARN旨在解决哪两个问题?我会尝试通过指定资源和我的搜索中的实际数据来使这个线程对其他读者具有教育意义和建设性,所以我希望它不会看起来像我提供了太多信息,而我可以只问问题和缩短我的帖子。对于第一个问题,阅读文档,我可以找到3个主要资源可以依赖:来自Hadoop文档:ApplicationMasterNodeManagerLaunchcontainers.Communicat

hadoop - 无法初始化 Cluster Hadoop-2.7.1 和 YARN

对于示例中的简单程序字数统计,即使所有作业都在运行,提交作业也会失败。hadoopjarhadoop-mapreduce-examples-2.7.1.jarwordcounthdfs://localhost:9000/inputhdfs://localhost:9000/outputJPS31265SecondaryNameNode31064DataNode30929NameNode31478ResourceManager32354Jps错误java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfiguration

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)

我可以在输入以下命令时运行spark$pyspark和$pyspark--masterlocal[2]但当我运行这个时不是-$pyspark--masteryarn客户端它给了我一个巨大的堆栈跟踪,它在下面给出或更清楚地可用here$pyspark--masteryarn-clientPython2.7.6(default,Jun222015,17:58:13)[GCC4.8.2]onlinux2Type"help","copyright","credits"or"license"formoreinformation.Warning:Masteryarn-clientisdepreca

hadoop - hive-site.xml 被 hive 忽略

我的hive-site.xml包含mysql的Metastore详细信息,我试图通过oozie将它传递给hive,但由于某种原因它忽略了它。它仍在尝试使用derby连接Metastore。我正在尝试了解如何指定我的hive-site.xml。如果我使用命令行客户端,那么mysql数据库将用作元存储,我可以在TBLS下的mysql中看到hive创建的表。如果我通过oozie将其作为工作流运行,它会尝试连接到derbyMetastore。Herearetwolinesfromlog.6649[main]INFODataNucleus.Persistence-DataNucleusPersi