草庐IT

YARN-Cgroups

全部标签

hadoop - 在 spark yarn 集群中,容器如何工作取决于 RDD 分区的数量?

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中,创建了10个分区但是在yarncluster中,只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中,容器如何工作取决于RDD分区的数量?*因为我只有一点

hadoop - 没有 YARN 的 MapReduce 2

考虑到YARN是运行mapreduce2的更好选择这一事实,但是是否可以在没有YARN的情况下运行MR2?我尝试使用MR2,但它与YARN一起运行。 最佳答案 MRv2实际上是YARN!所以,不,你不能在没有YARN的情况下运行mapreduce2作业!Officialdocumentation:ApacheHadoopNextGenMapReduce(YARN)MapReducehasundergoneacompleteoverhaulinhadoop-0.23andwenowhave,whatwecall,MapReduce2.

hadoop - 关于 YARN 的查询(故障模式、容器大小、实例)

我想问几个问题来理解YARN的工作原理:任何人都可以解释或引用任何可以轻松了解YARN中故障模式的文档(即任务故障、应用程序主机故障、节点管理器故障、资源管理器故障)YARN中的容器大小是多少?和Mapreduce1中的slot一样吗?YARN的任何实际/工作示例?谢谢 最佳答案 请参阅Hadoop权威指南教科书...除此之外,apache网站上还有很多信息。容器大小不是固定的,它是根据资源管理器的要求动态分配的。从开发人员的角度来看,相同的旧map-reduce将适用于YARN。ResourceManager失败在YARN框架的初

macos - Hadoop: start-dfs/start-yarn.sh: 没有那个文件或目录

尽管我检查了两个文件都存在于目录中并且hadoop可以访问这些文件夹,但它还是给了我上述两个错误。我使用以下教程安装了hadoop:link出了什么问题,如何解决? 最佳答案 您可能没有导出此目录的路径。尝试提供/entirepath/start-dfs.sh。同样在您的.bash_rc文件中添加HADOOP_HOME=/Pathtohadoopinstallationfolder。使用命令source.bash_rc获取bash_rc文件。 关于macos-Hadoop:start-d

hadoop - 使用 Yarn 客户端在 Google Cloud 上的 Hadoop 中运行 JAR

我想使用Yarn客户端在GoogleCloud上的Hadoop中运行一个JAR。我在hadoop的master节点使用这个命令spark-submit--classfind--masteryarn-clientfind.jar但它返回这个错误15/06/1710:11:06INFOclient.RMProxy:ConnectingtoResourceManagerathadoop-m-on8g/10.240.180.15:803215/06/1710:11:07INFOipc.Client:Retryingconnecttoserver:hadoop-m-on8g/10.240.180

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群,运行了map-reduce作业,效果很好。在日志中查找结果,一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南,有人可以给我一个好的链接吗?我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

hadoop - 在后续 Action 中获取 YARN Action 应用 ID

我正在运行OOZIE工作流,并在map-reduce操作中进行仅限map的分布式模型拟合。由于有很多映射器,我编写了一个代码,使用yarnlogs-applicationIdapplication_x编译所有映射器任务的YARN日志,其中application_x是所有映射任务的父应用程序ID。现在我想将此摘要作为工作流的一部分,因此我需要动态获取application_x,这是上一个操作的应用程序ID。有什么办法可以得到这个吗? 最佳答案 我没有对此进行测试,但我认为您可以通过工作流EL函数获得此信息:wf:actionExter

windows - "yarn resourcemanager"产生 "The system cannot find the batch label specified - resourcemanager"

我在Windows64上以伪分布式模式运行hadoop2.7.1,无法运行yarn。每当我尝试通过yarnresourcemanager启动它时,我都会得到以下输出:Thesystemcannotfindthebatchlabelspecified-resourcemanagerUsage:java[-options]class[args...](toexecuteaclass)orjava[-options]-jarjarfile[args...](toexecuteajarfile)whereoptionsinclude:-d32usea32-bitdatamodelifavail

hadoop - 在单节点上运行 Spark on YARN

我正在学习一些数据科学,我正在尝试发现和理解与之相关的各种工具。到目前为止,我已经在MacOS上成功安装了Hadoop2.8.0,现在我想让Spark2.1.1也能正常工作。我知道Spark不一定需要Hadoop环境才能工作,但我也知道让它在YARN上运行对于与其他应用程序共享数据很有用。在网上阅读了不同的指南和建议后,这就是我所做的:在Hadoop配置文件中,我在yarn-site.xml中添加:yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.c

hadoop - 如何在 Hadoop yarn 上设置 apache shark?

我已经在hadoopyarn上设置了一个spark集群,现在我想在spark上设置shark。但是没有文章在yarn上设置spark上设置shark。有什么方法可以做到这一点,或者我应该将我的Spark集群设置为独立集群。 最佳答案 这是我实现的工作模型之一https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster 关于hadoop-如何在Hadoopyarn上设置apacheshark?,我们在StackOverflo