cluster-manager

hadoop - 使用 MASTER=yarn-cluster 运行 HiveFromSpark 示例

我正在尝试运行HiveFromSpark我的EMRSpark/Hive集群上的示例。问题使用yarn-client:~/spark/bin/spark-submit--masteryarn-client--num-executors=19--classorg.apache.spark.examples.sql.hive.HiveFromSpark~/spark/lib/spark-examples-1.3.0-hadoop2.4.0.jar就像一个魅力。但是，使用yarn-cluster:~/spark/bin/spark-submit--masteryarn-cluster--num

hadoop - 太多获取失败 : Hadoop on cluster (x2)

上周左右我一直在使用Hadoop(试图掌握它)，尽管我已经能够设置多节点集群(2台机器:1台笔记本电脑和一台小型台式机)并检索结果，当我运行hadoop作业时，我似乎总是遇到“太多的获取失败”。一个示例输出(在一个简单的wordcount示例中)是:hadoop@ap200:/usr/local/hadoop$bin/hadoopjarhadoop-examples-0.20.203.0.jarwordcountsitasita-output3X11/05/2015:02:05INFOinput.FileInputFormat:Totalinputpathstoprocess:711/

cluster hadoop JobClient mapred INFO

java - Apache Spark : TaskResultLost (result lost from block manager) Error On cluster

我在Virtualbox上有一个带有3个从节点的Spark独立集群。我的代码在Java上，它可以很好地处理我的小输入数据集，它们的输入总共大约100MB。我将我的虚拟机RAM设置为16GB，但是当我在大输入文件(大约2GB)上运行我的代码时，在我的reduce部分处理数小时后出现此错误:Jobabortedduetostagefailure:Totalsizeofserializedresultsof4tasks(4.3GB)isbiggerthanspark.driver.maxResultSize`我编辑了spark-defaults.conf并为spark.driver.maxR

TaskResultLost cluster code Boolean section java hadoop apache-spark mapreduce

hadoop - Cloudera Manager 安装无法从代理接收心跳 - 将新主机添加到集群

我尝试在Ubuntu12.04.1LTS上安装使用标准版本的cloudera管理器，当我想添加新主机时，出现下一个错误:Installationfailed.Failedtoreceiveheartbeatfromagent.Ensurethatthehost'shostnameisconfiguredproperly.Ensurethatport7182isaccesibleontheClouderaManagerserver(checkfirewallrules).Ensurethatports9000an9001arefreeonthehostbeingadded.Checkag

Cloudera Manager agent section python2 hadoop cloudera-manager

hadoop - yarn : How to utilize full cluster resources?

所以我有一个带有7个工作节点的cloudera集群。30GB内存4个vCPU以下是我发现的一些配置(来自Google)对于调整我的集群性能很重要。我正在运行:yarn.nodemanager.resource.cpu-vcores=>4yarn.nodemanager.resource.memory-mb=>17GB(为操作系统和其他进程预留)mapreduce.map.memory.mb=>2GBmapreduce.reduce.memory.mb=>2GB运行nproc=>4(可用处理单元数)现在我担心的是，当我查看我的ResourceManager时，我看到可用内存为119GB，

resources cluster 射器 code li hadoop hadoop-yarn cloudera

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序，我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时，我都会在任务中得到空值。如果你们可以提出建议，那将非常有帮助，我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co

Nullpointer Exception section mongoConnectionString javaSchemaRDD java hadoop apache-spark cloud hadoop-yarn

scala - Cluster 模式下使用 Spark 写入文件到本地系统

我知道这是一种使用Spark的奇怪方式，但我正在尝试使用Spark将数据帧保存到本地文件系统(不是hdfs)，即使我处于集群模式。我知道我可以使用客户端模式，但我确实想在集群模式下运行并且不关心哪个节点(3个中的)应用程序将作为驱动程序运行。下面的代码是我正在尝试做的伪代码。//createdataframevaldf=Seq(Foo("John","Doe"),Foo("Jane","Doe")).toDF()//saveittothelocalfilesystemusing'file://'becauseitdefaultstohdfs://df.coalesce(1).rdd.s

Cluster scala code apache java hadoop apache-spark

hadoop - 了解 Spark : Cluster Manager, Master 和 Driver 节点

读完这篇question,我想再问一些问题:集群管理器是一个长期运行的服务，它在哪个节点上运行？主节点和驱动节点可能是同一台机器吗？我假设某处应该有一条规则说明这两个节点应该不同？如果Driver节点出现故障，谁负责重新启动应用程序？究竟会发生什么？即主节点、集群管理器和工作节点将如何参与(如果他们参与)，以及以什么顺序参与？与上一个问题类似:如果主节点发生故障，具体会发生什么情况以及谁负责从故障中恢复？最佳答案 1.TheClusterManagerisalong-runningservice,onwhichnodeitisru

Cluster Manager strong blockquote the hadoop apache-spark hadoop-yarn failover apache-spark-standalone

Blockchain for Internet of Energy management: Review, solutions, and challenges

本文是《BlockchainforInternetofEnergymanagement:Review,solutions,andchallenges》的中文翻译，只针对文字部分做翻译，图表部分请查看原文。能源管理互联网的区块链：回顾、解决方案和挑战摘要1.引言1.1本文的贡献1.2相关综述文章的回顾1.3组织2.能源互联网概述2.1能源互联网介绍2.2能源互联网的问题3.区块链在IoE中的适用性3.1区块链的基础3.2区块链在IoE中的应用4.共识算法4.0.1工作量证明（PoW）4.0.2股权证明（PoS）4.0.3委托股权证明（DPoS）4.0.4实用拜占庭容错（PBFT）4.0.5授权证

Blockchain challenges xff0c xff0 xff 区块链

hadoop - YARN 中 Application Manager 和 Application Master 的区别？

我了解MRv1的工作原理。现在我正在尝试了解MRv2..YARN中的ApplicationManager和ApplicationMaster有什么区别？最佳答案术语ApplicationMaster和ApplicationManager经常互换使用。实际上，ApplicationMaster是请求、启动和监控应用程序特定资源的主要容器，而ApplicationManager是ResourceManager中的一个组件。下面给出了有关应用程序管理器的更多详细信息。ApplicationsManager负责维护提交的集合应用程序。申

Application Manager section 的 hadoop mapreduce hadoop-yarn