mongodb-cluster

分布在不同子网的Hadoop Cluster(Docker + Flannel)

我想使用Docker在多裸机集群中安装Hadoop2.3.0。我有一个主容器和一个从属容器(在第一个设置中)。当Master和Slave容器位于同一主机(因此位于同一Flannel子网)时，Hadoop可以完美运行。但是，如果主节点和从节点位于不同的裸机节点(因此，不同的法兰绒子网)，它根本不起作用(我收到连接被拒绝的错误)。两个容器都可以相互ping和ssh，因此不存在连接问题。出于某种原因，hadoop似乎需要集群中的所有节点都在同一个子网中。有没有办法规避这个？谢谢最佳答案我认为将节点置于单独的法兰绒子网中会引入一些与NA

Cluster Flannel section 容器法兰绒 hadoop docker

hadoop - 使用 MASTER=yarn-cluster 运行 HiveFromSpark 示例

我正在尝试运行HiveFromSpark我的EMRSpark/Hive集群上的示例。问题使用yarn-client:~/spark/bin/spark-submit--masteryarn-client--num-executors=19--classorg.apache.spark.examples.sql.hive.HiveFromSpark~/spark/lib/spark-examples-1.3.0-hadoop2.4.0.jar就像一个魅力。但是，使用yarn-cluster:~/spark/bin/spark-submit--masteryarn-cluster--num

HiveFromSpark yarn-cluster java apache org hadoop apache-spark amazon-emr apache-spark-sql

hadoop - 太多获取失败 : Hadoop on cluster (x2)

上周左右我一直在使用Hadoop(试图掌握它)，尽管我已经能够设置多节点集群(2台机器:1台笔记本电脑和一台小型台式机)并检索结果，当我运行hadoop作业时，我似乎总是遇到“太多的获取失败”。一个示例输出(在一个简单的wordcount示例中)是:hadoop@ap200:/usr/local/hadoop$bin/hadoopjarhadoop-examples-0.20.203.0.jarwordcountsitasita-output3X11/05/2015:02:05INFOinput.FileInputFormat:Totalinputpathstoprocess:711/

cluster hadoop JobClient mapred INFO

java - Apache Spark : TaskResultLost (result lost from block manager) Error On cluster

我在Virtualbox上有一个带有3个从节点的Spark独立集群。我的代码在Java上，它可以很好地处理我的小输入数据集，它们的输入总共大约100MB。我将我的虚拟机RAM设置为16GB，但是当我在大输入文件(大约2GB)上运行我的代码时，在我的reduce部分处理数小时后出现此错误:Jobabortedduetostagefailure:Totalsizeofserializedresultsof4tasks(4.3GB)isbiggerthanspark.driver.maxResultSize`我编辑了spark-defaults.conf并为spark.driver.maxR

TaskResultLost cluster code Boolean section java hadoop apache-spark mapreduce

hadoop - yarn : How to utilize full cluster resources?

所以我有一个带有7个工作节点的cloudera集群。30GB内存4个vCPU以下是我发现的一些配置(来自Google)对于调整我的集群性能很重要。我正在运行:yarn.nodemanager.resource.cpu-vcores=>4yarn.nodemanager.resource.memory-mb=>17GB(为操作系统和其他进程预留)mapreduce.map.memory.mb=>2GBmapreduce.reduce.memory.mb=>2GB运行nproc=>4(可用处理单元数)现在我担心的是，当我查看我的ResourceManager时，我看到可用内存为119GB，

resources cluster 射器 code li hadoop hadoop-yarn cloudera

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序，我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时，我都会在任务中得到空值。如果你们可以提出建议，那将非常有帮助，我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co

Nullpointer Exception section mongoConnectionString javaSchemaRDD java hadoop apache-spark cloud hadoop-yarn

scala - Cluster 模式下使用 Spark 写入文件到本地系统

我知道这是一种使用Spark的奇怪方式，但我正在尝试使用Spark将数据帧保存到本地文件系统(不是hdfs)，即使我处于集群模式。我知道我可以使用客户端模式，但我确实想在集群模式下运行并且不关心哪个节点(3个中的)应用程序将作为驱动程序运行。下面的代码是我正在尝试做的伪代码。//createdataframevaldf=Seq(Foo("John","Doe"),Foo("Jane","Doe")).toDF()//saveittothelocalfilesystemusing'file://'becauseitdefaultstohdfs://df.coalesce(1).rdd.s

Cluster scala code apache java hadoop apache-spark

hadoop - 了解 Spark : Cluster Manager, Master 和 Driver 节点

读完这篇question,我想再问一些问题:集群管理器是一个长期运行的服务，它在哪个节点上运行？主节点和驱动节点可能是同一台机器吗？我假设某处应该有一条规则说明这两个节点应该不同？如果Driver节点出现故障，谁负责重新启动应用程序？究竟会发生什么？即主节点、集群管理器和工作节点将如何参与(如果他们参与)，以及以什么顺序参与？与上一个问题类似:如果主节点发生故障，具体会发生什么情况以及谁负责从故障中恢复？最佳答案 1.TheClusterManagerisalong-runningservice,onwhichnodeitisru

Cluster Manager strong blockquote the hadoop apache-spark hadoop-yarn failover apache-spark-standalone

快速上手MongoDB Atlas

MongoDBAtlas是什么？MongoDBAtlas是MongoDB公司提供的MongoDB云服务，由MongoDB数据库的开发团队构建和运维，可以在AWS、MicrosoftAzure、GoogleCloudPlatform云平台上轻松部署、运营和扩展。MongoDBAtlas内建了MongoDB安全和运维最佳实践，可自动完成基础设施的部署、数据库的构建、高可用部署、数据的全球分发、备份等即费时又需要大量经验运维工作。让您通过简单的界面和API就可以完成这些工作，由此您可以将更多宝贵的时间花在构建您的应用上。开始使用MongoDBAtlas要开始使用MongoDBAtlas，您需要执行以

上手 MongoDB 集群 xff0c xff 数据库 MongoDB Atlas nosql

scala - Spark : check your cluster UI to ensure that workers are registered

我在Spark中有一个简单的程序:/*SimpleApp.scala*/importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importorg.apache.spark.SparkConfobjectSimpleApp{defmain(args:Array[String]){valconf=newSparkConf().setMaster("spark://10.250.7.117:7077").setAppName("SimpleApplication").set("spark.cores.m

registered cluster section ratingsFile 34 scala hadoop apache-spark cloudera cloudera-manager

50 51 525354 55 56