草庐IT

vm-cdh-cluster

全部标签

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序,我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时,我都会在任务中得到空值。如果你们可以提出建议,那将非常有帮助,我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co

configuration - cdh4 hadoop-hbase PriviledgedActionException 为 :hdfs (auth:SIMPLE) cause:java. io.FileNotFoundException

我已经安装了clouderacdh4release我正在尝试在上面运行mapreduce作业。我收到以下错误-->2012-07-0915:41:16ZooKeeperSaslClient[INFO]ClientwillnotSASL-authenticatebecausethedefaultJAASconfigurationsection'Client'couldnotbefound.IfyouarenotusingSASL,youmayignorethis.Ontheotherhand,ifyouexpectedSASLtowork,pleasefixyourJAASconfigu

java - 如何使用 Cloudera CDH4 和 Maven 获取正在运行的 Spring-Data-Hadoop 项目

由于Spring-Data-Hadoop尚未发布,因此很难找到与cloudera一起使用的运行示例配置。我需要选择哪些依赖项才能与CDH4(Hadoop2.0.0-cdh4.1.3)一起运行Spring-Data-Hadoop?通过选择不同的应用程序,我得到了这个异常(exception):空指针Exceptioninthread"SimpleAsyncTaskExecutor-1"java.lang.ExceptionInInitializerErroratorg.springframework.data.hadoop.mapreduce.JobExecutor$2.run(JobE

scala - Cluster 模式下使用 Spark 写入文件到本地系统

我知道这是一种使用Spark的奇怪方式,但我正在尝试使用Spark将数据帧保存到本地文件系统(不是hdfs),即使我处于集群模式。我知道我可以使用客户端模式,但我确实想在集群模式下运行并且不关心哪个节点(3个中的)应用程序将作为驱动程序运行。下面的代码是我正在尝试做的伪代码。//createdataframevaldf=Seq(Foo("John","Doe"),Foo("Jane","Doe")).toDF()//saveittothelocalfilesystemusing'file://'becauseitdefaultstohdfs://df.coalesce(1).rdd.s

hadoop - 从 HDFS 导入数据到 HBase (cdh3u2)

我已经安装了hadoop和hbasecdh3u2。在hadoop中,我在路径/home/file.txt中有一个文件。它有这样的数据one,1two,2three,3我想将这个文件导入到hbase中。其中,第一个字段应解析为字符串,第二个字段应解析为整数,然后应将其插入hbase。帮我做这个a提前致谢.... 最佳答案 我喜欢使用ApachePig来摄取HBase,因为它简单、直接且灵活。这是一个Pig脚本,可以在您创建表和列族后为您完成这项工作。要创建表和列族,您需要:$hbaseshell>create'mydata','myc

hadoop - 了解 Spark : Cluster Manager, Master 和 Driver 节点

读完这篇question,我想再问一些问题:集群管理器是一个长期运行的服务,它在哪个节点上运行?主节点和驱动节点可能是同一台机器吗?我假设某处应该有一条规则说明这两个节点应该不同?如果Driver节点出现故障,谁负责重新启动应用程序?究竟会发生什么?即主节点、集群管理器和工作节点将如何参与(如果他们参与),以及以什么顺序参与?与上一个问题类似:如果主节点发生故障,具体会发生什么情况以及谁负责从故障中恢复? 最佳答案 1.TheClusterManagerisalong-runningservice,onwhichnodeitisru

scala - Spark : check your cluster UI to ensure that workers are registered

我在Spark中有一个简单的程序:/*SimpleApp.scala*/importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importorg.apache.spark.SparkConfobjectSimpleApp{defmain(args:Array[String]){valconf=newSparkConf().setMaster("spark://10.250.7.117:7077").setAppName("SimpleApplication").set("spark.cores.m

hadoop - 如何找到cdh版本的hadoop

当连接到Hadoop集群时,如何知道这个集群运行的是哪个版本的Hadoop?在使用Maven编译和打包HadoopJava作业时,这对于正确配置库尤其重要。 最佳答案 如果您可以通过ssh访问hadoop节点,最简单的方法是运行命令$hadoopversion 关于hadoop-如何找到cdh版本的hadoop,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/24601105/

vm虚拟机NAT网络模式静态IP的设置

前言例如:在用虚拟机学习docker的时候发现ip地址常常变化,导致不得不每次检查ip地址,这里主要记录一下静态IP地址的设置一、前提我这里所展示的方法仅限于NAT模式,桥接模式没有试过,不过看过相关介绍,个人环境搭建使用NAT模式即可;使用的虚拟机是VMware15,centosOs7.x版本二、使用步骤1.修改IP地址文件代码如下:修改BOOTPROTO=”static“vim/etc/sysconfig/network-scripts/ifcfg-ens332.设置NAT网络网络模式必须是NAT模式,并且在VMware左上角->编辑->虚拟网络编辑器中点击更改设置(可能会弹一个确认框,点

VM虚拟机无法上网,以及上网后虚拟机IP与真机IP不在同一网段的问题

先简单说明一下在虚拟机中的几种网络连接方式桥接模式(VMnet0):bridge即为桥接,通常它的名称为VMnet0,使用桥接的方式使得自己的虚拟机和自己的真实机网卡在同一个网段内,从而实现联网,互相通信。NAT模式(VMnet8):NAT即为网络地址转换,通常它的名称为VMnet8,通过nat的连接方式可以使得虚拟机和真实机的网卡在不同的网段中,从而实现联网。多台虚拟机同时使用NAT模式,这些虚拟机会在同一局域网下。仅主机模式(VMnet1):host-only即为仅主机,通常它的名称是VMnet1,使用host-only的方式是不能和外界通信的,只能够和本机的物理网卡通信。自定义:可以手工