草庐IT

vm-cdh-cluster

全部标签

Azure HDInsight : what is head node in a hadoop cluster?

我刚刚在HDInsight中设置了一个Hadoop集群并尝试开始使用Hadoop。我在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到这个盒子上。文档将此框称为头节点,并有一个额外的步骤,用于讨论将数据复制到hadoop集群。这让我很困惑。我有以下问题:当我将数据从桌面复制到我登录的盒子时,它实际上不是将数据复制到hadoop吗?第一个复制操作与第二个复制操作有何不同?什么是Hadoop中的头节点? 最佳答案 HDInsight集群中的头节点是运行构成Hadoop平台的一些服务的机器,包括名称节点和作业跟踪器。从广

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法:1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。 

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法:1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。 

hadoop - 用于处理大数据的 MySQL Cluster 与 Hadoop

我想知道使用MySQL集群和使用Hadoop框架的优点/缺点。什么是更好的解决方案。我想听听您的意见。我认为使用MySQL集群的优点是:高可用性良好的可扩展性高性能/实时数据访问您可以使用商用硬件而且我看不出有什么缺点!有没有Hadoop没有的缺点?Hadoop和Hive的优点是:也有很好的可扩展性您也可以使用商用硬件在异构环境中运行的能力使用MapReduce框架进行并行计算使用HiveQL的Hive缺点是:没有实时数据访问。分析数据可能需要几分钟或几小时。所以在我看来,对于处理大数据,MySQL集群是更好的解决方案。为什么Hadoop是处理大数据的chalice?你怎么看?

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版,我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时,它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

hadoop - 我收到 CDH4.0 错误 "The method addCacheFile(URI) is undefined for the type Job"

我遇到了错误ThemethodaddCacheFile(URI)isundefinedforthetypeJob使用CDH4.0时尝试调用addCacheFile(URIuri)方法,如下图:importjava.net.URI;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.

hadoop - CDH WebHDFS 请求重定向到 EC2 上的本地地址

我正在尝试设置一个环境,在其中我在本地运行我的一些后端,并从我的本地计算机向EC2实例发送请求。我有CDH4.5安装程序,它工作正常。当我运行以下请求时curl--negotiate-i-L-u:hdfshttp://ec2-xx-xx-xx-xx.eu-west-1.compute.amazonaws.com:50070/webhdfs/v1/tmp/test.txt?op=OPEN这适用于该区域中的任何EC2实例,但在该区域之外不起作用。如果我在本地尝试,它会返回以下错误curl:(6)Couldnotresolvehost:ip-xx-xx-xx-xx.eu-west-1.com

java - 无法在 Cloudera VM 中使用 java(在 Eclipse 中)连接到 hbase

我正在尝试在ClouderaVM中使用Java(在Eclipse中)连接到Hbase,但出现以下错误。能够在命令行中运行相同的程序(通过将我的程序转换为jar)我的java程序`importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;importorg.apache.had

分布在不同子网的Hadoop Cluster(Docker + Flannel)

我想使用Docker在多裸机集群中安装Hadoop2.3.0。我有一个主容器和一个从属容器(在第一个设置中)。当Master和Slave容器位于同一主机(因此位于同一Flannel子网)时,Hadoop可以完美运行。但是,如果主节点和从节点位于不同的裸机节点(因此,不同的法兰绒子网),它根本不起作用(我收到连接被拒绝的错误)。两个容器都可以相互ping和ssh,因此不存在连接问题。出于某种原因,hadoop似乎需要集群中的所有节点都在同一个子网中。有没有办法规避这个?谢谢 最佳答案 我认为将节点置于单独的法兰绒子网中会引入一些与NA

hadoop - pig : Container is running beyond physical memory limits in cdh 5 using oozie

我正在尝试运行一个简单的pig脚本,该脚本在gruntshell中运行f9但不使用oozie,出现如下错误:容器[pid=2617,containerID=container_1438923434512_12103_01_000002]正在超出物理内存限制运行。当前使用情况:已使用1.0GB的1GB物理内存;使用了2.9GB的2.1GB虚拟内存。杀死容器。container_1438923434512_12103_01_000002..的进程树转储..实际上我正在通过oozie调用一个shell脚本,实习生调用pig脚本并得到这样的错误。我怎样才能让它在oozie中可用