master-data-management

Hadoop Datanode slave 没有连接到我的 master

由于许多错误，我无法弄清楚为什么没有将datanodeslavevm连接到我的mastervm中。欢迎任何建议，所以我可以试试。首先，其中之一是我的从虚拟机日志中的错误:WARNorg.apache.hadoop.hdfs.server.datanode.DataNode:Problemconnectingtoserver:ubuntu-378e53c1-3e1f-4f6e-904d-00ef078fe3f8:9000因此，我无法在我的主虚拟机中运行我想要的作业:hadoopjar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.

hadoop - 在没有cloudera manager的情况下安装cloudera impala

请提供在没有cloudera管理器的情况下在ubuntu中安装imapala的链接。无法使用官方链接安装。无法使用这些查询定位包impala:sudoapt-getinstallimpala#Binariesfordaemonssudoapt-getinstallimpala-server#Servicestart/stopscriptsudoapt-getinstallimpala-state-store#Servicestart/stopscript 最佳答案首先你需要获取包列表并将其存储在/etc/apt/sources.l

cloudera manager impala section apt-get hadoop hive

java - 无法验证 serde : org. openx.data.jsonserde.jsonserde

我编写此查询是为了在配置单元上创建一个表。我的数据最初是json格式，所以我下载并构建了serde并添加了它运行所需的所有jar。但是我收到以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.Cannotvalidateserde:org.openx.data.jsonserde.JsonSerDe查询:createtabletip(typestring,textstring,business_idstring,user_idstring,datedate,likesint)R

jsonserde serde code Hive-JSON-Serde java json hadoop hive

使用 hadoop MiniDFSCluster 时出现 javax.management.InstanceAlreadyExistsException

我正在使用MiniDFSCluster进行junit测试。现在我只是启动和关闭集群，junit运行绿色。但我得到这个异常(exception):javax.management.InstanceAlreadyExistsException:MXBeanalreadyregisteredwithnameHadoop:service=NameNode,name=MetricsSystem,sub=Controlatcom.sun.jmx.mbeanserver.MXBeanLookup.addReference(MXBeanLookup.java:120)atcom.sun.jmx.mbe

时出 InstanceAlreadyExistsException java junit hadoop hdfs

hadoop - YARN Application Master 无法连接到 Resource Manager

我有一个4节点集群(1个名称节点/资源管理器3个数据节点/节点管理器)我正在尝试运行一个简单的tez示例orderedWordCounthadoopjarC:\HDP\tez-0.4.0.2.1.1.0-1621\tez-mapreduce-examples-0.4.0.2.1.1.0-1621.jarorderedwordcountsample/test.txt/sample/out作业被接受，Applicationmaster和容器被设置但是在节点管理器上我看到了这些日志2014-09-1017:53:31,982INFO[ServiceThread:org.apache.tez.

Application Resource resourcemanager gt lt hadoop hadoop-yarn

java - 连接到远程 Spark master - Java/Scala

我在AWS中创建了一个3节点(1个主节点，2个工作节点)ApacheSpark集群。我可以从主节点向集群提交作业，但是我无法让它远程工作。/*SimpleApp.scala*/importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importorg.apache.spark.SparkConfobjectSimpleApp{defmain(args:Array[String]){vallogFile="/usr/local/spark/README.md"//Shouldbesomefileony

master Spark code apache java scala hadoop apache-spark amazon-ec2

hadoop - Rack-local map任务和Data-local map任务有什么区别？

当我运行“hadoopjob-statusxxx”时，输出以下一些列表。Rack-localmaptasks=124Data-localmaptasks=6Rack-localmaptasks和Data-localmaptasks有什么区别？最佳答案在本地数据任务中，不需要复制任何内容。那是因为该block与计算物理上位于同一台服务器上。下一层是机架本地任务，这里必须复制数据，因为没有可用的所需block的本地副本。请注意，本地机架仅在网络的本地机架交换中复制。还有最坏的情况，数据在本地不可用，也不在同一机架上。所以这必须通过两

local Rack-local section tasks hadoop mapreduce hadoop-streaming

scala - Spark 驱动程序被 master 解除关联并删除

我有一个由两个奴隶和一个主人组成的集群，我设置了一个jar(scala)给spark主人(192.168.1.64):spark-submit--masterspark://spark-master:7077--classtests.elementstarget/scala-2.10/zzz-project_2.10-1.0.jar运行一段时间后它突然停止，终端上的最后几行是...15/08/1917:45:24INFOscheduler.TaskSchedulerImpl:Addingtaskset411292.0with6tasks15/08/1917:45:24WARNsched

驱动 master 15 INFO code scala hadoop apache-spark

postgresql - 无法使用 Cloudera Manager 安装 hadoop

我正在尝试使用clouderaManager5.9在单个VM中设置hadoop集群(为简单起见)。以下是我的环境的详细信息:HostOS->Windows10Virtualizationsoftware->Virtualbox5.1.10GuestOS->CentOS6.8我安装了ClouderaManager，并按照ClouderaManager的说明按照步骤操作。大部分安装步骤都很好，但在最后一次检查时失败了。下面是它的屏幕截图。如屏幕截图所示，它给出了错误:“意外错误。无法验证数据库连接。”我已经对Cloudera默认使用的Postgres数据库的配置文件进行了必要的更改，即它应

postgresql Cloudera section hadoop hadoop2 cloudera-cdh cloudera-manager

hadoop - Hbase:如何为 Hbase master 指定主机名

我正在努力设置一个具有2个节点的Hbase分布式集群，一个是我的机器，一个是VM，使用VirtualBox中的“host-only”适配器。我的问题是区域服务器(来自VM机器)无法连接到主机上运行的Hbasemaster。尽管在Hbaseshell中我可以在VM机器('slave')上的区域服务器中列出，创建表，......，日志总是显示org.apache.hadoop.hbase.regionserver.HRegionServer:Unabletoconnecttomaster.Retrying.Errorwas:java.net.ConnectException:Connect

Hbase 何为 master section code hadoop