cluster-manager

hadoop - 定位 Cloudera Manager HDFS 配置文件

我已经通过ClouderaManager安装了一个集群，现在我需要手动启动集群。我一直在使用以下命令:$sudo-uhdfshadoopnamenode/datanode/jobtracker但是dfs.name.dir被设置为/tmp。我似乎找不到cloudera管理器在哪里有HDFS配置文件。/usr/lib/hadoop-02*/conf中的那些似乎是最小的。他们缺少dfs.name.dir，这是我特别要找的。顺便说一下，我在RHLE6系统上。由于懒惰，我虽然可以只复制cloudera管理器的HDFS配置文件，所以我不必手动创建它们，将它们复制到6个节点:)谢谢

hadoop - "Got error creating database manager"- sqoop 导入查询出错

场景:我正在尝试从sqlserver导入到HDFS，但出现以下错误:错误:hadoop@ubuntu:~/sqoop-1.1.0/bin$./sqoopimport--connect'jdbc:sqlserver://192.168.230.1;username=xxx;password=xxxxx;database=HadoopTest'--tablePersonInfo--target-dir/home/hadoop/hadoop-0.21.0/11/12/1012:13:20ERRORtool.BaseSqoopTool:Goterrorcreatingdatabasemanag

amp creating sqoop cloudera hadoop

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后，“jps”没有列出任何节点。那么，即使在使用公共(public)hadoopAMI之后，我们还必须为主服务器和从服务器设置hadoop吗？master怎么知道slave的IP地址？？谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗？谢谢。最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

amazon-ec cluster section hadoop apache amazon-ec2 mapreduce

memory-management - HBase MemStore 和垃圾收集

我是HBase的新手，但我已经设置好HBase和Hadoop并了解一些相关知识。当我研究HBaseMemStore时，我对MemStore的全部了解是“MemStore是HBase放置必须写入或读取的数据的内存位置”。所以，这就是为什么我们想在何时何地阅读有关memstore的内容时，我们也会看到有关垃圾收集的讨论。现在我的问题是，memstore的唯一目的是在内存中保存可读和可写的数据吗？我们可以调整该内存的大小以获得hbase的快速回复吗？垃圾收集配置(收集器配置)会影响内存库吗？我认为应该是的。:) 最佳答案关于HbaseM

memory-management management section HBase memstore hadoop

apache-spark - 有关 yarn-cluster 模式下 Spark 驱动程序(及其 YARN 容器)的故障转移过程如何工作的资源/文档

我试图了解在以集群模式部署Yarn时，SparkDriver是否是单点故障。因此，我想在这种情况下更好地了解有关SparkDriver的YARN容器的故障转移过程的内部结构。我知道Spark驱动程序将在Yarn容器内的SparkApplicationMaster中运行。如果需要，SparkApplicationMaster将向YARNResourceManager请求资源。但是我还没有找到足够详细的文档来说明在SparkApplicationMaster(和Spark驱动程序)的YARN容器发生故障时的故障转移过程。我试图找到一些详细的资源，这些资源可以让我回答与以下场景相关的一些问题

apache-spark yarn-cluster Spark 驱动容器 hadoop hadoop-yarn alluxio

hadoop - 在没有cloudera manager的情况下安装cloudera impala

请提供在没有cloudera管理器的情况下在ubuntu中安装imapala的链接。无法使用官方链接安装。无法使用这些查询定位包impala:sudoapt-getinstallimpala#Binariesfordaemonssudoapt-getinstallimpala-server#Servicestart/stopscriptsudoapt-getinstallimpala-state-store#Servicestart/stopscript 最佳答案首先你需要获取包列表并将其存储在/etc/apt/sources.l

cloudera manager impala section apt-get hadoop hive

使用 hadoop MiniDFSCluster 时出现 javax.management.InstanceAlreadyExistsException

我正在使用MiniDFSCluster进行junit测试。现在我只是启动和关闭集群，junit运行绿色。但我得到这个异常(exception):javax.management.InstanceAlreadyExistsException:MXBeanalreadyregisteredwithnameHadoop:service=NameNode,name=MetricsSystem,sub=Controlatcom.sun.jmx.mbeanserver.MXBeanLookup.addReference(MXBeanLookup.java:120)atcom.sun.jmx.mbe

时出 InstanceAlreadyExistsException java junit hadoop hdfs

hadoop - YARN Application Master 无法连接到 Resource Manager

我有一个4节点集群(1个名称节点/资源管理器3个数据节点/节点管理器)我正在尝试运行一个简单的tez示例orderedWordCounthadoopjarC:\HDP\tez-0.4.0.2.1.1.0-1621\tez-mapreduce-examples-0.4.0.2.1.1.0-1621.jarorderedwordcountsample/test.txt/sample/out作业被接受，Applicationmaster和容器被设置但是在节点管理器上我看到了这些日志2014-09-1017:53:31,982INFO[ServiceThread:org.apache.tez.

Application Resource resourcemanager gt lt hadoop hadoop-yarn

postgresql - 无法使用 Cloudera Manager 安装 hadoop

我正在尝试使用clouderaManager5.9在单个VM中设置hadoop集群(为简单起见)。以下是我的环境的详细信息:HostOS->Windows10Virtualizationsoftware->Virtualbox5.1.10GuestOS->CentOS6.8我安装了ClouderaManager，并按照ClouderaManager的说明按照步骤操作。大部分安装步骤都很好，但在最后一次检查时失败了。下面是它的屏幕截图。如屏幕截图所示，它给出了错误:“意外错误。无法验证数据库连接。”我已经对Cloudera默认使用的Postgres数据库的配置文件进行了必要的更改，即它应

postgresql Cloudera section hadoop hadoop2 cloudera-cdh cloudera-manager

hadoop - 使用 --master yarn-cluster : issue with spark-assembly 运行 spark-submit

我在基于Kerberos的集群上运行Spark1.1.0、HDP2.1。我可以使用--masteryarn-client成功运行spark-submit，并且结果已正确写入HDFS，但是，该作业没有显示在HadoopAllApplications页面上。我想使用--masteryarn-cluster运行spark-submit但我仍然收到此错误:appDiagnostics:Applicationapplication_1417686359838_0012failed2timesduetoAMContainerforappattempt_1417686359838_0012_0000

spark spark-assembly section spark-submit hadoop apache-spark hadoop-yarn