草庐IT

Cloudera

全部标签

hadoop - 灵活的堆空间分配给 Hadoop MapReduce Mapper 任务

我无法找到配置运行MapReduce1的Hadoop集群(CDH4)的最佳方法。我处于这样一种情况,我需要运行两个需要大量Java堆空间的映射器,以至于我不可能在每个节点上运行超过1个映射器——但同时我希望能够运行作业这可以受益于每个节点的许多映射器。我正在通过Cloudera管理UI配置集群,MaxMapTasks和mapred.map.child.java.opts似乎是相当静态的设置。我想要的是一个类似堆空间池的东西,有XGB可用,它可以容纳这两种作业,而不必每次都重新配置MapReduce服务。如果我运行1个映射器,它应该分配XGB堆-如果我运行8个映射器,它应该分配X/8GB

jdbc - 使用CDH4+Cloudera Manager时JDBC驱动放在哪里?

我试图让Sqoop2(CDH4.4.0)识别JDBCjar,但无论我把它们放在哪里,它们似乎都没有被识别。我听从了建议:here,here,并问了一个类似的问题here.有人可以对此提供明确的答案吗? 最佳答案 我强烈建议您遵循Hadoop发行版及其相关版本的官方安装指南。看来您使用的是CDH4.4.0,但正在查看CDH4.2.1安装说明。而在CDH4.2.1中,JDBC驱动程序jar文件应在/usr/lib/sqoop2中,自CDH4.3.0起,它们应在/var/lib/sqoop2中(documentation)。

java - 从 eclipse 运行 hadoop(Cloudera-2.0.0-cdh4.4.0) 作业时出错?

您好,我正在从eclipse运行hadoopwordcount示例,但出现以下错误:-13/11/2422:17:08DEBUGipc.Client:IPCClient(2010005445)connectiontolocalhost/127.0.0.1:8020fromharindersending#1213/11/2422:17:08DEBUGipc.Client:IPCClient(2010005445)connectiontolocalhost/127.0.0.1:8020fromharindergotvalue#1213/11/2422:17:08DEBUGipc.Proto

hadoop - 更改 hadoop 中的 block 大小后会发生什么

我知道如何更改hadoop中的block大小。更改block大小后会发生什么,namenode如何将perivousdatanode更改为当前大小。如果我的集群非常大,并且我在以前的数据节点上的数据节点上提交作业,那仍然不会取消对当前大小的更改。这是如何由名称节点管理的。 最佳答案 什么都没有发生。事实上,block大小是单个文件的属性。您在配置中定义的是默认值。您可以在HDFS中放置或创建文件时指定block大小。该属性作为名称节点元数据的一部分与文件的元数据一起存储。如果未指定任何内容,则使用默认值。当访问文件时,会使用文件的b

Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少,它看起来如何?

我手动安装了一个具有以下配置的三节点集群:Master/SlaveNode0-NameNode,SecondaryNameNode,JobTracker,HMaster,DataNode,TaskTracker,HRegionServer,HiveMetaStore,DatabaseforHive/Sqoop,HiveServer2,HCatalog,OozieServer,Zookeeper,Oozie-client,Hive-client,pig-client,M/Rclienttools,SqoopSlaveNode1-DataNode,TaskTracker,HRegionSe

python - SSH:在终端中运行的 javac 命令在通过 SSH 执行时不起作用

我正在使用Python代码在使用SSH的Linux(Cloudera)机器上运行Hadoop程序。我在将java文件编译为类文件时遇到了一些问题。当我执行命令时:javac-cp/usr/lib/hadoop/*:/usr/lib/hadoop/client-0.20/*remote_hadoop/javasrc/*所有文件都编译成功。当我通过我的PythonSSH客户端执行相同的命令时,我收到了“无效标志”错误:spur.results.RunProcessError:返回代码:2输出:b''stderr输出:b'javac:无效标志:remote_hadoop/javasrc\n用

hadoop - Cloudera Manager CDH Parcel 分发错误

我正在尝试使用CentOS6机器在Rackspace云上安装Hadoop集群。从cloudera管理器创建新集群时出现以下错误。有人可以帮忙吗。集群安装安装选定的包裹正在将选定的包裹下载并安装到集群中的所有主机上。CDH5.3.2-1.cdh5.3.2.p0.103个错误Errorwhendistributingtovm-cdh-cluster-3:[Errnosocketerror][Errno-2]Nameorservicenotknown.Errorwhendistributingtovm-cdh-cluster-1:[Errnosocketerror][Errno-2]Name

hadoop - Cloudera Director Server AWS 快速入门

我正在关注ClouderaAWS快速入门https://s3.amazonaws.com/quickstart-reference/cloudera/hadoop/latest/doc/Cloudera_EDH_on_AWS.pdf我正在使用选项2使用ClouderaDirectorServer。我按照指示使用./bin/cloudera-director-server启动服务器,然后系统提示我“监听端口7189上的连接”。由于没有提示,我不确定如何运行下一步。./bin/cloudera-directorbootstrap-remoteaws.simple.conf--ip.remo

hadoop - 为什么 Impala 为一个插入语句生成多个文件

假定应该为单个“插入...选择”语句生成一个文件,而在我的例子中生成了20个文件。如何将结果缩减为一个文件? 最佳答案 如果文件很小,您可以使用SETNUM_NODES=1强制所有数据通过单个节点,如documentation中所述. 关于hadoop-为什么Impala为一个插入语句生成多个文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/30367636/

Hadoop "hadoop dfsadmin -safemode leave"命令已弃用

使用Sudojps查看正在运行的守护进程。并发现节点管理器没有运行。如此尝试,sudoservicehadoopmasterstop停止,当我尝试重新启动时它重新启动了。然而,当我给出这个命令时hadoopdfsadmin-safemodeleave它说它已被弃用。我也试过了hadoophdfsadmin-safemodeleave但是,得到Error:Couldnotfindorloadmainclasshdfsadmin 最佳答案 hadoopdfsadmin已被删除,但它应该可以工作。正确的用法是hdfsdfsadmin-sa