草庐IT

Cloudera-CDH

全部标签

hadoop - Alluxio 错误 :java. lang.IllegalArgumentException:错误的 FS

我可以使用cloudera提供的示例jar在alluxio上运行wordcount,使用:sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jarwordcount-libjars/home/nn1/alluxio-1.2.0/core/client/target/alluxio-core-client-1.2.0-jar-with-dependencies.jaralluxio://nn1:19998/wordcountalluxio://nn1:19998/wc1这是成功的。但是当我使用附加代码创建的

hadoop - MapR 架构与 Cloudera 架构

我熟悉Cloudera的基础设施或架构:Master节点包括NameNode、SecondaryNameNode、JobTracker、HMaster。从节点包括DataNode、TaskTracker、HRegionServer。Master节点应该都在自己的节点上(除非它是一个小集群,而不是SecondaryNameNode,JobTracker和HMaster可以组合,如果它是一个非常小的集群甚至是NameNode)。从节点应始终位于同一节点上。从节点越多越好。SecondaryNameNode用词不当,除非您为高可用性启用它。MapR是否维护此设置?它有何相似之处和不同之处?

hadoop - Cloudera 支持 docker 容器或 Docker 支持 CM 5 图像

最近我的组织正在考虑使用Docker。我们组使用的是clouderaCDH5.1.2。1)cloudera是否与Docker容器兼容?2)docker和cloudera组合是否存在已知问题?我在这个论坛上找不到任何关于docker的话题。任何指针都会有所帮助。谢谢,阿米特 最佳答案 已发布Cloudera的官方答复here:Ireadthroughwhatdockeris,yesterday.Idonotthinkthishasbeentested,thereareanumberofplatformvirtualizationpro

hadoop - Cloudera Manager 安装无法从代理接收心跳 - 将新主机添加到集群

我尝试在Ubuntu12.04.1LTS上安装使用标准版本的cloudera管理器,当我想添加新主机时,出现下一个错误:Installationfailed.Failedtoreceiveheartbeatfromagent.Ensurethatthehost'shostnameisconfiguredproperly.Ensurethatport7182isaccesibleontheClouderaManagerserver(checkfirewallrules).Ensurethatports9000an9001arefreeonthehostbeingadded.Checkag

hadoop - HDFS 容量 : how to read "dfsadmin report"

我正在使用Hadoop2.6.0。当我运行“hdfsdfsadmin-report”时,我得到了这样的东西(简化):ConfiguredCapacity:3TBPresentCapacity:400GBDFSRemaining:300GBDFSUsed:100GB我想知道“配置容量”是什么,“当前容量”是什么。看起来“PresentCapacity”是有效的。我怎样才能增加这个? 最佳答案 配置容量是用于数据目录的磁盘/卷的总可用容量。例如:我在/Hadoop/sdb1、/Hadoop/sdc1、/Hadoop/sdd1上安装了三个

hadoop - 如何使用oozie检查文件是否存在于HDFS位置?

如何使用Oozie检查HDFS位置的文件是否存在?在我的HDFS位置,我会在每天晚上11点得到一个像这样的文件test_08_01_2016.csv。我想在晚上11点15分之后检查这个文件是否存在。我可以使用Oozie协调器作业安排批处理。但是我如何验证该文件是否存在于HDFS中? 最佳答案 您可以在oozie中使用EL表达式,例如:${fs:exists('/path/test_08_01_2016.csv')}您还可以使用简单的shell脚本使用捕获输出来构建文件的名称。 关于had

hadoop - 从本地 IDE 针对远程 Spark 集群运行

我们有一个基于Kerberos的集群,Spark在Yarn上运行。目前,我们在本地用Scala编写Spark代码,然后构建一个胖JAR,我们将其复制到集群,然后运行​​spark-submit。相反,我想在我的本地PC上编写Spark代码并让它直接在集群上运行。有没有直接的方法来做到这一点?Spark文档似乎没有任何此类模式。仅供引用,我的本地计算机正在运行Windows,集群正在运行CDH. 最佳答案 虽然cricket007的答案适用于spark-submit,但这是我使用IntelliJ针对远程集群运行的方法:首先,确保客户端

hadoop - 有没有办法用带参数的sql脚本运行impala shell?

有什么方法可以使用带参数的SQL脚本运行impalashell吗?例如:impala-shell-f/home/john/sql/load.sql/dir1/dir2/dir3/data_file我有错误:Error,couldnotparsearguments"-f/home/john/sql/load.sql/dir1/dir2/dir3/data_file” 最佳答案 此功能在CDH5.7/Impala2.5及更高版本中可用。--var选项允许您将替换变量传递给由该impala-shellsession执行的语句,例如由-f选

java - 如何使用 hadoop 2.x 并行运行 MapReduce 任务?

我希望我的map和reduce任务并行运行。然而,尽管尝试了所有的技巧,它们仍然按顺序运行。我读自HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce,使用以下公式,可以设置并行运行的任务数。min(yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemanager.resource.cpu-vcores/mapreduce.[map|reduce].cp

configuration - cdh4 hadoop-hbase PriviledgedActionException 为 :hdfs (auth:SIMPLE) cause:java. io.FileNotFoundException

我已经安装了clouderacdh4release我正在尝试在上面运行mapreduce作业。我收到以下错误-->2012-07-0915:41:16ZooKeeperSaslClient[INFO]ClientwillnotSASL-authenticatebecausethedefaultJAASconfigurationsection'Client'couldnotbefound.IfyouarenotusingSASL,youmayignorethis.Ontheotherhand,ifyouexpectedSASLtowork,pleasefixyourJAASconfigu