草庐IT

Cloudera-Agent

全部标签

java - 启动flume agent显示jdk路径错误,是目录,无法执行

我在安装flume时遇到错误。由于jdk路径显示为目录且无法执行,我无法启动flumeagent。请帮我解决这个问题,以便在我的hdfs中获取JSON数据hadoop1@ubuntu:~/Downloads/apache-flume-1.6.0-bin$bin/flume-ngagent-conf./conf/-fconf/flume.conf-Dflume.root.logger=DEBUG,console-nTwitterAgentWarning:Noconfigurationdirectoryset!Use--conftooverride.Info:IncludingHadoop

java - 如何管理flume agent之间的并发。

我正在从事大数据项目。我们正在使用flume将文件从sftp下载到HDFS。然后,我们配置了3个代理。他们从同一个来源阅读。结果,我们将3个重复文件放入HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对处理过的文件保持可追溯性,并管理代理之间的并发性。例如,我们有3个主要代理A1、A2和A3。如果代理A2正在处理或正在处理文件xxx.csv。其他人不会处理它,并会寻找未处理的文件。因此,每个文件只能由一个代理处理。有没有人处理过类似的问题? 最佳答案 使用loadbalancingsinkprocessor可以有1个源

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后,当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9

hadoop - Cloudera hadoop数据存储到特定节点

我有10个amazonec2节点集群用于每天的数据处理,我想将所有10个节点用于每天的批处理(仅处理2小时),一旦生成报告数据点,我想关闭5节点,并在一天的其余时间仅使5个节点处于事件状态以进行成本优化。我的复制因子是3。在某些情况下,所有3个数据block(实际和复制block)都存储在我正在关闭的那5个节点中。因此我无法正确读取数据。我能否在cloudera管理器中进行一些设置以将特定数据库或特定表持久保存到给定节点中,这样我在只有5个事件节点时读取数据时不会有任何问题。或任何其他建议将不胜感激。 最佳答案 您可以使用机架感知(

Hadoop 安装和 Cloudera 管理器 - SSH

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion抱歉,这是我在几个小时内就同一主题发表的第二篇文章。只是尝试使用Cloudera的免费安装来安装Hadoop。我是Linux和Hadoop的新手。到了可以登录ClouderaManager的地步。第一次登录,提示创建集群。不确定我应该放在这里什么,但localhost似乎已被识别,我可以继续。我接受了SelectRepository屏幕上的所有默认设置。然后我进入SSH凭据屏幕。在这里我不知道我

hadoop - 使用 Kerberos 访问 Cloudera Hadoop 会出现 TokenCache 错误 : Can't get Master Kerberos principal for use as renewer

我正在尝试从MacBookProOSX10.8.4访问ClouderaHadoop设置(HIVE+Impala)。我们在Linux服务器上安装了ClouderaCDH-4.3.0。我已将CDH-4.2.0tarball提取到我的MacBookPro。我已经设置了正确的配置和Kerberos凭据,以便像“hadoop-fs-ls/”这样的命令可以工作并且HIVEshell可以启动。但是,当我执行“显示数据库”命令时,出现以下错误:>hive>showdatabases;>Failedwithexceptionjava.io.IOException:java.io.IOException:

jdbc - 使用CDH4+Cloudera Manager时JDBC驱动放在哪里?

我试图让Sqoop2(CDH4.4.0)识别JDBCjar,但无论我把它们放在哪里,它们似乎都没有被识别。我听从了建议:here,here,并问了一个类似的问题here.有人可以对此提供明确的答案吗? 最佳答案 我强烈建议您遵循Hadoop发行版及其相关版本的官方安装指南。看来您使用的是CDH4.4.0,但正在查看CDH4.2.1安装说明。而在CDH4.2.1中,JDBC驱动程序jar文件应在/usr/lib/sqoop2中,自CDH4.3.0起,它们应在/var/lib/sqoop2中(documentation)。

java - 从 eclipse 运行 hadoop(Cloudera-2.0.0-cdh4.4.0) 作业时出错?

您好,我正在从eclipse运行hadoopwordcount示例,但出现以下错误:-13/11/2422:17:08DEBUGipc.Client:IPCClient(2010005445)connectiontolocalhost/127.0.0.1:8020fromharindersending#1213/11/2422:17:08DEBUGipc.Client:IPCClient(2010005445)connectiontolocalhost/127.0.0.1:8020fromharindergotvalue#1213/11/2422:17:08DEBUGipc.Proto

Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少,它看起来如何?

我手动安装了一个具有以下配置的三节点集群:Master/SlaveNode0-NameNode,SecondaryNameNode,JobTracker,HMaster,DataNode,TaskTracker,HRegionServer,HiveMetaStore,DatabaseforHive/Sqoop,HiveServer2,HCatalog,OozieServer,Zookeeper,Oozie-client,Hive-client,pig-client,M/Rclienttools,SqoopSlaveNode1-DataNode,TaskTracker,HRegionSe

hadoop - Cloudera Manager CDH Parcel 分发错误

我正在尝试使用CentOS6机器在Rackspace云上安装Hadoop集群。从cloudera管理器创建新集群时出现以下错误。有人可以帮忙吗。集群安装安装选定的包裹正在将选定的包裹下载并安装到集群中的所有主机上。CDH5.3.2-1.cdh5.3.2.p0.103个错误Errorwhendistributingtovm-cdh-cluster-3:[Errnosocketerror][Errno-2]Nameorservicenotknown.Errorwhendistributingtovm-cdh-cluster-1:[Errnosocketerror][Errno-2]Name