Cluster1

azure - 如何查询azure hdinsight hadoop cluster yarn timeline server

如何查询AzureHDInsightHadoop集群中的时间线服务器以获取作业指标？连接到Azure集群:curl-uadmin-sS-G"https://$CLUSTERNAME.azurehdinsight.net/api/v1/clusters/$CLUSTERNAME"连接到时间线服务器:GET/ws/v1/timeline/我需要一个连接这两个的查询来获取AzureHDInsightHadoop集群的作业指标。提前致谢。最佳答案查询Yarn时间线服务器:sshuser@clustername:~$curl-uadmin

hadoop - Cloudera 5.4.4 Cluster - 获取聚合使用指标

我想从Cloudera5.4.4Hadoop集群收集汇总使用指标。我心目中的一些指标如下:集群每天/每周的平均CPU利用率Hadoop上运行时间最长的n个作业/查询最常使用集群的前n个用户(按利用率、提交的作业数)集群磁盘使用率与磁盘容量集群磁盘使用量随时间增长是否有任何API/资源/工具等我可以用来开始这个？我不认为我完全确定从哪里开始。任何起点将不胜感激。另外，请分享您在集群使用指标方面的经验(如果有的话)。提前致谢! 最佳答案 Ganglia是一个用于大型集群的开源、可扩展的分布式监控系统。它收集、汇总并提供数十个与机器相关的

Cloudera Cluster section Ganglia Hadoop cloudera-cdh cloudera-manager

java - 错误 : java heap space on Google Data-Proc Cluster

我在Googledataproc集群上从一个表运行Hive插入覆盖查询13783531记录到另一个分区表，不做任何转换。失败并出现错误DiagnosticMessagesforthisTask:Error:JavaheapspaceFAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduceJobsLaunched:Stage-Stage-1:Map:34CumulativeCPU:1416.18secHDFSRead:6633737937HDFSWrite:0FAI

java Data-Proc code section pre hadoop hive google-cloud-platform google-cloud-dataproc

hadoop - Cloudera Cluster 安装过程出错？

我已经成功安装了Cloudera管理器。它显示Currentlymanagedhosts为127.0.0.1并且它是事件的。当我在加载后使用cloudera管理器搜索和安装集群时，它显示以下错误。Installationfailed.Failedtoreceiveheartbeatfromagent.Ensurethatthehost'shostnameisconfiguredproperly.Ensurethatport7182isaccessibleontheClouderaManagerserver(checkfirewallrules).Ensurethatports9000a

Cloudera Cluster code section noreferrer hadoop cluster-computing apache-pig hadoop-streaming

java - Spark Yarn Cluster 连接到 Hbase 错误

我有一个应用程序可以解析vcf文件并将数据插入到hbase中。该应用程序在使用masterlocal时运行，使用apachespark没有问题，但是当我使用apachesparkyarncluster运行它时，出现以下错误:17/03/3110:36:09INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(state:RUNNING)17/03/3110:36:10INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(stat

Cluster Spark apache SparkSubmit java hadoop apache-spark hbase hadoop-yarn

hadoop - 我是否必须在所有节点中运行历史服务器才能在 Hadoop Cluster WebUI 中获取作业历史记录

我在Hadoop集群中遇到一个问题。我有一个包含5个数据节点和一个边缘/网关节点的Hadoop集群。我的问题是我必须在每个节点(1个名称节点和5个数据节点)中启动历史服务器，以从hadoopwebUI获取任何提交作业的作业历史记录。我在mapred-site.xml中添加了mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address但我猜它不能正常工作。如果我仅在名称节点或任何其他节点中启动历史服务器，HadoopClusterWeb-UI将无法向我显示作业历史记录并以一些错误结束。我的映射站点XMLmapred.jo

有节点中 gt lt property hadoop hadoop2 bigdata

hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?

已解决:原来是我的UDTF出错了。我找到了一个修复程序，但我不太明白为什么它会起作用。当初我实现UDTF的时候，Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错，所以我还是实现了它。我在那个方法里放了一个变量初始化，猜测init只做一次。该jar适用于一些更简单的场景，但如果我要将UDTF输出与UDF一起使用，则使用UDF输出来做一些事情，例如作弊的clusterby或insert，我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中，使用if检查变量是否为null，

cluster hadoop code section hive

hadoop - Cloudera CDH4 : Can't add a host to my cluster because canonical name is not consistent with hostname

我正在使用Ubuntu12.04LTS在4节点集群上安装CDH4。我能够安装cloudera管理器并在主机上启动单节点集群。但是，一旦我添加了一个新主机，CM就会说它运行状况不佳并抛出以下错误:“从Java进程检查时，此主机的主机名和规范名称不一致。”我修改了master和所有主机上的/etc/hosts的内容，以包含IP地址，后跟每台机器的FQDN。我是否还需要设置一个DNS服务器才能完成这项工作？最佳答案您不一定需要设置DNS服务器才能使其正常工作，但正向和反向DNS必须明确匹配Hadoop才能正常运行。Hadoop操作书有

consistent canonical section amp 反向 hadoop ubuntu-12.04 cloudera

java - Yarn mini-cluster 容器日志目录不包含 syslog 文件

我已经基于来自CDH5.1.0的hadoop2.3.0设置了带有1个节点管理器、4个本地目录和4个日志目录等的YARNMapReduce迷你集群。它看起来或多或少有效。我未能实现的是来自容器的系统日志记录。我看到容器日志目录、stdout和stderr文件，但没有看到带有MapReduce容器日志记录的syslog。适当的stderr警告我没有log4j配置并且不包含任何其他字符串:log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.metrics2.impl.MetricsSystemImpl).log4j:WAR

mini-cluster 容器 code section java hadoop mapreduce log4j hadoop-yarn

hadoop - 如何解决 Oozie 错误 : JA009: Cannot initialize Cluster. 检查 mapreduce.framework.name 的配置

我一直在使用oozie来安排spark作业。尝试使用Oozie中可用的spark操作在2.x集群中部署spark作业。在我的job.properties中，我有以下内容`nameNode=hdfs://hostname:8020jobTracker=hostname:8050master=yarn-clusterqueueName=defaultoozie.use.system.libpath=true`当我提交oozie作业时，我一直收到此错误错误:错误代码[JA009]，消息[JA009:无法初始化集群。请检查您的mapreduce.framework.name配置和相应的服务器地

initialize framework oozie section apache hadoop oozie-coordinator

15 16 171819 20 21