task-manager

hadoop - 无法在 Cloudera Manager 中启动 HBase

在我的设置中，由于电源中断，我的虚拟机在重新启动所有虚拟机后进入停机状态我无法启动Hbase，所有其他服务都可以重新启动/停止/启动，但在CM的UI中在hbaseACTIONS选项卡中，所有选项都被隐藏了..以下是我的hbasemaster日志，现在处于退出模式6:29:05.880AMERRORorg.apache.hadoop.hbase.zookeeper.RecoverableZooKeeperZooKeeperexistsfailedafter3retries6:29:05.880AMWARNorg.apache.hadoop.hbase.zookeeper.ZKUtilhc

hadoop - 为什么挂起的 map task 没有启动？

我有一个特别的pig工作，通常需要大约12分钟才能运行，但每天有几次它会卡在奇怪的状态。该作业有6个映射和1个reduce任务。它成功完成了第一个maptask，然后它会“暂停”数小时(永远!)。作业跟踪器指示有5个map和1个reduce挂起，但是没有任务在运行。没有任务显示任何错误。maptask将不会启动，但不会发生错误。我如何找出任务没有开始的原因？我已尝试提高作业的优先级，并且已验证有可用的map和reduce插槽。运行的一张map的任务日志看起来完全正常。是否有其他日志可以告诉我发生了什么？我正在使用ClouderaCDH4.5和MR1。小型集群有5个节点。

hadoop task section map 跟踪器 apache-pig cloudera

linux - 为什么 Cloudera Manager 报告磁盘已满？

ClouderaManager报告我的Hadoop集群的某些节点上的磁盘已满，但是使用df-h手动检查可用空间时，每个磁盘几乎都是半空的。这是一个错误还是我需要发出一些其他命令来检查实际可用空间？ClouderaManager在进行健康检查时使用什么命令？最佳答案我解决了这个问题。属性dfs.datanode.du.reserved设置为100GB，因此Hadoop无法使用该空间量(对于每个卷)来存储新的HDFSblock。关于linux-为什么ClouderaManager报告磁

Cloudera Manager section linux hadoop cloudera-manager

hadoop - 如何防止由于 reduce task 失败而导致 hadoop 失败

我在AWSEMRhadoop2.2.0版本中运行了一个s3distcp作业。在3次尝试后，作业保持失败，reducer任务失败。我也都试过了:mapred.max.reduce.failures.percentmapreduce.reduce.failures.maxpercent要50到ooziehadoop操作配置和mapred-site.xml。但作业仍然失败。这是日志:2015-10-0214:42:16,001INFO[main]org.apache.hadoop.mapreduce.Job:TaskId:attempt_1443541526464_0115_r_000010

hadoop reduce apache 2015 mapreduce elastic-map-reduce

hadoop - 如何自动配置 Cloudera Manager？

我已经创建了一些脚本，使我能够自动执行绝大多数CDH5和ClouderaManagerv5的安装。问题是每次启动集群时，我都必须通过GUI向导配置cloudera管理器。如何配置cloudera管理器以避免GUI设置向导？最佳答案 ClouderaManager具有完整的RESTAPI，允许您以编程方式执行任何可以通过UI执行的操作。API详细信息在这里:http://cloudera.github.io/cm_api/ 关于hadoop-如何自动配置ClouderaManager？，

Cloudera Manager section hadoop cloudera-cdh cloudera-manager

hadoop - ubuntu 14.04/64b 安装cloudera manager

我正在我的系统(14.04/64b)中安装ClouderaManager。在最后一步安装时，在完成安装之前我在验证中遇到了一些错误，如下所示，上面页面的错误是，错误1个别主机正确解析了自己的主机名。主机localhost应具有名称localhost但将(InetAddress.getLocalHost().getHostName())本身解析为arul-pc。错误2检查/etc/hosts时发现以下错误...主机名localhost不是地址127.0.0.1的第一个匹配项在本地主机上的/etc/hosts中。相反，arul-pc是第一个匹配项。这FQDN必须是相应IP的/etc/hos

cloudera manager strong section localhost hadoop ubuntu-14.04 cloudera-cdh cloudera-manager

scala - Apache Spark : how to cancel job in code and kill running tasks?

我在客户端模式下使用Yarn(版本2.6.0)在Hadoop集群上运行Spark应用程序(版本1.6.0)。我有一段运行长时间计算的代码，如果它花费的时间太长，我想终止它(然后运行一些其他函数)。这是一个例子:valconf=newSparkConf().setAppName("TIMEOUT_TEST")valsc=newSparkContext(conf)vallst=List(1,2,3)//settingupaninfiteactionvalfuture=sc.parallelize(lst).map(while(true)_).collectAsync()try{Await.

running Apache section val scala hadoop apache-spark hadoop-yarn

hadoop - 在配置单元 "Unable to retrieve URL for Hadoop Task logs. Does not contain a valid host:port authority: local"上出现错误

在涉及mapreduce的hive上执行任何查询时，我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下，您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反，它应该是:. 关于hadoop

配置单 amp section code Hadoop hive

hadoop - Hive on tez in EMR schedule tasks very slow

我正在尝试在tez上使用Hive来查询存储在S3中的orc格式数据。TezAM定时任务非常慢，很多Map任务长时间处于“PENDING”状态。集群中有足够的资源(我会说足够了。有超过6TB的内存和超过1000个vcores可用，在这个作业中每个容器只花费2GB内存。这是唯一在集群中运行的作业yarncluster)，但它们在调度任务方面做得很慢。有什么方法可以加快这个过程吗？最佳答案我遇到了同样的问题。我决定更换Hive的引擎。试试这个命令:设置hive.execution.engine=mr;在任何情况下，MR都是最好的。AW

schedule hadoop section strong noreferrer hadoop-yarn tez

hadoop - 安装cloudera manager后无法执行任何hadoop命令

我已经成功地设置了我的cdh集群(5.14.0)，其中包括4个节点，并安装了包括hdfs、yarn、zookeeper和impala在内的服务。cloudera管理器网页工作正常。但是当我打开一个终端并尝试运行任何hadoop命令时，比如hadoop、impala或任何东西，shell提示“找不到命令”。我使用hadoop用户安装了CM，并使用默认用户cloudera-scm在singer用户模式下运行所有服务。我知道CM应该为我设置环境变量，但似乎没有。非常感谢您的帮助! 最佳答案确保从cloudera管理器服务器下载CDH

hadoop cloudera section deployClientConfig

117 118 119120121 122 123