草庐IT

report_service

全部标签

hadoop - YARN Timeline Service v2 无法启动

我在AWS上设置了一个测试HDP集群,用于评估一个项目。AmbariUI报告了一些错误,当我根据需要重新启动服务时,我遇到了YARN的问题。为YARN启动TimelineServiceReaderV2时,出现错误2018-08-1015:51:06,400INFO[main]client.RpcRetryingCallerImpl:Callexception,tries=15,retries=15,started=129034msago,cancelled=false,msg=CalltoHOSTNAME/IPADDRESS:17020failedonconnectionexcepti

hadoop - HDFS 容量 : how to read "dfsadmin report"

我正在使用Hadoop2.6.0。当我运行“hdfsdfsadmin-report”时,我得到了这样的东西(简化):ConfiguredCapacity:3TBPresentCapacity:400GBDFSRemaining:300GBDFSUsed:100GB我想知道“配置容量”是什么,“当前容量”是什么。看起来“PresentCapacity”是有效的。我怎样才能增加这个? 最佳答案 配置容量是用于数据目录的磁盘/卷的总可用容量。例如:我在/Hadoop/sdb1、/Hadoop/sdc1、/Hadoop/sdd1上安装了三个

hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"

哪种工具最适合测量HDFS空间消耗?当我总结“hdfsdfs-du/”的输出时,与“hdfsdfsadmin-report”(“DFSUsed”行)相比,我总是消耗更少的空间。是否有du没有考虑的数据? 最佳答案 Hadoop文件系统通过将数据副本放置到多个节点来提供重新标记存储。副本数是复制因子,通常大于一。命令hdfsdfs-du/显示空间在没有复制的情况下消耗了您的数据。命令hdfsdfsadmin-report(使用DFS行)显示实际磁盘使用情况,同时考虑了数据复制。所以当从dfs-ud命令获取数字时,它应该大几倍。

hadoop - $HIVE_HOME/bin/hive --service hiveserver

我是Hadoop/hive的新手。我已经安装了hadoop和hive。当我使用hive作为命令提示符时它工作正常但是我要实现hive的JDBC然后键入以下命令hive>$HIVE_HOME/bin/hive--servicehiveserver然后出现以下错误,所以请帮助我如何实现配置单元的jdbc请任何人帮助我...hduser@ubuntu:~$$HIVE_HOME/bin/hive--servicehiveserverStartingHiveThriftServerWARNING:org.apache.hadoop.metrics.jvm.EventCounterisdeprec

java - Hadoop 作业 : Task fail to report status for 601 seconds

在伪节点上运行hadoop作业时,任务失败并被杀死。错误:任务尝试_未能报告状态601秒但相同的程序正在通过Eclipse运行(本地作业)。任务:大约有25K个关键字,输出将是所有可能的组合(一次两个),即大约25K*25K个整体可能是什么问题? 最佳答案 由于某种原因,任务在您的伪节点上执行时没有进行。您可以增加mapred-site.xml中的设置“mapred.task.timeout”。mapred-default.xml中相同的默认值为:mapred.task.timeout600000Thenumberofmillise

java - 由于 Task attempt failed to report status 600 秒,reduce 失败。杀戮!解决方案?

作业的reduce阶段失败并显示:失败的Reduce任务超出了允许的限制。每个任务失败的原因是:任务attempt_201301251556_1637_r_000005_0未能报告状态达600秒。杀!问题详情:Map阶段接收格式为:time,rid,data的每条记录。数据的格式为:数据元素及其计数。例如:a,1b,4c,7对应一条记录的数据。映射器为每个数据元素输出每条记录的数据。例如:key:(time,a,),val:(rid,data)键:(时间,b,),val:(删除,数据)key:(time,c,),val:(rid,data)每一个reduce从所有的记录中接收同一个ke

amazon-web-services - 如何让 Zeppelin 在 EMR 集群上干净地重启?

我正在运行EMR集群并尝试使用Zeppelin笔记本进行数据分析。版本:发布标签:emr-5.2.1Hadoop发行版:Amazon2.7.3hive2.1.0Spark2.0.2飞艇0.6.2我一直遇到Zeppelin在运行查询时挂起的问题,而且我永远无法恢复它。我试过:-重新启动解释器-通过SSH进入主节点并运行zeppelin_daemon.shrestart(已尝试以hadoop/root/zeppelin身份运行,并使用选项reload运行脚本,开始/停止,upstart)每次我使用守护程序shell脚本时,它都会告诉我它已经停止/启动正常,但是当我运行状态时我得到这个:Ze

amazon-web-services - 亚马逊 S3 架构

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。虽然帖子@http://highscalability.com/amazon-architecture总体上解释了Amazon的架构,我很想知道AmazonS3是如何实现的。我的一些猜测是像HDFS这样的分布式文件系统http://hadoop.apache.org/core/docs/current/hdfs_design.html像CouchDB这样

Hadoop 2.2.0 : "name or service not known" Warning

我的目标是在Ubuntu12.4上运行hadoop2.2.0。我能够做到,但是当我运行以下命令时:rushi@ubuntu:/usr/local/hadoop$sbin/start-dfs.sh我的dfs正在启动namenode、scondarynamenode和datanode,但问题是我收到警告rushi@ubuntu:/usr/local/hadoop$sbin/start-dfs.sh14/01/2412:05:46WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingb

amazon-web-services - EMR 主节点是否知道其集群 ID?

我希望能够创建EMR集群,并让这些集群将消息发送回某个中央队列。为了让它工作,我需要在每个主节点上运行某种代理。这些代理中的每一个都必须在此消息中标识自己,以便收件人知道该消息是关于哪个集群的。主节点是否知道它的ID(j-***************)?如果不是,那么是否有其他一些识别信息可以让消息收件人推断出此ID?我查看了/home/hadoop/conf中的配置文件,但没有发现任何有用的东西。我在/mnt/var/log/instance-controller/instance-controller.log中找到了ID,但看起来很难用grep查找。我想知道实例Controlle