$集群

hadoop - 如何从 hadoop 集群中删除已删除的数据节点详细信息

我使用以下属性来减少死节点超时。Propertyname:dfs.heartbeat.recheck.intervalvalue:1但是当我从集群中删除数据节点时，此详细信息并未从hadoop集群中删除。它仅在该集群中处于死节点状态。请建议从hadoop集群中删除删除的数据节点详细信息的任何方法。最佳答案您可以使用以下HDFS命令单独查看活节点或死节点hdfsdfsadmin-report-livehdfsdfsadmin-report-dead您可以使用以下HDFS命令获取实时节点名称或任何其他特定详细信息hdfsdfsadm

hadoop 删除 section 死节 code

hadoop - 我们必须将数据上传到哪个slave到hadoop集群

我们已经用2台机器设置了hadoop集群，我们正在尝试在我们的实时项目中实现集群，我们需要多节点集群中关于上传数据的信息，假设如果我有9个数据节点，哪个从节点我们需要上传数据。我可以选择将数据上传到2个从属节点吗，如果我将数据上传到hdfs，它是否会复制到另一个从属节点？正如我们观察到的，当前使用/tmp位置的hdfs如果/tmp已满，HDFS将使用哪个位置。最佳答案添加更多的集群的目的是为了扩大数据存储..您是否正在寻找安全的集群，向某些用户授予权限以将数据上传到HDFS？对If表示可以实现KERBEROS原则或者授权用户上传

hadoop 传到 section strong hdfs apache-hive

hadoop - 在没有格式的情况下重启Hadoop集群中的NameNode

由于某些原因不得不关闭我在集群中的主节点，就好像我们再次启动集群一样，名称节点不会运行，除非我们再次格式化它，他们是否有任何解决方案来启动名称节点而不格式化...尝试了一切..Start-all.sh或单独启动namenode/datanodes但Namenode不会启动，直到我再次格式化它，如何在不格式化的情况下启动Name-node。提前致谢最佳答案请发布日志信息。其实重启hadoop时不需要格式化。因为HDFS的元信息会存储在磁盘中，如果格式化namenode，元信息就会丢失。你可以试试停止集群时namenode进程是否还

NameNode hadoop section stackoverflow

hadoop - 无法让日志聚合在 Amazon-Hadoop 集群上工作

我尽我所能使日志聚合，但我做不到。所以我需要你的帮助来解决这个问题:我将其添加到yarn-site.xml并重新启动但没有任何乐趣。yarn.log-aggregation-enabletrueWheretoaggregatelogsto.yarn.nodemanager.remote-app-log-dir/tmp/logsyarn.log-aggregation.retain-seconds259200yarn.log-aggregation.retain-check-interval-seconds3600当我尝试通过以下方式进行聚合时:yarnlogs-applicationI

上工 Amazon-Hadoop lt gt property hadoop amazon-ec2 hadoop-yarn

java - 将 Apache Pig 连接到 Hadoop 集群

我正在使用ApachePig对Hadoop集群进行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是，当我使用Pig以mapreduce模式运行脚本并连接到该Hadoop集群时，它总是只启动一个map和一个reduce。我如何设置Pig或Hadoop以使用所有32个从站？作业状态如下图所示:JobStats(timeinseconds):JobIdMapsReducesMaxMapTimeMinMapTimeAvgMapTimeMedianMapTimeMaxReduceTimeMinReduceTimeAvgReduceTimeMedianReduceti

Apache Hadoop 1457865367374 ordered section java apache-pig

hadoop - 在集群部署模式下运行 spark 提交作业失败但通过客户端

EDITI:通过删除应用程序中“setMaster”的conf设置，我能够成功运行yarn-cluster-如果有人可以帮助sparkmaster作为集群部署-那太棒了我正在尝试在本地测试机上设置spark，以便我可以从s3存储桶中读取数据，然后写回它。使用客户端运行jar/应用程序工作正常，很好，很好，因为它进入存储桶并创建一个文件并再次返回。然而，我需要它在集群模式下工作，以便它更接近我们的生产环境，但它总是失败——我能看到的日志中没有真正有意义的消息，也没有什么反馈可以继续。非常感谢任何帮助-我是spark/hadoop的新手，所以可能忽略了一些明显的事情。我也尝试以yarn-c

hadoop spark application 1458817514983 Client amazon-web-services amazon-s3 apache-spark

hadoop - 每次重新启动集群时都无法访问 HDFS 中的文件？

我刚刚配置了一个克隆hadoop版本2.7.3，我加载了我的数据大小从1g到20go，我使用这个数据(可以操作它们......)但是当我重新启动集群时这个数据没有不会被接受。我将收到此消息:警告:大约有xx个缺失block。请检查日志或运行fsck，这意味着您的HDFS安装中的某些block在任何事件DataNode上都没有单个副本。这是hdfs-site.xml:dfs.namenode.name.dirfile:///home/hduser/hadoop-2.7.3/namenodeNameNodedirectoryfornamespaceandtransactionlogssto

hadoop HDFS gt lt property

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时，出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行？我使用本地文件作为输入。我必须使用HDFS文件吗？我相信RDD是并行化的，输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

AccessControlException hadoop apache code apache-spark

hadoop - 无法在 Hadoop 集群上启动 H2O - ClassNotFound 异常

我正在尝试在Hadoop集群上启动H2O。可悲的是，它不起作用，并给我一个错误，即找不到类water.hadoop.h2omapper。Hadoop环境是2.6版本的HDP，包括5个节点，其中1个运行YARN资源管理器，3个节点是带有YARN客户端的数据节点。每个数据节点都有32GBRAM和4个CPU内核的资源。它们上没有运行其他应用程序。我在Ambari中的每个节点上为每个YARN应用程序配置了最多16GB和3个内核。我从终端启动H2O集群(尝试了所有节点，到处都是同样的错误)，输出如下:[root@host3h2o-3.14.0.6-hdp2.6]#sudo-uhdfshadoop

ClassNotFound hadoop java apache hadoop-yarn h2o

hadoop 集群未运行 map reduce 作业 - 调度程序问题

(这是对我之前就此事提出的问题进行的讨论的后续行动)我按照these设置了一个小型Hadoop集群说明，但使用Hadoop版本2.7.4。集群似乎工作正常，但我无法运行mapreduce作业。特别是，在尝试以下操作时$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jarrandomwriteroutdentercodehere作业打印17/11/2716:35:21INFOclient.RMProxy:ConnectingtoResourceManageratec2-yyy.eu-central-1

hadoop reduce gt lt description mapreduce hadoop2

43 44 454647 48 49