草庐IT

replication-configuration

全部标签

hadoop - HDFS 重复出现错误 : Under-Replicated Blocks

我们的Hadoop集群每天都报告有“复制不足的block”。它通过ClouderaManager进行管理。健康警告的一个例子是:!Under-ReplicatedBlocksConcerning:767underreplicatedblocksinthecluster.3,115totalblocksinthecluster.Percentageunderreplicatedblocks:24.62%.Warningthreshold:10.00%.我一直在运行修复问题的命令,但第二天早上警告又回来了,有时没有添加任何新数据。暂时成功的命令之一是hdfsdfs-setrep-R2/*我

Hadoop 3 : how to configure/enable erasure coding?

我正在尝试设置Hadoop3集群。关于纠删码功能的两个问题:如何确保启用纠删码?我还需要将复制因子设置为3吗?请指出与纠删码/复制相关的相关配置属性,以获得与Hadoop2(复制因子3)相同的数据安全性,但具有Hadoop3纠删码的磁盘空间优势(仅50%的开销,而不是200%). 最佳答案 在Hadoop3中,我们可以对HDFS中的任何文件夹启用纠删码策略。默认情况下,Hadoop3中没有启用删除编码,您可以使用setPolicy命令并指定所需的文件夹路径来启用它。1:要确保纠删码已启用,您可以运行getPolicy命令。2:在Ha

configuration - 能够限制 hadoop hive mapred 作业的最大 reducer ?

我试过在查询前加上:setmapred.running.reduce.limit=25;和sethive.exec.reducers.max=35;最后一个将530个reducer的工作减少到35...这让我觉得它会尝试将530个reducer的工作值(value)降低到35个。现在给setmapred.tasktracker.reduce.tasks.maximum=3;尝试查看该数字是否是每个节点的某种最大值(之前在具有70个潜在reducer的集群上为7)。更新:setmapred.tasktracker.reduce.tasks.maximum=3;没有效果,但值得一试。

linux - Hadoop HDFS 测试运行问题 - org.apache.hadoop.conf.Configuration NoClassDefFoundError

我正在使用Hadoop0.21.0。并尝试运行CAPI库附带的hdfs_test应用程序。经过许多问题后,我能够编译hdfs_test。现在,当我运行它时:./hdfs_test我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactoryatorg.apache.hadoop.conf.Configuration.(Configuration.java:153)Causedby:java.lang.ClassNotFoundException:org

php - Hadoop 流 : no such file found error (error in configuring object)

我为hadoop流运行以下命令hadoopjarcontrib/streaming/hadoop-streaming-1.0.3.jar-inputtest1/testregxml.xml-outputtestoutput2-file~/Programs/CMapper.php-mapper~/Programs/CMapper.php-jobconfmapred.reduce.tasks=1hadoop任务失败,输出如下12/10/2615:36:56WARNstreaming.StreamJob:-jobconfoptionisdeprecated,pleaseuse-Dinstea

hadoop - 在reducer的configure方法中调用progress或者增加counter

有可能吗?上下文:我的reducer配置方法需要从DistributedCache读取一组文件(总大小约为150MB)。但是,我不知道为什么hadoop需要这么长时间才能杀死一些reducer,尽管事实上有一些reducer已成功完成。我使用旧的API,我只能在配置方法中访问JobConfconf变量。我的想法是让reporter变量成为一个字段,然后我可以在配置方法中调用它。但似乎在调用reduce之前调用了configure。 最佳答案 转换您的代码以使用新的API!然后在setup()中,您可以访问context变量并调用pr

configuration - 在 ec2 上手动配置 hadoop

谁能给我指出任何资源的方向,这些资源可以帮助我在EC2上手动设置/配置Hadoop(1.0.4)。我同意有很多资源可以使用工具、服务等来完成这项工作,但我正在寻找的是一些帮助,以确定对conf/*.xml文件进行哪些修改手动slaves和master都是为了让Hadoop正常工作。现在,我有5个ec2实例在运行,它们都能够在伪分布式模式下单独运行hadoop作业。所以,我需要通过配置conf文件的方式,将一个变成master,其余的变成slave,让slave知道namenode和jobtracker在哪里,而master知道所有的slave。我的理解是,我还必须配置实例的EC2安全组

apache - "The machine with the name ' c6401 ' was not found configured for this Vagrant environment."错误

我计划使用ApacheAmbari。首先,我根据https://cwiki.apache.org/confluence/display/AMBARI/Quick+Start+Guide完成了所有操作.但是每当我尝试启动vms时,我都会收到以下错误:Themachinewiththename'c6401'wasnotfoundconfiguredforthisVagrantenvironment. 最佳答案 今天在mac上遇到这个错误,我决定用适合我的解决方案更新这篇文章。步骤删除所有多余的机器文件夹./.vagrant/machin

hadoop - 普通身份验证失败 : User yarn is not configured for any impersonation. impersonationUser:alluxio mapreduce 中的 root

Causedby:org.apache.thrift.transport.TTransportException:Plainauthenticationfailed:Useryarnisnotconfiguredforanyimpersonation.模拟用户:root当我使用alluxio在本地运行wordcount程序时它工作正常。我也通过了集成测试,但是当我使用alluxio客户端jar运行相同的Hadoop程序时它给我一个错误bin/hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarwordcount

java - Spark : How to obtain the location of configurations spark is using?

现在,我遇到了以下issueexactly.具体来说,spark-submit正在尝试连接到位置0.0.0.0/0.0.0.0的yarn.resourcemanager。我已经检查了上面堆栈溢出线程中描述的所有日志。他们似乎都是正确的。我还在spark配置目录顶部的默认设置文件中添加了yarn.resourcemanager.address=...行,导出了YARN_CONF_DIR和所有该线程上列出的其他修复程序。在评分最高的答案的评论底部,一位评论员指出,如果上述修复均无效,则spark未使用正确的配置。此时,我很确定我的spark安装没有使用正确的配置(我没有安装它)。如何确定s