草庐IT

replication-configuration

全部标签

hadoop - Apache Spark Ec2 : could only be replicated to 0 nodes, 而不是 1

我有一个在Ec2d2.xlarge实例上运行的2Node集群,我有一个10Gb的文件要通过Spark处理,我在spark上安装了一个本地磁盘并在那里生成了10gb的数据集,但是当我我试图将其放入Hdfs中,它向我抛出错误"couldonlybereplicatedto0nodes,insteadof1"如下16/03/0921:44:25WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/vinit/inputfile.txtcou

hadoop - dfs.replication提供复制因子,file.replication提供什么

我的理解是dfs.replication提供了HDFS维护的复制数量,在core-default.xml中,我看到“file.replication”以及“s3.replication”、“ftp.replication”和“s3native.replication",能否请您提供有关这些变量重要性的任何输入 最佳答案 Hadoop支持不同的文件系统实现,所有这些属性定义了用于其相应文件系统的复制因子。------------------------------------------------------------------

hadoop - Configuration.deprecation : hadoop. native.lib 已弃用。相反,使用 io.native.lib.available

当我想启动baseshell时我得到这个错误:[main]Configuration.deprecation:hadoop.native.libisdeprecated.Instead,useio.native.lib.available像这样:root@SE~#./hbase/bin/hbaseshell2015-02-1520:17:51,925INFO[main]Configuration.deprecation:hadoop.native.libisdeprecated.Instead,useio.native.lib.availableHBaseShell;enter'hel

hadoop - Hadoop dfs.replicate 如何工作?

我有一个2节点的hadoop(一个是主/从,另一个是从)设置和4个输入文件,每个文件大小为1GB。当我将dfs.replicate设置为2时,整个数据将被复制到两个节点,这是可以理解的。但我的问题是,我如何看到单节点设置的性能提高(几乎是原来的两倍),因为在2节点的情况下,map-reduce仍然会运行在两个系统上的完整数据集以及添加的将输入从2个映射器传送到缩减器的开销。此外,当我将复制设置为1时,整个数据仅存在于主节点上,这也是可以理解的,以避免以太网开销。但即使在这种情况下,我也看到了与单节点设置相比的性能改进,这让我感到困惑,因为map-reduce在本地数据集上运行,这种情况

apache-spark - Hadoop/ Spark : How replication factor and performance are related?

在不讨论所有其他性能因素、磁盘空间和名称节点对象的情况下,复制因子如何提高MR、Tez和Spark的性能。如果我们有5个数据链,执行引擎将复制设置为5是否更好?什么是最好的和最坏的值(value)?这对聚合、连接和仅限map的作业有何好处? 最佳答案 Hadoop的主要租户之一正在将计算转移到数据。如果您将复制因子设置为大约等于数据节点的数量,则可以保证每台机器都能够处理该数据。但是,正如您提到的,namenode开销非常重要,更多的文件或副本会导致请求缓慢。在不健康的集群中,更多的副本也会使您的网络饱和。我从未见过高于5的数据,而

hadoop - Configuration.addResource() 方法如何在 hadoop 中工作

Configuration.addResource()方法是像java的ClassLoader一样加载资源文件还是只是封装了ClassLoader类。因为我发现它不能使用像"../resource.xml"这样的String作为参数addResource()从类路径中加载资源文件,这个属性与ClassLoader相同。谢谢! 最佳答案 浏览配置的Javadoc和源代码,字符串被假定为类路径(line1162),而不是相对于文件系统-您应该使用URL来引用本地文件系统上的文件,如下所示:conf.addResource(newFile

configuration - HBaseConfiguration 不读取我在 ${HBASE_HOME}/conf/hbase-site.xml 中设置的值

${HBASE_HOME}/conf/hbase-site.xml有下一个值:hbase.zookeeper.quorumhd1“hd1”主机名设置在“/etc/hosts”中,ping正常...使用这个简单的Java程序:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;publicclassTestConfigurator{/***@paramargs*/publicstaticvoidmain(String[]args){Configuration

hadoop - 错误 : the constructor htable (configuration string) is deprecated

我正在使用CDH5.4.2并尝试创建Hbase表,代码片段如下:Configurationconf=HBaseConfiguration.create(newConfiguration());HBaseAdminhba=newHBaseAdmin(conf);if(!hba.tableExists(args[0])){HTableDescriptorht=newHTableDescriptor(args[0]);ht.addFamily(newHColumnDescriptor("sample"));存在已弃用错误。如何避免这些警告?我需要添加任何特定的jar吗?CDH5.4.2?

configuration - 设置 hadoop 时 SSH 出现问题

我是hadoop的新手。我在计算机上安装了Ubuntu12.10,我想在单个节点上以伪分布式模式安装Hadoop。我搜索并获得了很多教程,但我遇到了SSH问题。我按照教程说的做了。我确定问题出在SSH上。我得到了openssh-server,并且这样做了:hadoop00@WebsoftStation:~$ssh-keygen-tdsa-P""-f~/.ssh/id_dsahadoop00@WebsoftStation:~/.ssh$cat~/.ssh/id_dsa.pub>>authorized_keys然后我可以像这样成功地通过ssh我的本地主机:hadoop00@WebsoftS

java - java.lang.NoSuchMethodError:org.apache.hadoop.conf.Configuration.addDeprecation(Ljava/lang/String; [Ljava/lang/String;)

我正在使用Java/Eclipse/Hadoop2.2.0(带有所有必要的jar)在Ubuntu上使用以下代码运行示例MapReduce任务(本地单节点),但遇到了异常(下面的stacktrace)。我可以从ubuntu控制台在Hadoop中运行示例字数示例。码:importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntW