草庐IT

merge-replication

全部标签

hadoop - Sqoop Merge 命令中的 FileNotFound 错误

我正在尝试执行一个sqoop合并命令,为此,我执行了一个Sqoopcodegen以将类和表的jar放入HDFSSqoopCodeGen命令:sqoopcodegen--connectjdbc:mysql://127.0.0.1/mydb--tablemergetab--usernameroot--passwordcloudera--outdir/user/cloudera/codegenclasses--fields-terminated-by'\t'我在outdir中有以下文件:/user/cloudera/codegenclasses-rw-r--r--1clouderacloud

azure - 即使使用 hive.merge,Tez : one file per insert, 上的 Hive 0.14。 active

我需要每隔15分钟将数据插入到存储为ORC的不同表中并聚合值。那些INSERT使用动态分区。每个INSERT都会在分区中创建一个新文件,这会减慢我的聚合查询速度。我在网上搜索,发现了一些关于这个案例的主题,比如thisone.所以我在hive-site.xml中添加了这些设置:hive.merge.mapfiles=true;hive.merge.mapredfiles=true;hive.merge.tezfiles=truehive.merge.smallfiles.avgsize=256000000;但即使使用这些设置,每次插入都会在每个分区上创建一个新文件,并且文件不会合并。有

hadoop - 使用 'merge' 加入 PIG

我是Hadoop/PIG初学者。谁能告诉我这两者的区别grunt>A=joinAby$1,Bby$1using'merge';和grunt>A=加入A1美元,B加入1美元;我有2个文件1.txt和2.txt,它们具有以下数据1.txt1乙3C5D72.txtAA1BB2CC4DD6我希望输出像这样合并在一起1AA1BB2乙3CC4C5DD6D7“使用‘合并’”会给我想要的输出吗?我试过了,但是不行。你能告诉我我在这里缺少什么吗。 最佳答案 听起来您获得的是内部联接(数据集通过公共(public)键联接)而不是外部联接(这就是您从所需

hadoop - 复制文件 : Could only be replicated to 0 nodes, 而不是 1 时出现 HDFS 错误

将文件从本地系统复制到HDFS时出现以下错误,我正在使用单节点13/08/0410:50:02警告hdfs.DFSClient:DataStreamer异常:java.io.IOException:文件/user/vishu/input只能复制到0个节点,而不是1我删除了dfs/Name和dfs/data目录,格式化了Namenode还是没有用。并且我有足够的空间来复制数据。谁能帮忙解决这个问题?问候,维斯瓦 最佳答案 有时数据节点可能启动缓慢,这可能会导致上述问题。在dfs和mapred恶魔启动后保持一些等待时间。bin/hado

Hadoop DataStreamer 异常 : File could only be replicated to 0 nodes instead of minReplication (=1)

我尝试从我的本地加载json数据到hadoophdfs,我使用这些命令,它抛出异常:hadoopfs-copyFromLocalpath/files/file.jsoninput/hadoopfs-putpath/files/file.jsoninput/我使用jps命令检查,发现hadoop正在运行。26039ResourceManager30858SecondaryNameNode35605Jps26147NodeManager30714DataNode这是异常的详细信息:WARNhdfs.DFSClient:DataStreamerExceptionorg.apache.hado

hadoop - Apache Spark Ec2 : could only be replicated to 0 nodes, 而不是 1

我有一个在Ec2d2.xlarge实例上运行的2Node集群,我有一个10Gb的文件要通过Spark处理,我在spark上安装了一个本地磁盘并在那里生成了10gb的数据集,但是当我我试图将其放入Hdfs中,它向我抛出错误"couldonlybereplicatedto0nodes,insteadof1"如下16/03/0921:44:25WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/vinit/inputfile.txtcou

hadoop - dfs.replication提供复制因子,file.replication提供什么

我的理解是dfs.replication提供了HDFS维护的复制数量,在core-default.xml中,我看到“file.replication”以及“s3.replication”、“ftp.replication”和“s3native.replication",能否请您提供有关这些变量重要性的任何输入 最佳答案 Hadoop支持不同的文件系统实现,所有这些属性定义了用于其相应文件系统的复制因子。------------------------------------------------------------------

hadoop - Hadoop dfs.replicate 如何工作?

我有一个2节点的hadoop(一个是主/从,另一个是从)设置和4个输入文件,每个文件大小为1GB。当我将dfs.replicate设置为2时,整个数据将被复制到两个节点,这是可以理解的。但我的问题是,我如何看到单节点设置的性能提高(几乎是原来的两倍),因为在2节点的情况下,map-reduce仍然会运行在两个系统上的完整数据集以及添加的将输入从2个映射器传送到缩减器的开销。此外,当我将复制设置为1时,整个数据仅存在于主节点上,这也是可以理解的,以避免以太网开销。但即使在这种情况下,我也看到了与单节点设置相比的性能改进,这让我感到困惑,因为map-reduce在本地数据集上运行,这种情况

apache-spark - Hadoop/ Spark : How replication factor and performance are related?

在不讨论所有其他性能因素、磁盘空间和名称节点对象的情况下,复制因子如何提高MR、Tez和Spark的性能。如果我们有5个数据链,执行引擎将复制设置为5是否更好?什么是最好的和最坏的值(value)?这对聚合、连接和仅限map的作业有何好处? 最佳答案 Hadoop的主要租户之一正在将计算转移到数据。如果您将复制因子设置为大约等于数据节点的数量,则可以保证每台机器都能够处理该数据。但是,正如您提到的,namenode开销非常重要,更多的文件或副本会导致请求缓慢。在不健康的集群中,更多的副本也会使您的网络饱和。我从未见过高于5的数据,而

hadoop - Hadoop 中 map、shuffle、merge 和 reduce 时间的精确定义

在Hadoop中,作业执行后会提供以下指标:map时间减少时间洗牌时间合并时间我找不到这些时间的确切定义,因为所有来源都不清楚这些时间是如何准确计算的。这是我的看法:map时间是读取输入和应用map功能以及排序数据的时间reduce时间是应用reduce函数并编写输出的时间Shuffletime是mergemap排序数据传输到reducer的时间合并时间是仅在reduce端合并map输出的时间我不确定粗体部分。我的分析正确吗? 最佳答案 我决定研究Hadoop代码以获得更多见解。下图解释了我的发现。我发现:map时间是maptask