草庐IT

copy_helper_block

全部标签

Hadoop心跳和 block 报告时间间隔

数据节点向名称节点发送心跳和block报告以及任务跟踪器向作业跟踪器发送心跳和block报告后多少秒? 最佳答案 来自Apachedocumentation,它提供HDFS属性,dfs.heartbeat.interval默认值为3,以秒为单位确定数据节点心跳间隔。dfs.blockreport.intervalMsec默认值为21600000,以毫秒为单位确定block报告间隔。看看上面article了解各种HDFS属性。 关于Hadoop心跳和block报告时间间隔,我们在Stack

scala - HDFS : java. io.FileNotFoundException : File does not exist: name. _COPYING

我正在使用Scala处理SparkStreaming。我需要使用此行从HDFS目录动态读取.csv文件:vallines=ssc.textFileStream("/user/root/")我使用以下命令行将文件放入HDFS:hdfsdfs-put./head40k.csv它适用于相对较小的文件。当我尝试使用更大的一个时,出现此错误:org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException):Filedoesnotexist:/user/root/head800k.csv._COPYING我能理解为什么,但我不

hadoop - 权威指南 - 为什么 hdfs 中的 block 这么大

我从权威指南(HDFS概念-block)中看到了以下段落,但无法理解。MapReduce中的映射任务通常一次在一个block上运行,因此如果您的任务太少(少于集群中的节点),您的作业将比其他方式运行得更慢。我想知道与集群中的节点总数相比,当任务很少时,作业会如何变慢。假设集群中有1000个节点和3个任务(按任务我取block,因为每个block被发送到一个节点用于单个任务),获得结果所花费的时间总是少于说1000的场景节点和1000个任务对吗?权威指南中给出的段落无法说服我。 最佳答案 您从书中引用的段落基本上是说“尽可能多地利用节

Hadoop - 映射器输出能否超过 block 大小

我们将其中一个mapreduce作业的dfs.blocksize设置为512MB,这是一个maponly作业。但是,一些映射器输出超过512MB。例如:512.9MB。我相信,映射器block大小应该受到dfs.blocksize的限制。感谢任何输入。谢谢 最佳答案 Ibelieve,themapperblocksizeshouldberestrainedbythedfs.blocksize.这不是真的。文件可以大于block大小。在这种情况下,它们只会跨越多个block。 关于Hado

Hadoop PIG Helper GROUP 错误

我正在使用HortonworksSandbox1.2,我对Hadoop平台还很陌生。所以这是错误,而我正在按照沙箱包含的教程进行操作。在PIG部分,我使用PIGHelper插入了GROUP代码。它插入一个代码,如GROUP%VAR%BY%VAR%完成教程后,我的代码看起来像这样。a=LOAD'nyse_stocks'USINGorg.apache.hcatalog.pig.HCatLoader();b=FILTERaBYstock_symbol=='IBM';c=GROUPbBYall;d=FOREACHcGENERATEAVG(b.stock_volume);DUMPd;它给出以下错

java - Hadoop 集群卡住卡在 Reduce > copy >

到目前为止,对于这个问题,我已经尝试了这里的解决方案,1,在这里,2.然而,虽然这些解决方案确实导致执行mapreduce任务,但看起来它们只在名称节点上运行,因为我得到类似于此处的输出,3。.基本上,我正在使用我自己设计的mapreduce算法运行一个2节点集群。mapreducejar在单节点集群上完美执行,这让我觉得我的hadoop多节点配置有问题。要设置多节点,我遵循了教程here.为了报告出了什么问题,当我执行我的程序时(在检查名称节点、任务跟踪器、作业跟踪器和数据节点正在各自的节点上运行之后),我的程序在终端中的这一行停止:INFOmapred.JobClient:map1

hadoop - 关闭推测执行的 Wordcount : More than 1 map task per block,

在Wordcount中,您似乎可以在每个block中获得超过1个maptask,并关闭推测执行。jobtracker是否在幕后做了一些魔术来分配比InputSplits提供的更多的任务? 最佳答案 区block和拆分是两种不同的东西。如果一个block有多个拆分,您可能会为一个block获得多个映射器。 关于hadoop-关闭推测执行的Wordcount:Morethan1maptaskperblock,,我们在StackOverflow上找到一个类似的问题:

hadoop - 更改 hadoop 中的 block 大小后会发生什么

我知道如何更改hadoop中的block大小。更改block大小后会发生什么,namenode如何将perivousdatanode更改为当前大小。如果我的集群非常大,并且我在以前的数据节点上的数据节点上提交作业,那仍然不会取消对当前大小的更改。这是如何由名称节点管理的。 最佳答案 什么都没有发生。事实上,block大小是单个文件的属性。您在配置中定义的是默认值。您可以在HDFS中放置或创建文件时指定block大小。该属性作为名称节点元数据的一部分与文件的元数据一起存储。如果未指定任何内容,则使用默认值。当访问文件时,会使用文件的b

hadoop - Namenode如何决定在哪个datanode中写入一个 block

我只是想知道这个。假设我正在将一个80GB的文件复制到HDFS,并且我的block大小是64MB。现在在收集了一个block的数据后,名称节点将block写入数据节点。这是我的问题:名称节点以何种方式选择应将block写入哪个数据节点。是随机选择还是循环选择? 最佳答案 NameNode会根据负载分配因子选择datanode上的block。它将以平衡所有正在运行的数据节点上的负载的方式选择block。此外,NameNode不会收集一个block的数据并将其写入数据节点。当向NameNode发送写请求时,它会分配要写入各个数据节点的b

hadoop - 我可以在 HDFS 中有不同的 block 放置策略吗?

即一个集群有多个应用程序,每个应用程序在副本位置方面有不同的要求-我可以设置它以支持这些多个应用程序吗? 最佳答案 是的,这是可能的。注意:自行承担风险。编写block放置策略极其复杂且具有风险。您的应用程序需要确定如何放置副本,这似乎是一种代码味道。想想你是否真的需要编写block放置策略。警告过您之后,如果您想知道如何完成此操作,请继续。通常,此功能用于控制群集的平衡程度。例如。由Hadoop供应商之一构建的策略之一是将block放置在磁盘使用百分比最低的磁盘上。这里有一堆资源供您查看:SO发布同样的问题:Modifyingth