草庐IT

hadoop - 当文件大于 HDFS block 大小时获取无法寻求 java 异常

所以当我想处理一个大于我的hdfsblock大小(64mb)的文件时,出现以下异常:2013-05-3101:49:46,252WARNorg.apache.hadoop.mapred.Child:Errorrunningchildjava.io.IOException:Can'tseek!atorg.apache.hadoop.hdfs.HftpFileSystem$3.seek(HftpFileSystem.java:359)atorg.apache.hadoop.fs.FSDataInputStream.seek(FSDataInputStream.java:37)atorg.a

hadoop - 文件损坏时的 HDFS 行为

我在cloudera考试中找到样题,我相信答案是D。同意??问题1您使用hadoopfs-put命令将sales.txt添加到HDFS。该文件足够小,可以放入一个block中,该block被复制到集群中的三个节点。在这些节点之一发生故障后,集群何时以及如何处理复制?A.集群将不会尝试重新复制此block。B.该block将立即重新复制,并且集群上的所有其他HDFS操作将在此过程中停止。C.在管理员手动删除并重新创建文件之前,该block将保持复制不足状态。D.在NameNode根据从DataNode接收到的block报告确定其复制不足后,该文件将自动重新复制。

hadoop - 检查点 : Is fsimage always copied from namenode

在检查点方面,权威指南说1.Thesecondaryaskstheprimarytorollitseditsfile,soneweditsgoestoanewfile2.Thesecondaryretrievesfsimageandeditsfromprimary(usingHTTPGET)在检查点结束时,辅助名称节点将更新的fsimage发送到名称节点。现在次要名称节点有最新的fsimage,在下一个检查点中,次要名称节点将再次从名称节点复制fsimage?如果是为什么?它不能简单地使用校验和比较两个 最佳答案 是的,当namen

hadoop - 如何让 Pig 将多个文件馈送到一个映射器中

是否可以让Pig使用一个映射器处理多个小文件(假设这样做会提高工作速度)。我们有一个问题,即hdfs中有数千个小文件,而pig创建了数百个映射器。Pig是否提供了解决此问题的简单(完整或部分)解决方案? 最佳答案 您可以利用这些属性将这些多个文件组合成一个文件,以便它们由单个map处理:pig.maxCombinedSplitSize–指定要由单个映射处理的数据的大小(以字节为单位)。合并较小的文件,直到达到此大小。pig.splitCombination–打开或关闭合并拆分文件(默认设置为“true”)。此功能适用于PigStor

Hadoop 目录/文件最后修改时间

有没有办法获取hdfs中所有目录和文件的最后修改时间?我想创建显示信息的页面,但我不知道如何在一个.txt文件中获取所有最后的修改时间。 最佳答案 看看有没有帮助:publicclassHdfsDemo{publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/Users/miqbal1/hadoop-eco/hadoop-1.1.2/conf/core-sit

Hadoop distcp 从 S3 复制 : Signature does not match error

我正在尝试将文件从S3复制到我在AmazonEC2上的hadoopHDFS。我使用的命令是:bin/hadoopdistcps3://:@/f1hdfs://user/root/f1是文件名我也将它更改为s3n以查看它是否有效,但它没有。我将secret访问key中的正斜杠替换为%2F我得到的错误是:SignatureDoesNotMatchorg.jets3t.service.S3ServiceException:S3GETfailedfor'/%2Ff1'Therequestsignaturewecalculateddoesnotmatchthesignatureyouprovid

Hadoop HDFS 命令 - 重命名目录

在HDFS中重命名目录的最佳方法是什么?比如有2个文件夹A和B,每个文件夹都有10000多个文件。我想将B重命名为A,将A重命名为X。这可以通过mv命令实现吗?在这种情况下,幕后会发生什么(只是重命名或复制并删除)? 最佳答案 这只是发生的重命名。将所有数据block全部复制过来是非常昂贵的。相反,它只会重命名目录并更新Namenode元数据。 关于HadoopHDFS命令-重命名目录,我们在StackOverflow上找到一个类似的问题: https://s

java - URL 类中 setURLStreamHandlerFactory 的用途

任何人都可以向我解释URL类中setURLStreamHandlerFactory的用途和工作方式吗?我有一个简单的代码片段可以使用Java中的URL类连接到我的HDFS,我已经在hadoop权威指南中完成了它。这是我写的代码:publicclassHadoopFileSystemConnect{static{URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory());}publicstaticvoidmain(String[]args)throwsIOException{URLurl=newURL("hdfs://lo

java - Hadoop 分布式文件系统是否像 Google 文件系统那样支持任何更新操作?

我正在阅读Google文件系统上发表的论文,发现GFS支持在现有文件的任意位置追加和更新。据我所知,HDFS不支持更新操作,因为它旨在实现一次写入和多次读取的功能。HDFS现在确实支持追加操作。对于最近的版本,他们将dfs.support.append默认设置为false。所以我的问题是我们可以通过什么方式进行某种更新操作。我曾尝试查看,但我只知道HDFS不支持更新操作。希望尽快收到您的来信。仅供引用:我已经阅读了很多关于claudera和其他关于此的帖子。我能够在hadoop贡献者的一些博客中找到HDFS确实支持更新操作的可能性。但是没有人提到或确切说明它是如何进行更新操作的。

hadoop - Pig - map 缩减模式下的权限被拒绝

我正在尝试使用PigStorage从hdfs加载一个csv文件,限制输出bt一条记录并转储。我的hdfs快照:我在一台从机上运行一个2节点集群,其中有1个主节点(NN和SecNN)和1个数据节点和作业跟踪器。我的pig脚本在数据节点上运行。使用根用户grunt>x=load'/user/hadoop/input/myfile.csv'usingPigStorage(',')as(colA:chararray);grunt>y=limitx1;grunt>dumpy;控制台日志:>HadoopVersionPigVersionUserIdStartedAtFinishedAt>Featu