hdfs

hadoop - 当文件大于 HDFS block 大小时获取无法寻求 java 异常

所以当我想处理一个大于我的hdfsblock大小(64mb)的文件时，出现以下异常:2013-05-3101:49:46,252WARNorg.apache.hadoop.mapred.Child:Errorrunningchildjava.io.IOException:Can'tseek!atorg.apache.hadoop.hdfs.HftpFileSystem$3.seek(HftpFileSystem.java:359)atorg.apache.hadoop.fs.FSDataInputStream.seek(FSDataInputStream.java:37)atorg.a

hadoop - 文件损坏时的 HDFS 行为

我在cloudera考试中找到样题，我相信答案是D。同意??问题1您使用hadoopfs-put命令将sales.txt添加到HDFS。该文件足够小，可以放入一个block中，该block被复制到集群中的三个节点。在这些节点之一发生故障后，集群何时以及如何处理复制？A.集群将不会尝试重新复制此block。B.该block将立即重新复制，并且集群上的所有其他HDFS操作将在此过程中停止。C.在管理员手动删除并重新创建文件之前，该block将保持复制不足状态。D.在NameNode根据从DataNode接收到的block报告确定其复制不足后，该文件将自动重新复制。

hadoop HDFS section block strong

hadoop - 检查点 : Is fsimage always copied from namenode

在检查点方面，权威指南说1.Thesecondaryaskstheprimarytorollitseditsfile,soneweditsgoestoanewfile2.Thesecondaryretrievesfsimageandeditsfromprimary(usingHTTPGET)在检查点结束时，辅助名称节点将更新的fsimage发送到名称节点。现在次要名称节点有最新的fsimage，在下一个检查点中，次要名称节点将再次从名称节点复制fsimage？如果是为什么？它不能简单地使用校验和比较两个最佳答案是的，当namen

namenode fsimage code srcNames hadoop hdfs

hadoop - 如何让 Pig 将多个文件馈送到一个映射器中

是否可以让Pig使用一个映射器处理多个小文件(假设这样做会提高工作速度)。我们有一个问题，即hdfs中有数千个小文件，而pig创建了数百个映射器。Pig是否提供了解决此问题的简单(完整或部分)解决方案？最佳答案您可以利用这些属性将这些多个文件组合成一个文件，以便它们由单个map处理:pig.maxCombinedSplitSize–指定要由单个映射处理的数据的大小(以字节为单位)。合并较小的文件，直到达到此大小。pig.splitCombination–打开或关闭合并拆分文件(默认设置为“true”)。此功能适用于PigStor

射器送到 section strong hadoop mapreduce hdfs apache-pig

Hadoop 目录/文件最后修改时间

有没有办法获取hdfs中所有目录和文件的最后修改时间？我想创建显示信息的页面，但我不知道如何在一个.txt文件中获取所有最后的修改时间。最佳答案看看有没有帮助:publicclassHdfsDemo{publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/Users/miqbal1/hadoop-eco/hadoop-1.1.2/conf/core-sit

Hadoop 目录 section strong 34 hdfs webhdfs

Hadoop distcp 从 S3 复制 : Signature does not match error

我正在尝试将文件从S3复制到我在AmazonEC2上的hadoopHDFS。我使用的命令是:bin/hadoopdistcps3://:@/f1hdfs://user/root/f1是文件名我也将它更改为s3n以查看它是否有效，但它没有。我将secret访问key中的正斜杠替换为%2F我得到的错误是:SignatureDoesNotMatchorg.jets3t.service.S3ServiceException:S3GETfailedfor'/%2Ff1'Therequestsignaturewecalculateddoesnotmatchthesignatureyouprovid

Signature Hadoop section gt lt amazon-web-services amazon-s3 hdfs

Hadoop HDFS 命令 - 重命名目录

在HDFS中重命名目录的最佳方法是什么？比如有2个文件夹A和B，每个文件夹都有10000多个文件。我想将B重命名为A，将A重命名为X。这可以通过mv命令实现吗？在这种情况下，幕后会发生什么(只是重命名或复制并删除)？最佳答案这只是发生的重命名。将所有数据block全部复制过来是非常昂贵的。相反，它只会重命名目录并更新Namenode元数据。关于HadoopHDFS命令-重命名目录，我们在StackOverflow上找到一个类似的问题： https://s

命名 Hadoop section stackoverflow filesystems command

java - URL 类中 setURLStreamHandlerFactory 的用途

任何人都可以向我解释URL类中setURLStreamHandlerFactory的用途和工作方式吗？我有一个简单的代码片段可以使用Java中的URL类连接到我的HDFS，我已经在hadoop权威指南中完成了它。这是我写的代码:publicclassHadoopFileSystemConnect{static{URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory());}publicstaticvoidmain(String[]args)throwsIOException{URLurl=newURL("hdfs://lo

setURLStreamHandlerFactory 用途 section code java hadoop hdfs

java - Hadoop 分布式文件系统是否像 Google 文件系统那样支持任何更新操作？

我正在阅读Google文件系统上发表的论文，发现GFS支持在现有文件的任意位置追加和更新。据我所知，HDFS不支持更新操作，因为它旨在实现一次写入和多次读取的功能。HDFS现在确实支持追加操作。对于最近的版本，他们将dfs.support.append默认设置为false。所以我的问题是我们可以通过什么方式进行某种更新操作。我曾尝试查看，但我只知道HDFS不支持更新操作。希望尽快收到您的来信。仅供引用:我已经阅读了很多关于claudera和其他关于此的帖子。我能够在hadoop贡献者的一些博客中找到HDFS确实支持更新操作的可能性。但是没有人提到或确切说明它是如何进行更新操作的。

Hadoop Google strong section HDFS java mapreduce gfs

hadoop - Pig - map 缩减模式下的权限被拒绝

我正在尝试使用PigStorage从hdfs加载一个csv文件，限制输出bt一条记录并转储。我的hdfs快照:我在一台从机上运行一个2节点集群，其中有1个主节点(NN和SecNN)和1个数据节点和作业跟踪器。我的pig脚本在数据节点上运行。使用根用户grunt>x=load'/user/hadoop/input/myfile.csv'usingPigStorage(',')as(colA:chararray);grunt>y=limitx1;grunt>dumpy;控制台日志:>HadoopVersionPigVersionUserIdStartedAtFinishedAt>Featu

缩减 hadoop supergroup root apache-pig hdfs

47 48 495051 52 53