HDFS常用命令汇总

java - 如何计算 MR 作业中 HDFS 中的文件数？

就此而言，我是Hadoop和Java的新手。我正在尝试从我正在编写的MapReduce驱动程序计算HDFS上文件夹中的文件数。我想在不调用HDFSShell的情况下执行此操作，因为我希望能够传入我在运行MapReduce作业时使用的目录。我尝试了很多方法，但由于我对Java的经验不足，都没有成功实现。如有任何帮助，我们将不胜感激。谢谢，游牧。最佳答案您可以只使用文件系统并遍历路径内的文件。这是一些示例代码intcount=0;FileSystemfs=FileSystem.get(getConf());booleanrecurs

hadoop - 当文件大于 HDFS block 大小时获取无法寻求 java 异常

所以当我想处理一个大于我的hdfsblock大小(64mb)的文件时，出现以下异常:2013-05-3101:49:46,252WARNorg.apache.hadoop.mapred.Child:Errorrunningchildjava.io.IOException:Can'tseek!atorg.apache.hadoop.hdfs.HftpFileSystem$3.seek(HftpFileSystem.java:359)atorg.apache.hadoop.fs.FSDataInputStream.seek(FSDataInputStream.java:37)atorg.a

寻求 hadoop apache java hdfs

hadoop - 文件损坏时的 HDFS 行为

我在cloudera考试中找到样题，我相信答案是D。同意??问题1您使用hadoopfs-put命令将sales.txt添加到HDFS。该文件足够小，可以放入一个block中，该block被复制到集群中的三个节点。在这些节点之一发生故障后，集群何时以及如何处理复制？A.集群将不会尝试重新复制此block。B.该block将立即重新复制，并且集群上的所有其他HDFS操作将在此过程中停止。C.在管理员手动删除并重新创建文件之前，该block将保持复制不足状态。D.在NameNode根据从DataNode接收到的block报告确定其复制不足后，该文件将自动重新复制。

hadoop HDFS section block strong

Hadoop HDFS 命令 - 重命名目录

在HDFS中重命名目录的最佳方法是什么？比如有2个文件夹A和B，每个文件夹都有10000多个文件。我想将B重命名为A，将A重命名为X。这可以通过mv命令实现吗？在这种情况下，幕后会发生什么(只是重命名或复制并删除)？最佳答案这只是发生的重命名。将所有数据block全部复制过来是非常昂贵的。相反，它只会重命名目录并更新Namenode元数据。关于HadoopHDFS命令-重命名目录，我们在StackOverflow上找到一个类似的问题： https://s

命名 Hadoop section stackoverflow filesystems command

java - 将文件从 HDFS 复制到 Windows 机器时出错

有一个安装并运行着Hadoop的Linux虚拟机。在Eclipse中运行的Java应用程序可以从HDFS检索数据。如果我在VM内将文件复制到HDFS或从HDFS复制文件，一切正常。但是当我从我的Windows物理机上运行该应用程序时，我遇到了下一个异常:WARNhdfs.DFSClient:Failedtoconnectto/127.0.0.1:50010forblock,addtodeadNodesandcontinue.java.net.ConnectException:Connectionrefused:nofurtherinformation.CouldnotobtainBP-

时出 Windows section 34 code java hadoop hdfs cloudera

database - 将数据从 HDFS 加载到 Vertica

从HDFS加载数据到vertica时出现以下错误我只是停止了以前工作的数据库并在Vertica中创建了新数据库。然后我跑了vsql-f[AggregateFunctions.sql,AnalyticFunctions.sql,FilterFunctions.sql,JavaFunctions.sql,JavaUDLFunctions.sql,ParserFunctions.sql,SourceFunctions.sql,TransformFunctions.sql]当我尝试使用以下命令从HDFS加载数据时COPYexploded001SOURCEHdfs(url='http://had

database Vertica section code sql hadoop hdfs webhdfs

没有 HDFS 存储的 Hadoop Namenode

我已经安装了一个总共有3台机器的hadoop集群，其中2个节点充当数据节点，1个节点充当名称节点和一个数据节点。我想澄清一些关于hadoop集群安装和架构的疑虑。这是我正在寻找答案的问题列表----我在集群中上传了一个大约500mb大小的数据文件，然后检查了hdfs报告。我注意到我制作的名称节点在hdfs中也占用了500mb大小，以及复制因子为2的数据节点。这里的问题是我不希望名称节点在其上存储任何数据，简而言之，我不希望它作为数据节点工作，因为它还存储我正在上传的文件。那么有什么办法让它只充当MasterNode而不是datanode呢？我尝试在名称节点上运行命令hadoop-dae

Namenode Hadoop section 充当节点 cluster-computing biginsights

hadoop - 命令用法 :when to use hadoop fs and hdfs dfs

正如标题所说，我很困惑何时使用以“hdfsdfs”和“hadoopfs”开头的命令仅供引用，我是使用cloudera4.6quickstartvm的hadoop新手。最佳答案下面是三个看似相同但有细微差别的命令hadoopfs{args}hadoopdfs{args}hdfsdfs{args}hadoopfsFS与通用文件系统相关，它可以指向任何文件系统，如本地、HDFS等。因此，当您处理不同的文件系统(如LocalFS、HFTPFS、S3FS等)时，可以使用它hadoopdfsdfs非常特定于HDFS。将适用于与HDFS相关的

hadoop 用法 strong section hdfs cloudera

java - HDFS是否将不可拆分文件存储在一个数据节点中？

对于不可拆分的文件，如GZIP，将只有一个map作业，因为GZIP文件不可拆分。是否有任何选项或优化将此类文件的所有block存储在一个数据节点中，以便我们至少可以节省网络带宽？最佳答案将gzip文件的HDFSblock大小增加到大于文件大小应该可以解决问题。有关设置每个文件的HDFSblock大小的更多信息，请参阅此answer 关于java-HDFS是否将不可拆分文件存储在一个数据节点中？，我们在StackOverflow上找到一个类似的问题： htt

点中 java section stackoverflow questions hadoop compression hdfs

csv - 如何使用 Flume 将一组 csv 文件从我的本地目录复制到 HDFS

如何使用Flume将一组csv文件从我的本地目录复制到HDFS？我尝试使用假脱机目录作为我的来源，但未能复制。然后我使用以下水槽配置来获得我的结果:agent1.sources=tailagent1.channels=MemoryChannel-2agent1.sinks=HDFSagent1.sources.tail.type=execagent1.sources.tail.command=tail-F/home/cloudera/runs/*agent1.sources.tail.channels=MemoryChannel-2agent1.sinks.HDFS.channel=M

csv Flume agent agent_slave slave hadoop flume-ng

54 55 565758 59 60