hdfs-audit

hadoop - 如何将子目录中的文件复制到 HDFS 中的单个目录

我在Impala中有一个由两列分区的外部表，因此在您访问实际数据文件之前，HDFS目录有两级目录。该表在元存储中已损坏，无法查询。我只想将单个(~10k)文件复制到一个目录中，这样我就可以删除损坏的表，删除现有目录，然后使用Impala中的LOADDATAINTO表查询将数据运行回表中。问题是我找不到只复制文件的方法，因为加载数据不支持子目录加载，所以它们最终都在一个目录中。结构如下:我的根我的sub1a我的sub2a文件1.txt文件2.txt在mysub1和mysub2级别有数百个目录我已经能够获得正确的文件列表:hadoopfs-lsr/我的根/|grep.parq但我不知道如何

子目子目录 section li hadoop grep hdfs

Hadoop hdfs namenode 启动命令失败。也没有格式化？

很像我运行命令sudoservicehadoop-hdfs-namenodestart时的状态，命令失败并显示以下消息。2015-02-0116:51:22,032INFOorg.apache.hadoop.hdfs.server.namenode.NameNode:registeredUNIXsignalhandlersfor[TERM,HUP,INT]2015-02-0116:51:22,379WARNorg.apache.hadoop.metrics2.impl.MetricsConfig:Cannotlocateconfiguration:triedhadoop-metrics

namenode Hadoop apache centos centos6 cloudera-cdh

python - 如何使用 Python 获取 hdfs 文件的创建日期

我正在使用CDH5。如何使用Python获取目录下所有hdfs文件的创建日期？我不喜欢使用subprocess.Popen()并解析结果。代码看起来不是很优雅。最佳答案 Snakebite是一个Pythonhdfs客户端。它有一个list()方法，该方法将返回包括修改时间在内的文件信息，并在此处的文档中列出了一个示例:http://spotify.github.io/snakebite/client.html#client.Client.ls您可以使用pip安装它。snakebite的Python包信息在这里:https://py

python section snakebite hadoop hdfs cloudera-cdh

java - 是否可以读取正在写入 HDFS 的数据

我有一个简单的java程序，它可以连续写入hdfs。我的理解是，一旦将特定的特定block写入HDFS，其他客户端就可以访问它，但就我而言，我无法这样做。我正在写一个大小为39Kb的文件，每次写入都在100毫秒后开始。我在hue中检查文件的状态，但在写入操作进行之前它显示0字节，写入完成后它显示完整的文件。我希望至少能够读取文件中写入的数据4Kbblock。我正在使用默认配置。我的假设正确吗？如果是这样，我做错了什么？我使用带有CDH4.4的虚拟机。最佳答案 Hadoop权威指南中的一致性模型说“创建文件后，它在文件系统命名空间中

java HDFS section block 的 hadoop cloudera-cdh

hadoop - 在 HDFS 的联邦中将数据从本地磁盘复制到 HDFS

我使用两台主机(hadoop-coc-1和hadoop-coc-2)尝试在其中配置HDFS联合。因此，我在两个主机(hadoop-coc-1和hadoop-coc-2)中配置了$catetc/hadoop/hdfs-site.xml。两个HDFS都与WebHDFS一起正常运行。但是，使用此配置，defaultFS服务未运行。也许这是我无法将数据从本地磁盘复制到HDFS的原因。我尝试使用以下命令复制数据:$hdfsdfs-copyFromLocal~/input1webhdfs://hadoop-coc-1/JavaHotSpot(TM)ClientVMwarning:Youhavelo

HDFS hadoop gt lt property federation webhdfs

java - 使用 Java API 的 hdfs 问题

我使用以下代码删除了hdfs文件系统上的文件conf=neworg.apache.hadoop.conf.Configuration();//TODO:ChangeIPconf.set("fs.defaultFS","hdfs://aaa.bbb.com:1234/user/hdfs");conf.set("hadoop.job.ugi","hdfs");conf.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());conf.set("fs.file.impl",org.apa

java section strong hdfs hadoop

Hadoop HDFS 没有均匀分布数据 block

我目前正在运行一个有2个节点的集群。1个节点是主/从节点，另一个节点只是从节点。我有一个文件，我将block大小设置为该文件大小的一半。那我做hdfsdfs-putfile/文件被复制到HDFS没问题，但是当我检查HDFS站点时，我看到创建的两个block都在一个数据节点中(这些block在我使用-put命令的数据节点上)。我什至尝试调用平衡器脚本，但两个block仍在同一个数据节点上。我需要在所有节点之间(尽可能多地)均匀分布数据。我是不是漏掉了什么？最佳答案如hdfsdfs-ls输出所示，您的复制因子设置为1，因此没有令人信

均匀 Hadoop code section block filesystems hdfs hadoop-yarn

hadoop - 使用 JAVA API 授予 hdfs 目标目录的权限

每当我使用JAVAAPI将数据放入hdfs时，我必须授予hdfs目标目录的权限。我尝试了以下代码:importjava.io.BufferedInputStream;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileInputStream;`entercodehere`importjava.io.FileOutputStream;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.URI;importjava.n

hadoop JAVA apache hdfs

java - hadoop 中不推荐使用 hdfs 命令

我正在关注thisprocedure(YouTubelink)。在执行命令c:/hadoop-2.3.0/bin/hadoopnamenode-format时，我收到以下错误消息**DEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.Exceptioninthread"main"java.lang.NoClassDefFountError**我正在使用jdk-6-windows-amd64.exe。如何解决这个问题？最佳答案

hadoop java strong section hadoop-streaming hadoop2 hadoop-plugins

Hadoop - HDFS - 查看文件如何拆分的命令

HadoopFsShell中是否有命令行(或hdfs命令)来查看文件的拆分情况或查看文件在放入HDFS时如何在数据节点上拆分？最佳答案 hdfsfsck似乎是您所追求的:$hdfsfsck/import/collections/part-00000-files-blocksConnectingtonamenodeviahttp://vm28-hulk-priv:50070FSCKstartedbyusrhadoop(auth:SIMPLE)from/10.237.241.28forpath/import/collections/p

Hadoop HDFS section blocks collections

97 98 99100101 102 103