草庐IT

hadoop - 如何将数据从一个 HDFS 复制到另一个 HDFS?

我有两个HDFS设置,想将一些表从HDFS1复制(而不是迁移或移动)到HDFS2。如何将数据从一个HDFS复制到另一个HDFS?是否可以通过Sqoop或其他命令行实现? 最佳答案 DistCp(分布式副本)是一个用于在集群之间复制数据的工具。它使用MapReduce来影响其分发、错误处理和恢复以及报告。它将文件和目录列表扩展为映射任务的输入,每个映射任务将复制源列表中指定文件的一个分区。用法:$hadoopdistcp示例:$hadoopdistcphdfs://nn1:8020/file1hdfs://nn2:8020/file2

hadoop - Hadoop 中的拆分大小与 block 大小

Hadoop中分割大小和block大小之间的关系是什么?正如我在this中读到的那样,拆分大小必须是block大小的n倍(n是一个整数且n>0),这是正确的吗?splitsize和blocksize之间有什么必然的关系吗? 最佳答案 HDFS架构中有block的概念。HDFS使用的典型block大小为64MB。当我们将一个大文件放入HDFS时,它被分成64MB的block(基于block的默认配置),假设你有一个1GB的文件并且你想将该文件放入HDFS,那么将有1GB/64MB=16个拆分/block,这些block将分布在Data

hadoop - HDFS复制因子

当我将文件上传到HDFS时,如果我将复制因子设置为1,那么文件拆分将驻留在一台机器上,或者拆分将分布到网络中的多台机器?hadoopfs-Ddfs.replication=1-copyFromLocalfile.txt/user/ablimit 最佳答案 根据Hadoop:DefinitiveGuideHadoop’sdefaultstrategyistoplacethefirstreplicaonthesamenodeastheclient(forclientsrunningoutsidethecluster,anodeischo

unix - HDFS 和 NFS 之间的区别?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题,您可以发表评论,说明问题可能在哪里得到解答。关闭3年前。Improvethisquestion我是这方面的新手。想了解hadoop分布式文件系统和网络文件系统之间的基本区别以及hdfs相对于nfs的优势是什么?

hadoop - 将数据从平面文件加载到配置单元表时获取空值

我在将数据从平面文件加载到配置单元表时得到空值。我的表结构是这样的:hive>createtabletest_hive(idint,valuestring);我的平面文件是这样的:输入.txt1a2b3c4d5e6F7G8j当我运行以下命令时,我得到的是空值:hive>LOADDATALOCALINPATH'/home/hduser/input.txt'OVERWRITEINTOTABLEtest_hive;hive>select*fromtest_hive;OKNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNU

hadoop - Spark RDD - 分区总是在 RAM 中吗?

我们都知道Spark在内存中进行计算。我只是对以下内容感到好奇。如果我从HDFS在我的pySparkshell中创建10个RDD,这是否意味着所有这10个RDD的数据都将驻留在SparkWorkers内存中?如果不删除RDD,它会永远存在内存中吗?如果我的数据集(文件)大小超过可用RAM大小,数据将存储在哪里? 最佳答案 IfIcreate10RDDinmypySparkshellfromHDFS,doesitmeanallthese10RDDdatawillresideonSparkMemory?是的,所有10个RDD数据都将散布

hadoop - 为什么 "hadoop fs -mkdir"会因权限被拒绝而失败?

我在我正在玩的VM机器上使用Cloudera。不幸的是,我在将数据复制到HDFS时遇到问题,我得到以下信息:[cloudera@localhost~]$hadoopfs-mkdirinputmkdir:Permissiondenied:user=cloudera,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-x我不太关心此VM的安全性,无论如何我可以在HDFS上打开更多安全性吗? 最佳答案 在hadoop中使用mkdir需要“hadoop文件权限”。从您的示例中,您可以看到h

Hadoop DistCp 使用通配符?

是否可以使用DistCp仅复制与特定模式匹配的文件?例如。对于/foo我只想要*.log文件。 最佳答案 我意识到这是一个旧线程。但我自己对这个问题的答案很感兴趣——dk89也在2013年再次提出了这个问题。所以我们开始吧:distcp不支持通配符。您最接近的做法是:找到您要复制的文件(源),然后使用grep进行过滤,使用awk格式化为hdfs,并将结果输出到“输入文件”列表:hadoopdfs-lsrhdfs://localhost:9000/path/to/source/dir/|grep-ewebapp.log.3.|awk'

hadoop - 将文件从 HDFS 传出

我想将文件从HDFS传输到不在hadoop集群中但在网络中的不同服务器的本地文件系统。我本可以做到:hadoopfs-copyToLocalandthenscp/ftp.由于数据量很大,而且hadoop网关机器的本地文件系统空间有限,我想避免这种情况,直接将数据发送到我的文件服务器。请提供一些有关如何处理此问题的指示。 最佳答案 这是最简单的方法:ssh"hdfsdfs-cat">它也适用于二进制文件。 关于hadoop-将文件从HDFS传出,我们在StackOverflow上找到一个类

hadoop - HDFS:你如何递归地列出文件?

如何通过Java,列出HDFS中某个路径下的所有文件(递归)。我浏览了API并注意到了FileSystem.listFiles(Path,boolean),但是当我初始化它时,我的FileSystem实例中似乎不存在该方法。 最佳答案 您可以查看适用于您的hadoop版本的org.apache.hadoop.fs.FsShell.ls(FileStatus,FileSystem,boolean,boolean)的源代码-当您从命令行执行hadoopfs-lsrpath0.20.2-第593行1.0.2-第590行