草庐IT

hdfs_rtp

全部标签

hadoop - HDFS 如何管理 block 大小?

我的文件大小是65MB和默认的hdfsblock大小(64MB),那么我的文件将分配多少个64MBblock?它是1-64MBblock、1-1MBblock还是2-64MBblock?如果它是2-64MBblock,它会浪费剩下的63MB还是会分配给其他文件? 最佳答案 block大小64MB表示block的上限大小。这并不意味着小于64MB的文件block将消耗64MB。它不会消耗64MB来存储1MB的block。如果文件是160兆字节,希望这对您有所帮助。 关于hadoop-HDF

hadoop - 使用 sqoop 从 Oracle(Windows) 导入数据到 HDFS (CDH3) 机器

您好,我正在参加HADOOP培训。我有一个任务,我必须使用sqoop将表数据从oracle(windows,11gxe)导入到hdfs。我正在阅读以下文章。我的问题是如何将数据从Windows准确导入到hdfs。通常我使用Winscp将文件从Windows传输到hdfs机器。我已经从安装在hdfs(cdh3)机器上的MySql导入了数据。但是我不知道将数据从windows中的Oracle导入到hdfs。请帮忙。LinkthatIamfollowing 最佳答案 以下是分步过程:1.Connectoraclesql命令行使用您的凭据登

scala - HDFS 文件互斥写入?

基本上,在我的程序中,任务将附加到HDFS文件。但是,我不希望两个任务同时附加文件。有没有一种机制,我只有一个任务附加到HDFS文件。基本上是一种互斥机制。我在创建文件时也需要这样的互斥。 最佳答案 据我所知,您不能让多个处理程序写入同一个HDFS文件。这不是Spark的限制,这正是HDFS的设计方式。在HDFS中,文件是不可变的。每个文件只有一个编写器,关闭后没有追加。这对于大数据和Spark来说非常有用,因为您始终知道同一个文件会产生相同的数据。在Hadoop中解决这个问题的方法是让每个编写者编写自己的文件,然后有一个最终的Ma

hadoop - 远程访问 HDFS

我在某个服务器上运行hadoop服务器,比方说在IP192.168.11.7上并使其core-site.xml如下:fs.defaultFShdfs://localhost:9000我已经运行了我的hdfs,即使用命令:sbin/start-dfs.sh现在,我想使用浏览器从我的本地计算机访问HDFS。可能吗?我试过了http://192.168.11.7:9000或http://192.168.11.7:50075,但无济于事。即无法访问此站点非常感谢编辑:这是我的hdfs-site.xml的内容:dfs.replication1dfs.webhdfs.enabledtruedfs.

hadoop - 将数据/文件从 Windows 复制到 Linux 机器或 HDFS

我正在处理大数据,想从远程机器上的文件系统中获取数据/文件,而不是从任何数据库中获取数据/文件,即将文件从远程linux/windows机器复制到hdfs。请帮助我。 最佳答案 您可以使用以下命令将文件从本地文件复制到远程文件系统,反之亦然scpcommandsscp[Options][[User@]From_Host:]Source_File[[User@]To_Host:][Destination_File] 关于hadoop-将数据/文件从Windows复制到Linux机器或HDF

git - 我们可以使用 HDFS 来存储 git 存储库吗?

我想创建一个可扩展的git存储库,以实现高可用性、自动故障转移和性能。我认为HDFS非常适合这种情况。但我不知道是否可以将它与git存储库一起使用。有人可以举个例子吗?如何使用hdfs存储git仓库? 最佳答案 可能有点冗长,但应该工作的是使用FUSE(MountableHDFS)一旦你能够挂载HDFS,它就像任何其他文件系统一样,你应该能够使用该挂载(HDFS)来存储git存储库。详情请见以下链接https://wiki.apache.org/hadoop/MountableHDFShttp://www.cloudera.com/

performance - HDFS 与 HBASE : Which one performs better on millions of small text files?

如果我们有数百万个大小从几KB到几MB不等的小文本文件,HDFS和HBASE中哪一个花费的处理时间更少?还有更少的内存消耗? 最佳答案 这是一个高层次的问题。缺少有关数据类型的信息。但是,一般而言,我们在决定存储位置等事项时需要牢记以下事项。在HDFS或HBase中:由于我们有质量较小的文件,将其存储在HDFS中会遇到一些问题。名称节点上的元数据会很高如果block大小(输入拆分大小)配置不正确,则完整数据局部性和并行处理的潜力将不会利用。有关输入拆分和之间关系的更多信息block大小,请引用SplitsizevsBlocksize

java - HDFS Java API 检查权限

我需要检查我的代码是否对hdfs中的目录具有写权限。所以我想使用类似hdfs.checkPermission(Pathpath)的方法,但我只在API中看到setPermission(Pathp,FsPermissionpermission)方法。我该怎么做?当然,如果我没有写权限,我可以在目录中创建一个文件并捕获异常“权限被拒绝”,但这不是我想要做的。 最佳答案 getPermission可用于FileStatus对象valhdfs=org.apache.hadoop.fs.FileSystem.get(neworg.apache

bash - 获取 HDFS 中最后更新的文件夹

我想要我的一个HDFS目录中的最新更新文件夹。我能够在hdfs文件系统中获取最新文件,但不确定如何为HDFS文件系统执行此操作。我尝试使用shell脚本。 最佳答案 使用Hadoop2.6,我可以使用以下命令让它工作:hdfsdfs-ls-R${DIR}|grep"^d"|sort-k6,7|tail-1|tr-s''|cut-d''-f8在哪里,hdfsdfs-ls-R${DIR}:递归地给出所有目录grep"^d":只给出目录sort-k6,7:按修改时间排序tail-1:列出最后修改的目录tr-s'':一些格式化cut-d''

java - 如何从 HDFS 中的 Path 获取绝对路径

我是HDFS的新手,遇到了以下问题:org.apache.hadoop.fs.Path没有类似getAbsolutePath的方法返回字符串。toString方法没有正确记录,因此使用它是否可靠? 最佳答案 org.apache.hadoop.fs.Path应该返回完整路径。是的,toString方法几乎没有任何文档,但它可以正常工作!也许这也行:Pathp=fs.getFileStatus(newPath(".")).getPath();URI(p.toString()).getPath();引用:http://lucene.47