hdfs_rtp

hadoop - HDFS 如何管理 block 大小？

我的文件大小是65MB和默认的hdfsblock大小(64MB)，那么我的文件将分配多少个64MBblock？它是1-64MBblock、1-1MBblock还是2-64MBblock？如果它是2-64MBblock，它会浪费剩下的63MB还是会分配给其他文件？最佳答案 block大小64MB表示block的上限大小。这并不意味着小于64MB的文件block将消耗64MB。它不会消耗64MB来存储1MB的block。如果文件是160兆字节，希望这对您有所帮助。关于hadoop-HDF

hadoop - 使用 sqoop 从 Oracle(Windows) 导入数据到 HDFS (CDH3) 机器

您好，我正在参加HADOOP培训。我有一个任务，我必须使用sqoop将表数据从oracle(windows,11gxe)导入到hdfs。我正在阅读以下文章。我的问题是如何将数据从Windows准确导入到hdfs。通常我使用Winscp将文件从Windows传输到hdfs机器。我已经从安装在hdfs(cdh3)机器上的MySql导入了数据。但是我不知道将数据从windows中的Oracle导入到hdfs。请帮忙。LinkthatIamfollowing 最佳答案以下是分步过程:1.Connectoraclesql命令行使用您的凭据登

Windows hadoop code strong oracle oracle11g sqoop bigdata

scala - HDFS 文件互斥写入？

基本上，在我的程序中，任务将附加到HDFS文件。但是，我不希望两个任务同时附加文件。有没有一种机制，我只有一个任务附加到HDFS文件。基本上是一种互斥机制。我在创建文件时也需要这样的互斥。最佳答案据我所知，您不能让多个处理程序写入同一个HDFS文件。这不是Spark的限制，这正是HDFS的设计方式。在HDFS中，文件是不可变的。每个文件只有一个编写器，关闭后没有追加。这对于大数据和Spark来说非常有用，因为您始终知道同一个文件会产生相同的数据。在Hadoop中解决这个问题的方法是让每个编写者编写自己的文件，然后有一个最终的Ma

互斥 scala section HDFS hadoop apache-spark bigdata

hadoop - 远程访问 HDFS

我在某个服务器上运行hadoop服务器，比方说在IP192.168.11.7上并使其core-site.xml如下:fs.defaultFShdfs://localhost:9000我已经运行了我的hdfs，即使用命令:sbin/start-dfs.sh现在，我想使用浏览器从我的本地计算机访问HDFS。可能吗？我试过了http://192.168.11.7:9000或http://192.168.11.7:50075，但无济于事。即无法访问此站点非常感谢编辑:这是我的hdfs-site.xml的内容:dfs.replication1dfs.webhdfs.enabledtruedfs.

hadoop HDFS gt lt property

hadoop - 将数据/文件从 Windows 复制到 Linux 机器或 HDFS

我正在处理大数据，想从远程机器上的文件系统中获取数据/文件，而不是从任何数据库中获取数据/文件，即将文件从远程linux/windows机器复制到hdfs。请帮助我。最佳答案您可以使用以下命令将文件从本地文件复制到远程文件系统，反之亦然scpcommandsscp[Options][[User@]From_Host:]Source_File[[User@]To_Host:][Destination_File] 关于hadoop-将数据/文件从Windows复制到Linux机器或HDF

Windows hadoop section strong stackoverflow filesystems hdfs bigdata

git - 我们可以使用 HDFS 来存储 git 存储库吗？

我想创建一个可扩展的git存储库，以实现高可用性、自动故障转移和性能。我认为HDFS非常适合这种情况。但我不知道是否可以将它与git存储库一起使用。有人可以举个例子吗？如何使用hdfs存储git仓库？最佳答案可能有点冗长，但应该工作的是使用FUSE(MountableHDFS)一旦你能够挂载HDFS，它就像任何其他文件系统一样，你应该能够使用该挂载(HDFS)来存储git存储库。详情请见以下链接https://wiki.apache.org/hadoop/MountableHDFShttp://www.cloudera.com/

储库 git section MountableHDFS hadoop repository hdfs gitlab

performance - HDFS 与 HBASE : Which one performs better on millions of small text files?

如果我们有数百万个大小从几KB到几MB不等的小文本文件，HDFS和HBASE中哪一个花费的处理时间更少？还有更少的内存消耗？最佳答案这是一个高层次的问题。缺少有关数据类型的信息。但是，一般而言，我们在决定存储位置等事项时需要牢记以下事项。在HDFS或HBase中:由于我们有质量较小的文件，将其存储在HDFS中会遇到一些问题。名称节点上的元数据会很高如果block大小(输入拆分大小)配置不正确，则完整数据局部性和并行处理的潜力将不会利用。有关输入拆分和之间关系的更多信息block大小，请引用SplitsizevsBlocksize

performance millions section HDFS size hadoop hbase

java - HDFS Java API 检查权限

我需要检查我的代码是否对hdfs中的目录具有写权限。所以我想使用类似hdfs.checkPermission(Pathpath)的方法，但我只在API中看到setPermission(Pathp,FsPermissionpermission)方法。我该怎么做？当然，如果我没有写权限，我可以在目录中创建一个文件并捕获异常“权限被拒绝”，但这不是我想要做的。最佳答案 getPermission可用于FileStatus对象valhdfs=org.apache.hadoop.fs.FileSystem.get(neworg.apache

检查权 java section code hdfs hadoop

bash - 获取 HDFS 中最后更新的文件夹

我想要我的一个HDFS目录中的最新更新文件夹。我能够在hdfs文件系统中获取最新文件，但不确定如何为HDFS文件系统执行此操作。我尝试使用shell脚本。最佳答案使用Hadoop2.6，我可以使用以下命令让它工作:hdfsdfs-ls-R${DIR}|grep"^d"|sort-k6,7|tail-1|tr-s''|cut-d''-f8在哪里，hdfsdfs-ls-R${DIR}:递归地给出所有目录grep"^d":只给出目录sort-k6,7:按修改时间排序tail-1:列出最后修改的目录tr-s'':一些格式化cut-d''

bash HDFS code supergroup section shell unix hadoop

java - 如何从 HDFS 中的 Path 获取绝对路径

我是HDFS的新手，遇到了以下问题:org.apache.hadoop.fs.Path没有类似getAbsolutePath的方法返回字符串。toString方法没有正确记录，因此使用它是否可靠？最佳答案 org.apache.hadoop.fs.Path应该返回完整路径。是的，toString方法几乎没有任何文档，但它可以正常工作!也许这也行:Pathp=fs.getFileStatus(newPath(".")).getPath();URI(p.toString()).getPath();引用:http://lucene.47

绝对 java section code Is-there-a-way-to-get-an-absolute hadoop hdfs

175 176 177178179 180 181