hdfs_clusters

hadoop - 如何在非 Java 客户端中从 HDFS 读取文件

所以我的MRJob生成了一个报告文件，最终用户需要能够下载该文件，最终用户需要在普通Web报告界面上单击一个按钮，并让它下载输出。根据thisO'Reillybookexcerpt，有一个HTTP只读接口(interface)。它说它是基于XML的，但它似乎只是旨在通过Web浏览器查看的普通Web界面，而不是可以通过编程方式查询、列出和下载的东西。编写自己的基于servlet的接口(interface)是我唯一的办法吗？或者执行hadoopcli工具？最佳答案从Java以外的东西以编程方式访问HDFS的方法是使用Trift。HD

何在 hadoop section HDFS

performance - 从数据库中导出数据并写入HDFS(hadoop fs)

现在我正在尝试从数据库表中导出数据，并将其写入hdfs。问题是:名称节点会成为瓶颈吗？机制如何，名称节点会缓存一个切片(64MB)，然后将其提供给数据节点？有没有比编写hdfs更好的方法？因为我认为它没有利用并行机制。谢谢:) 最佳答案您是否考虑过使用Sqoop。Sqoop可用于从任何支持JDBC的数据库中提取数据并将其放入HDFS。http://www.cloudera.com/blog/2009/06/introducing-sqoop/Sqoopimport命令获取要运行的map作业的数量(默认为1)。此外，在并行化工作(映

中导 performance section Sqoop hadoop hdfs

java - 关于在 hdfs 中传输文件

我需要用java代码将文件从一个hdfs文件夹传输到另一个hdfs文件夹。请问有没有可以调用的api在hdfs路径间传输文件？我还想问一下，有没有从java代码中调用mapreduce作业的方法？当然，这个java不是在hdfs中运行的。非常感谢，祝周末愉快! 最佳答案 MayIaskisthereapithatwecancalltotransferfilesamonghdfspaths?使用o.a.h.hdfs.DistributedFileSystem#rename方法将文件从HDFS中的一个文件夹移动到另一个文件夹。该函数已重

java hdfs mapreduce section apache hadoop

hadoop - HDFS 中的数据完整性 : Which Data Node(s) verifies the checksum?

根据Hadoop:TheDefinitiveGuide,SecondEditionA.Datanodesareresponsibleforverifyingthedatatheyreceivebeforestoringthedataanditschecksum.他们是否通过验证校验和来验证数据？B.Aclientwritingdatasendsittoapipelineofdatanodes(asexplainedinChapter3),andthelastdatanodeinthepipelineverifiesthechecksum.那么，这是否意味着每个数据节点都验证校验和(如A

checksum verifies section blockquote block hadoop

hadoop - 停止所有 Hadoop 守护程序并再次重新启动后，无法访问在 HDFS 中创建的目录

我是Hadoop的新手，我有几个问题，但我找不到任何解决方案，我的问题如下:**CreatedadirectoryonHDFSusingbelowcommand:--bin/hadoopfs-mkdir/user/abhijit/apple_poc**Checkingifmydirectoryhasbeencreated:--bin/hadoopfs-ls--(output)-->drwxr-xr-x-abhijitsupergroup02013-07-1111:09/user/abhijit/apple_poc**Stoppingallhadoopdaemons:--bin/stop

中创 hadoop RetryUpToMaximumCountWithFixedSle localhost maxRetries hdfs

hadoop - Flume 和 HDFS 集成，HDFS IO 错误

我正在尝试将FLUME与HDFS集成，我的FLUME配置文件是hdfs-agent.sources=netcat-collecthdfs-agent.sinks=hdfs-writehdfs-agent.channels=memoryChannelhdfs-agent.sources.netcat-collect.type=netcathdfs-agent.sources.netcat-collect.bind=localhosthdfs-agent.sources.netcat-collect.port=11111hdfs-agent.sinks.hdfs-write.type=FI

HDFS hadoop hdfs-agent agent flume

hadoop - HDFS的拆分逻辑？

FileInputFormat类的isSplittable()方法有什么意义？http://hadoop.apache.org/docs/r2.2.0/api/index.html 最佳答案当isSplitable返回false时，只有一个映射器处理整个文件。您可以提供自己的FileInputFormat实现，并根据需要为isSplitable返回true/false。关于hadoop-HDFS的拆分逻辑？，我们在StackOverflow上找到一个类似的问题：

hadoop HDFS section FileInputFormat mapreduce distributed-filesystem

hadoop - 检查点在 HDFS 中是如何工作的？我想弄清楚 fs.checkpoint.period 和 fs.checkpoint.size

当它说时，辅助名称节点检查点每小时(fs.checkpoint.period以秒为单位)或如果编辑日志已达到64MB(fs.checkpoint.size以字节为单位)则更早？究竟是什么意思？据我了解，编辑日志存储在本地文件磁盘中。最佳答案 HDFS元数据可以认为由两部分组成:基本文件系统表(存储在名为fsimage的文件中)和列出对基本表所做更改的编辑日志(存储在文件中称为edits)。检查点是协调fsimage与edits以生成新版本的fsimage的过程。这样做有两个好处:更新版本的fsimage和截断的编辑日志。fs.ch

checkpoint 弄清 code section hadoop mapreduce hdfs

hadoop - HDFS 文件系统存储在用户空间而不是内核空间中有什么区别？

据我所知，HDFS是用java编写的。HDFS只不过是一个文件系统，它驻留在用户空间内，不像FAT、NTFS、ext2等驻留在内核空间上的传统文件系统。有人可以澄清一下吗？最佳答案你的理解是正确的。不同于FAT、XFS、EXT文件系统。HFDS需要一个底层文件系统才能工作，并且它运行在用户空间而不是内核中。关于hadoop-HDFS文件系统存储在用户空间而不是内核空间中有什么区别？，我们在StackOverflow上找到一个类似的问题： https://

在用 hadoop section 驻留 filesystems hdfs

hadoop - HDFS如何写入数据节点上的磁盘

我不是文件系统工作原理方面的专家，但这个问题可以帮助我理清一些模糊的概念。HDFS是如何写入物理磁盘的？我了解HDFS在ext3文件系统磁盘上运行(通常)。这些文件系统的block大小远小于HDFSblock大小。因此，如果我正在编写一个128MB的逻辑HDFSblock，则磁盘可以将其存储为更小的物理block。HDFS是否确保这些物理block是连续的？(连续block增加了FS吞吐量，因为它最大限度地减少了寻道时间)？HDFS如何提供高吞吐量？最佳答案据我所知，HDFS并不关心它运行的物理文件系统。我在几个不同的文件系统上

hadoop HDFS section block filesystems

174 175 176177178 179 180