hdfs_rtp

hadoop - HDFS的拆分逻辑？

FileInputFormat类的isSplittable()方法有什么意义？http://hadoop.apache.org/docs/r2.2.0/api/index.html 最佳答案当isSplitable返回false时，只有一个映射器处理整个文件。您可以提供自己的FileInputFormat实现，并根据需要为isSplitable返回true/false。关于hadoop-HDFS的拆分逻辑？，我们在StackOverflow上找到一个类似的问题：

hadoop - 检查点在 HDFS 中是如何工作的？我想弄清楚 fs.checkpoint.period 和 fs.checkpoint.size

当它说时，辅助名称节点检查点每小时(fs.checkpoint.period以秒为单位)或如果编辑日志已达到64MB(fs.checkpoint.size以字节为单位)则更早？究竟是什么意思？据我了解，编辑日志存储在本地文件磁盘中。最佳答案 HDFS元数据可以认为由两部分组成:基本文件系统表(存储在名为fsimage的文件中)和列出对基本表所做更改的编辑日志(存储在文件中称为edits)。检查点是协调fsimage与edits以生成新版本的fsimage的过程。这样做有两个好处:更新版本的fsimage和截断的编辑日志。fs.ch

checkpoint 弄清 code section hadoop mapreduce hdfs

hadoop - HDFS 文件系统存储在用户空间而不是内核空间中有什么区别？

据我所知，HDFS是用java编写的。HDFS只不过是一个文件系统，它驻留在用户空间内，不像FAT、NTFS、ext2等驻留在内核空间上的传统文件系统。有人可以澄清一下吗？最佳答案你的理解是正确的。不同于FAT、XFS、EXT文件系统。HFDS需要一个底层文件系统才能工作，并且它运行在用户空间而不是内核中。关于hadoop-HDFS文件系统存储在用户空间而不是内核空间中有什么区别？，我们在StackOverflow上找到一个类似的问题： https://

在用 hadoop section 驻留 filesystems hdfs

hadoop - HDFS如何写入数据节点上的磁盘

我不是文件系统工作原理方面的专家，但这个问题可以帮助我理清一些模糊的概念。HDFS是如何写入物理磁盘的？我了解HDFS在ext3文件系统磁盘上运行(通常)。这些文件系统的block大小远小于HDFSblock大小。因此，如果我正在编写一个128MB的逻辑HDFSblock，则磁盘可以将其存储为更小的物理block。HDFS是否确保这些物理block是连续的？(连续block增加了FS吞吐量，因为它最大限度地减少了寻道时间)？HDFS如何提供高吞吐量？最佳答案据我所知，HDFS并不关心它运行的物理文件系统。我在几个不同的文件系统上

hadoop HDFS section block filesystems

hadoop - 通过 webHDFS REST API 将图像上传到 HDFS 的问题

我正在使用MultiPartEntity执行HttpPut，以通过webHDFSRESTAPI将文件写入HDFS。请求本身通过并给了我正确的响应，307和201。但是图像有多个部分的标题也作为它的一部分写入，如下所示，它不是一个有效的图像来检索和打开。--8DkJ3RkUHahEaNE9Ktw8NC1TFOqegjfA9PsContent-Disposition:表单数据；名称="file"；文件名="广告.jpg"内容类型:application/octet-streamÿØÿàJFIFHHÿÛC//其余图片内容--8DkJ3RkUHahEaNE9Ktw8NC1TFOqegjfA9P

传到 webHDFS section 39 code hadoop hdfs multipartform-data multipartentity

database - 将 GZIP HDFS 数据复制到 vertica

我想将HDFS(gzip压缩)数据复制到Vetica。我正在使用以下命令。但它不起作用COPYpix001SOURCEHdfs(url='http://hadoopnemenode.com:50070/webhdfs/v1/bq-upload/pix/m=03/d=01/03-01.txt.gz',username='xyz')GZIPDELIMITERE'\t';谁知道更好的方法谢谢最佳答案是的，有GZIP支持，只需要编译GZIP库[VerticaGuys终于帮了我:)]步骤如下:#cd/opt/vertica/sdk/exa

database vertica section webhdfs li hadoop nosql

mysql - 使用 sqoop(1.4.5) 将 mysql 数据导入到 hdfs(hadoop 2.4.1)

我是Hadoop的初学者，试图使用sqoop1.4.5从我的本地数据库mysql导入一个表到hadoop2.4.1的hdfs。mysqlversion:5.5.38hdfsversion:hadoop2.4.1sqoopversion:1.4.5我尝试了sqoop-list-databases，它给出了正确的答案但随后给出以下命令:sqoopimport--connectjdbc:mysql://localhost:3306/information_schema--usernameroot--passwordroot--tableVIEWs-m1我得到:ERRORtool.Import

mysql hadoop apache java sqoop

hadoop - 我们能否将我们的 HDFS 数据或 Map Reduce 输出显示为 HTML 表单或 JSP 页面？

是否可以将我们的HDFS数据或MapReduce输出显示为HTML表单或JSP页面？如果是，那么如何？最佳答案在web服务和J2EE项目的帮助下，使用Hadoop文件系统api(引用here)来cathdfs文件，您可以在网页中显示结果。但是，请记住您正在处理的数据大小，巨大的数据(TB和PB)也会影响您的网络应用内存。关于hadoop-我们能否将我们的HDFS数据或MapReduce输出显示为HTML表单或JSP页面？，我们在StackOverflow上找到一个类似的问题：

hadoop Reduce section strong hdfs

Hadoop - HDFS Namenode 元数据 - FSImage

我知道在主节点中我们有名称节点，它在两个文件中维护一个元数据。一个是FSImage，另一个是Editlogs。所以这个FSImage最初是在hadoop系统启动时加载的，这个FSImage包含了集群的目录结构和存储的数据。然后，对于发生的每个事务，都会更新编辑日志文件。我的问题如下:这些只是包含所有信息(FSImage和EditLogs)的文件还是还有更多？这是否意味着FSImage文件只会被写入一次？如果是，那为什么它总是被复制到二级名称节点？这不是增加了一个待完成的任务吗？假设我在hdfs中添加或删除了一个新文件；那么这个FSImage不会被更新吗？最

Namenode FSImage section li hadoop metadata hdfs

hadoop - 将多个文件通过管道传输到 HDFS

我正在尝试将gzip文件从远程计算机上的目录加载到本地计算机的HDFS上。我希望能够从远程机器读取gzip文件并将它们直接通过管道传输到我本地机器上的HDFS中。这是我在本地机器上得到的:sshremote-host"cd/files/wanted;tar-cf-*.gz"|tar-xf-|hadoopfs-put-"/files/hadoop"这显然将所有gzip文件从指定的远程路径复制到我执行命令的路径，并将一个空文件-加载到HDFS中。如果我在不使用tar的情况下尝试，也会发生同样的事情:sshremote-host"cd/files/wanted;cat*.gz"|hadoop

hadoop HDFS code section pipe

162 163 164165166 167 168