hdfs_sink

hadoop - LZO-就地在 HDFS 上压缩和索引文件？

通常我会执行以下操作来使用LZO:使用lzop命令将数据文件压缩到本地磁盘。放入HDFS。使用分布式lzo索引器生成.index文件。我想知道有没有办法同时对HDFS上的原始文件进行压缩和索引？最佳答案是的，你可以:在客户端和服务器上的core-site.xml中，将com.hadoop.compression.lzo.LzopCodec添加到以逗号分隔的编解码器列表中:io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoo

就地 hadoop gt lt property lzo

hadoop - 在 RDD 方法中访问 HDFS 输入拆分路径

我的HDFS文件路径包含我想在Spark中访问的元数据，即类似以下内容的内容:sc.newAPIHadoopFile("hdfs://.../*"),...).map(rdd=>/*accesshdfspathhere*/)在Hadoop中，我可以通过FileSplit.getPath()访问整个拆分的路径。我可以在Spark中做任何类似的事情吗，或者我是否必须将路径字符串附加到扩展NewHadoopRDD中的每个RDD元素，我认为这可能相当昂贵？最佳答案在您提供给map()方法的闭包中，没有可用的元数据/执行上下文信息。你可能

hadoop HDFS section code the apache-spark

bash - 如何查看整个根 hdfs 磁盘使用情况？ (hadoop dfs -du/gets 子文件夹)

我们可能并不意外地认识到大数据对企业的吸引力，这是我们希望在我们的hadoop集群上监控的磁盘空间问题。我有一个cron作业在运行，它正在做我想做的事情，除了我想要其中一条输出行显示已使用的总体空间。换句话说，在bash中，“du/”命令的最后一行显示了整个磁盘上所有子文件夹的总使用情况。我想要这种行为。目前，当我运行“hadoopdfs-du/”时，我只得到子目录信息，而不是总计。获得它的最佳方式是什么？非常感谢所有SuperStackOverflow人员:)。最佳答案我只是没有正确理解文档!这是获得已用总空间的答案；$had

hadoop bash section array hdfs

java - 将 HDFS 目录复制到本地节点

我正在处理单节点Hadoop2.4集群。我可以使用hadoopfs-copyToLocalmyDirectory复制目录及其所有内容。但是，我无法通过此java代码成功执行相同的操作:publicvoidmapObjectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Configurationconf=newConfiguration(true);FileSystemhdfs=FileSystem.get(conf);hdfs.copyToLocalFile(false,newPath("myDi

java HDFS section code myDirectory hadoop

hadoop - 一个巨大的DataStructure可以直接交给MapReduce处理而不加载到HDFS上吗？

我们正在研究将一个巨大的N维数据结构(NetCDF文件)流式传输作为Mapper函数的输入而无需写入文本文件然后加载到HDFS上的想法。我们有一个应用程序已经拥有这个巨大的数据结构。所以我们想跳过所有涉及写入和读取文本文件的开销。我们需要对以下问题的一些输入..1)第三方应用程序能否将数据直接流式传输到MapReduce？2)如果上述情况可行，MapReduce是否会处理将此DataStructure拆分为输入block，或者我们是否需要明确地执行此操作？3)这是否可能在ApacheSPARK上实现，因为Spark从DRAM运行，而DataStructure也在DRAM上，因此我们不必

DataStructure MapReduce section noreferrer noopener hadoop hdfs apache-spark hadoop-streaming

hadoop - Flume + HDFS-200 追加

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说HDFSsink支持附加，但我没能找到任何关于如何启用它的信息，每个示例都在滚动文件上。因此，如果可能的话，我将不胜感激有关如何使水槽附加到现有文件的任何信息)更新可以将所有滚动属性设置为0，这将使flume写入单个文件，但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:FlumeNGandHDFS，Dmitry说Flume不支持追加，但答案是一年前的，文档说的恰恰相反，所以我想也许flume得到了改进，或者我误解了什么，任何线索都将不

hadoop Flume section strong hdfs flume-ng

hadoop - 如何使用 hdfs 客户端连接到远程数据节点？

我的目标是从hdfs下载文件到本地文件系统。我正在使用连接到远程HDFSNameNode的客户端。hadoopfs-gethdfs://sourceHDFS:8020/path_to_file/file/path_to_save_file我得到了一个异常(exception)。15/03/1712:18:49WARNclient.ShortCircuitCache:ShortCircuitCache(0x11bbad83):failedtoload1073754800_BP-703742109-127.0.0.1-139845939166415/03/1712:18:49WARNhdf

hadoop hdfs section code NameNode

hadoop - HDFS 有文件但发生 java.io.FileNotFoundException

我在Hadoop上运行MapReduce程序。输入格式将每个文件路径传递给映射器。我可以这样通过cmd查看文件，$hadoopfs-lshdfs://slave1.kdars.com:8020/user/hadoop/num_5/13.pdf找到1项-rwxrwxrwx3hdfshdfs1842692015-03-3122:50hdfs://slave1.kdars.com:8020/user/hadoop/num_5/13.pdf但是，当我尝试从映射器端打开该文件时，它不起作用。15/04/0106:13:04INFOmapreduce.Job:任务ID:attempt_142788

FileNotFoundException hadoop 射器 section FileInputStream

Linux和HADOOP安装在一台机器的一个驱动器上，我可以在电脑的另一个驱动器上安装HDFS吗

我是HADOOP的初学者。我有一台Windows笔记本电脑，硬盘分为4个驱动器。最近清空了一个盘(D盘)，在上面安装了Ubuntu14.04，安装了HADOOP和HIVE。现在，在尝试通过Linux处理HADOOP时，我面临着空间限制。LINUX安装在D盘，Windows安装在C盘。当我想将本地文件系统中的数据移动到HIVE时，我必须先将它复制到HDFS，然后再复制到HIVE，现在我的问题是我电脑上的另外两个驱动器在这方面是否有任何用处作为本地文件系统或HDFS，最重要的是HDFS。如果是，请告诉我该怎么做。非常感谢任何帮助。最佳答案

驱动 HADOOP strong code linux hdfs

hadoop - 在 hadoop 多节点集群上启动 HDFS 守护进程时出错。Datanode 未启动

我正在尝试设置hadoop集群并在连接数据节点时出现以下错误。Namenode已启动并运行良好，但数据节点正在产生问题。/etc/hosts文件在两个节点上都可用。IP表已停止(f/w)。ssh发生。2015-05-2020:54:05,008INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:nn1.cluster1.com/192.168.1.11:9000.Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=1

时出 hadoop section

20 21 222324 25 26