草庐IT

HDFS_DATANODE

全部标签

hadoop/hdfs/name 处于不一致状态 : storage directory(hadoop/hdfs/data/) does not exist or is not accessible

我已经尝试了stackoverflow提供的关于这个主题的所有不同解决方案,但没有帮助再次询问具体日志和详细信息感谢任何帮助我的Hadoop集群中有一个主节点和5个从节点。ubuntu用户和ubuntu组是~/Hadoop文件夹的所有者~/hadoop/hdfs/data&~/hadoop/hdfs/name文件夹都存在两个文件夹的权限都设置为755在启动脚本start-all.sh之前成功格式化namenode脚本无法启动“名称节点”这些都在主节点上运行ubuntu@master:~/hadoop/bin$jps7067TaskTracker6914JobTracker7237Jps

compression - Hadoop:在 HDFS 中压缩文件?

我最近在Hadoop中设置了LZO压缩。在HDFS中压缩文件的最简单方法是什么?我想压缩一个文件,然后删除原来的。我应该使用IdentityMapper和使用LZO压缩的IdentityReducer创建MR作业吗? 最佳答案 对我来说,编写HadoopStreaming的开销较低压缩文件的作业。这是我运行的命令:hadoopjar$HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\-Dmapred.output.compress=true\-Dmapr

hadoop - 获取几行HDFS数据

我的HDFS中有一个2GB数据。是否可以随机获取该数据。就像我们在Unix命令行中做的那样catiris2.csv|head-n50 最佳答案 本地头hadoopfs-cat/your/file|head在这里是高效的,因为cat会在head读完所有行后立即关闭流。为了得到tail,在hadoop中有一个特别有效的命令:hadoopfs-tail/your/file不幸的是,它返回数据的最后一千字节,而不是给定的行数。 关于hadoop-获取几行HDFS数据,我们在StackOverfl

shell - 检查HDFS中的目录是否已经存在

我在HDFS中有以下目录结构,/analysis/alertData/logs/YEAR/MONTH/DATE/HOURS即数据以年/月/日/小时的格式存储,按小时计算。我写了一个shell脚本,我在其中传递路径直到"/analysis/alertData/logs"(thiswillvarydependingonwhatproductofdataiamhandling)然后shell脚本遍历年/月/日/小时文件夹并返回最新的路径。例如:DirectoriespresentinHDFShasfollowingstructure:/analysis/alertData/logs/2014

hadoop - 如何将数据从一个 HDFS 复制到另一个 HDFS?

我有两个HDFS设置,想将一些表从HDFS1复制(而不是迁移或移动)到HDFS2。如何将数据从一个HDFS复制到另一个HDFS?是否可以通过Sqoop或其他命令行实现? 最佳答案 DistCp(分布式副本)是一个用于在集群之间复制数据的工具。它使用MapReduce来影响其分发、错误处理和恢复以及报告。它将文件和目录列表扩展为映射任务的输入,每个映射任务将复制源列表中指定文件的一个分区。用法:$hadoopdistcp示例:$hadoopdistcphdfs://nn1:8020/file1hdfs://nn2:8020/file2

hadoop - HDFS复制因子

当我将文件上传到HDFS时,如果我将复制因子设置为1,那么文件拆分将驻留在一台机器上,或者拆分将分布到网络中的多台机器?hadoopfs-Ddfs.replication=1-copyFromLocalfile.txt/user/ablimit 最佳答案 根据Hadoop:DefinitiveGuideHadoop’sdefaultstrategyistoplacethefirstreplicaonthesamenodeastheclient(forclientsrunningoutsidethecluster,anodeischo

unix - HDFS 和 NFS 之间的区别?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题,您可以发表评论,说明问题可能在哪里得到解答。关闭3年前。Improvethisquestion我是这方面的新手。想了解hadoop分布式文件系统和网络文件系统之间的基本区别以及hdfs相对于nfs的优势是什么?

hadoop - 将文件从 HDFS 传出

我想将文件从HDFS传输到不在hadoop集群中但在网络中的不同服务器的本地文件系统。我本可以做到:hadoopfs-copyToLocalandthenscp/ftp.由于数据量很大,而且hadoop网关机器的本地文件系统空间有限,我想避免这种情况,直接将数据发送到我的文件服务器。请提供一些有关如何处理此问题的指示。 最佳答案 这是最简单的方法:ssh"hdfsdfs-cat">它也适用于二进制文件。 关于hadoop-将文件从HDFS传出,我们在StackOverflow上找到一个类

hadoop - HDFS:你如何递归地列出文件?

如何通过Java,列出HDFS中某个路径下的所有文件(递归)。我浏览了API并注意到了FileSystem.listFiles(Path,boolean),但是当我初始化它时,我的FileSystem实例中似乎不存在该方法。 最佳答案 您可以查看适用于您的hadoop版本的org.apache.hadoop.fs.FsShell.ls(FileStatus,FileSystem,boolean,boolean)的源代码-当您从命令行执行hadoopfs-lsrpath0.20.2-第593行1.0.2-第590行

hadoop - 为什么 HDFS 中的 block 这么大?

有人可以解释这个计算并给出清晰的解释吗?Aquickcalculationshowsthatiftheseektimeisaround10msandthetransferrateis100MB/s,tomaketheseektime1%ofthetransfertime,weneedtomaketheblocksizearound100MB.Thedefaultisactually64MB,althoughmanyHDFSinstallationsuse128MBblocks.Thisfigurewillcontinuetoberevisedupwardastransferspeeds