草庐IT

HDFS_NAMENODE

全部标签

Hadoop集群启动后命令JPS没有DataNode或者NameNode

问题原因1)需要检查core-site.xml和hdfs-site.xml这俩文件,配置没错的话再看第二条2)可能已经执行格式化NameNode后,但是格式之前并没有停止之前的进程并删除相关数据。解决方案(记得你的集群删除前需要停止,每个副本都要进行一次下面操作)1)删除dfs文件夹里的文件和删除nm-local-dir目录    a:删除掉nm-local-dir目录cd/opt/module/hadoop-3.1.3/datarm-rfnm-local-dir    b:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件cd/opt/module/

hadoop - LZO-就地在 HDFS 上压缩和索引文件?

通常我会执行以下操作来使用LZO:使用lzop命令将数据文件压缩到本地磁盘。放入HDFS。使用分布式lzo索引器生成.index文件。我想知道有没有办法同时对HDFS上的原始文件进行压缩和索引? 最佳答案 是的,你可以:在客户端和服务器上的core-site.xml中,将com.hadoop.compression.lzo.LzopCodec添加到以逗号分隔的编解码器列表中:io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoo

Hadoop双节点集群环境,NameNode的web UI显示活节点数为1,死节点数为0

我为Hadoop正确配置了两节点集群环境,Master也为datanode配置好了。所以目前我有两个数据节点,我可以毫无问题地启动Master中的所有服务。从数据节点也能够停止从主节点启动。但是当我使用urlhttp://:50070/dfshealth.jsp检查健康状况时事件节点数始终只显示一个而不是两个。主流程:~/hadoop-1.2.0$jps9112TaskTracker8805SecondaryNameNode9182Jps8579DataNode8887JobTracker8358NameNode从属进程:~/hadoop-1.2.0$jps18130DataNode1

hadoop - startall.sh 命令不会在 Hadoop 中启动 NameNode

sh启动除NameNode之外的所有服务,如JPS、SecondaryNameNode、TaskTracker和JobTracker。我可以启动NameNode的唯一方法是手动。此外,即使启动了NameNode,我也无法访问hnname:50070/。我是一个完全的新手,请帮助。 最佳答案 在删除临时文件夹(包含数据节点和名称节点)之前格式化名称节点hadoopnamenode-format 关于hadoop-startall.sh命令不会在Hadoop中启动NameNode,我们在St

hadoop - 在 RDD 方法中访问 HDFS 输入拆分路径

我的HDFS文件路径包含我想在Spark中访问的元数据,即类似以下内容的内容:sc.newAPIHadoopFile("hdfs://.../*"),...).map(rdd=>/*accesshdfspathhere*/)在Hadoop中,我可以通过FileSplit.getPath()访问整个拆分的路径。我可以在Spark中做任何类似的事情吗,或者我是否必须将路径字符串附加到扩展NewHadoopRDD中的每个RDD元素,我认为这可能相当昂贵? 最佳答案 在您提供给map()方法的闭包中,没有可用的元数据/执行上下文信息。你可能

bash - 如何查看整个根 hdfs 磁盘使用情况? (hadoop dfs -du/gets 子文件夹)

我们可能并不意外地认识到大数据对企业的吸引力,这是我们希望在我们的hadoop集群上监控的磁盘空间问题。我有一个cron作业在运行,它正在做我想做的事情,除了我想要其中一条输出行显示已使用的总体空间。换句话说,在bash中,“du/”命令的最后一行显示了整个磁盘上所有子文件夹的总使用情况。我想要这种行为。目前,当我运行“hadoopdfs-du/”时,我只得到子目录信息,而不是总计。获得它的最佳方式是什么?非常感谢所有SuperStackOverflow人员:)。 最佳答案 我只是没有正确理解文档!这是获得已用总空间的答案;$had

java - 将 HDFS 目录复制到本地节点

我正在处理单节点Hadoop2.4集群。我可以使用hadoopfs-copyToLocalmyDirectory复制目录及其所有内容。但是,我无法通过此java代码成功执行相同的操作:publicvoidmapObjectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Configurationconf=newConfiguration(true);FileSystemhdfs=FileSystem.get(conf);hdfs.copyToLocalFile(false,newPath("myDi

hadoop - 一个巨大的DataStructure可以直接交给MapReduce处理而不加载到HDFS上吗?

我们正在研究将一个巨大的N维数据结构(NetCDF文件)流式传输作为Mapper函数的输入而无需写入文本文件然后加载到HDFS上的想法。我们有一个应用程序已经拥有这个巨大的数据结构。所以我们想跳过所有涉及写入和读取文本文件的开销。我们需要对以下问题的一些输入..1)第三方应用程序能否将数据直接流式传输到MapReduce?2)如果上述情况可行,MapReduce是否会处理将此DataStructure拆分为输入block,或者我们是否需要明确地执行此操作?3)这是否可能在ApacheSPARK上实现,因为Spark从DRAM运行,而DataStructure也在DRAM上,因此我们不必

hadoop - Flume + HDFS-200 追加

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说HDFSsink支持附加,但我没能找到任何关于如何启用它的信息,每个示例都在滚动文件上。因此,如果可能的话,我将不胜感激有关如何使水槽附加到现有文件的任何信息)更新可以将所有滚动属性设置为0,这将使flume写入单个文件,但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:FlumeNGandHDFS,Dmitry说Flume不支持追加,但答案是一年前的,文档说的恰恰相反,所以我想也许flume得到了改进,或者我误解了什么,任何线索都将不

Hadoop namenode 为什么总是需要格式化?

我有一个单节点hadoop1.0.4,它工作正常(我可以运行map-reduce作业)。我遇到的问题是每当我重新启动并执行start-dfs.shnamenode时都没有启动,我必须执行“hadoopnamenode-format”然后start-dfs.sh和start-mapred.sh总是..这迫使我每次加载我的数据。您能否提示我可能需要检查的可能的解决方案或配置问题?谢谢, 最佳答案 看起来你没有覆盖hdfs配置dfs.name.dir,dfs.data.dir,默认情况下它指向/tmp目录将被清除当您的机器重新启动时。您必