HDFS_NAMENODE

Hadoop集群启动后命令JPS没有DataNode或者NameNode

问题原因1）需要检查core-site.xml和hdfs-site.xml这俩文件，配置没错的话再看第二条2）可能已经执行格式化NameNode后，但是格式之前并没有停止之前的进程并删除相关数据。解决方案（记得你的集群删除前需要停止，每个副本都要进行一次下面操作）1）删除dfs文件夹里的文件和删除nm-local-dir目录 a:删除掉nm-local-dir目录cd/opt/module/hadoop-3.1.3/datarm-rfnm-local-dir b:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件cd/opt/module/

hadoop - LZO-就地在 HDFS 上压缩和索引文件？

通常我会执行以下操作来使用LZO:使用lzop命令将数据文件压缩到本地磁盘。放入HDFS。使用分布式lzo索引器生成.index文件。我想知道有没有办法同时对HDFS上的原始文件进行压缩和索引？最佳答案是的，你可以:在客户端和服务器上的core-site.xml中，将com.hadoop.compression.lzo.LzopCodec添加到以逗号分隔的编解码器列表中:io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoo

就地 hadoop gt lt property lzo

Hadoop双节点集群环境，NameNode的web UI显示活节点数为1，死节点数为0

我为Hadoop正确配置了两节点集群环境，Master也为datanode配置好了。所以目前我有两个数据节点，我可以毫无问题地启动Master中的所有服务。从数据节点也能够停止从主节点启动。但是当我使用urlhttp://:50070/dfshealth.jsp检查健康状况时事件节点数始终只显示一个而不是两个。主流程:~/hadoop-1.2.0$jps9112TaskTracker8805SecondaryNameNode9182Jps8579DataNode8887JobTracker8358NameNode从属进程:~/hadoop-1.2.0$jps18130DataNode1

点数死节 section NameNode DataNode hadoop bigdata

hadoop - startall.sh 命令不会在 Hadoop 中启动 NameNode

sh启动除NameNode之外的所有服务，如JPS、SecondaryNameNode、TaskTracker和JobTracker。我可以启动NameNode的唯一方法是手动。此外，即使启动了NameNode，我也无法访问hnname:50070/。我是一个完全的新手，请帮助。最佳答案在删除临时文件夹(包含数据节点和名称节点)之前格式化名称节点hadoopnamenode-format 关于hadoop-startall.sh命令不会在Hadoop中启动NameNode，我们在St

NameNode startall section stackoverflow hadoop

hadoop - 在 RDD 方法中访问 HDFS 输入拆分路径

我的HDFS文件路径包含我想在Spark中访问的元数据，即类似以下内容的内容:sc.newAPIHadoopFile("hdfs://.../*"),...).map(rdd=>/*accesshdfspathhere*/)在Hadoop中，我可以通过FileSplit.getPath()访问整个拆分的路径。我可以在Spark中做任何类似的事情吗，或者我是否必须将路径字符串附加到扩展NewHadoopRDD中的每个RDD元素，我认为这可能相当昂贵？最佳答案在您提供给map()方法的闭包中，没有可用的元数据/执行上下文信息。你可能

hadoop HDFS section code the apache-spark

bash - 如何查看整个根 hdfs 磁盘使用情况？ (hadoop dfs -du/gets 子文件夹)

我们可能并不意外地认识到大数据对企业的吸引力，这是我们希望在我们的hadoop集群上监控的磁盘空间问题。我有一个cron作业在运行，它正在做我想做的事情，除了我想要其中一条输出行显示已使用的总体空间。换句话说，在bash中，“du/”命令的最后一行显示了整个磁盘上所有子文件夹的总使用情况。我想要这种行为。目前，当我运行“hadoopdfs-du/”时，我只得到子目录信息，而不是总计。获得它的最佳方式是什么？非常感谢所有SuperStackOverflow人员:)。最佳答案我只是没有正确理解文档!这是获得已用总空间的答案；$had

hadoop bash section array hdfs

java - 将 HDFS 目录复制到本地节点

我正在处理单节点Hadoop2.4集群。我可以使用hadoopfs-copyToLocalmyDirectory复制目录及其所有内容。但是，我无法通过此java代码成功执行相同的操作:publicvoidmapObjectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Configurationconf=newConfiguration(true);FileSystemhdfs=FileSystem.get(conf);hdfs.copyToLocalFile(false,newPath("myDi

java HDFS section code myDirectory hadoop

hadoop - 一个巨大的DataStructure可以直接交给MapReduce处理而不加载到HDFS上吗？

我们正在研究将一个巨大的N维数据结构(NetCDF文件)流式传输作为Mapper函数的输入而无需写入文本文件然后加载到HDFS上的想法。我们有一个应用程序已经拥有这个巨大的数据结构。所以我们想跳过所有涉及写入和读取文本文件的开销。我们需要对以下问题的一些输入..1)第三方应用程序能否将数据直接流式传输到MapReduce？2)如果上述情况可行，MapReduce是否会处理将此DataStructure拆分为输入block，或者我们是否需要明确地执行此操作？3)这是否可能在ApacheSPARK上实现，因为Spark从DRAM运行，而DataStructure也在DRAM上，因此我们不必

DataStructure MapReduce section noreferrer noopener hadoop hdfs apache-spark hadoop-streaming

hadoop - Flume + HDFS-200 追加

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说HDFSsink支持附加，但我没能找到任何关于如何启用它的信息，每个示例都在滚动文件上。因此，如果可能的话，我将不胜感激有关如何使水槽附加到现有文件的任何信息)更新可以将所有滚动属性设置为0，这将使flume写入单个文件，但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:FlumeNGandHDFS，Dmitry说Flume不支持追加，但答案是一年前的，文档说的恰恰相反，所以我想也许flume得到了改进，或者我误解了什么，任何线索都将不

hadoop Flume section strong hdfs flume-ng

Hadoop namenode 为什么总是需要格式化？

我有一个单节点hadoop1.0.4，它工作正常(我可以运行map-reduce作业)。我遇到的问题是每当我重新启动并执行start-dfs.shnamenode时都没有启动，我必须执行“hadoopnamenode-format”然后start-dfs.sh和start-mapred.sh总是..这迫使我每次加载我的数据。您能否提示我可能需要检查的可能的解决方案或配置问题？谢谢，最佳答案看起来你没有覆盖hdfs配置dfs.name.dir,dfs.data.dir,默认情况下它指向/tmp目录将被清除当您的机器重新启动时。您必

namenode Hadoop section gt lt mapreduce

23 24 252627 28 29