hdfs_clusters

Hadoop Mapreduce 错误输入路径不存在 : hdfs://localhost:54310/user/hduser/input"

我已经在UbuntuLinux15.04中安装了hadoop2.6，并且运行良好。但是，当我运行示例测试mapreduce程序时，出现以下错误:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Inputpathdoesnotexist:hdfs://localhost:54310/user/hduser/input.请帮助我。以下是错误的完整详细信息。hduser@krishadoop:/usr/local/hadoop/sbin$hadoopjar/usr/local/hadoop/share/hadoop/ma

apache - HADOOP/YARN - ResourceManager 和 hdfs NameNode 是否总是安装在同一台主机上？

“资源管理器”和“hdfsnamenode”是否总是安装在同一台主机上？1)当我想向getnewapplicationid发送http请求(YARNRESTAPI)时我正在使用这个网络uri:http:///ws/v1/cluster/apps/new-application此端口是Resource-ManagerWebUI的http端口，默认值为8088，如img1所示:sourceforimg12)当我想为hdfs命令发送一个http请求(WebHDFSRESTAPI)时，例如getfilestatus我正在使用这个网络uri:http://:/webhdfs/v1/?op=GET

机上 ResourceManager http noreferrer section apache rest hadoop hadoop-yarn webhdfs

hadoop - 如何更新 HDFS 中的文件

我知道HDFS是一次写入多次读取。假设如果我想更新HDFS中的文件，有什么办法可以做到吗？提前谢谢你! 最佳答案选项1:如果你只是想追加到一个现有的文件echo""|hdfsdfs-appendToFile-/user/hduser/myfile.txt或者hdfsdfs-appendToFile-/user/hduser/myfile.txt然后在终端上输入文本。完成输入后，按“Ctrl+D”选项2:从HDFS获取原始文件到本地文件系统，修改后放回HDFS。hdfsdfs-get/user/hduser/myfile.txtvi

hadoop HDFS section code myfile hadoop2

hadoop - HDFS 文件观察器

我可以在HDFS上安装filewatcher吗？场景:文件不断登陆HDFS。一旦文件数量达到阈值(可以是文件数量或文件大小)，我想启动一个Spark作业。是否可以在HDFS上实现文件观察器来实现这一点。如果是，那么任何人都可以建议这样做的方法吗？有哪些不同的选择？Zookeeper或Oozie能做到吗？任何帮助将不胜感激。谢谢。最佳答案 Hadoop2.6引入了DFSInotifyEventInputStream，您可以为此使用它。您可以从HdfsAdmin获取它的实例，然后只需调用.take()或.poll()即可获取所有事件。

hadoop HDFS code section strong apache-spark file-watcher

bash - 获取 HDFS 中最后更新的文件

我想要我的一个HDFS目录中的最新更新文件。代码基本上应该遍历目录和子目录，并获取带有文件名的最新文件路径。我能够在本地文件系统中获取最新文件，但不确定如何为HDFS文件系统执行此操作。查找/tmp/sdsa-typef-print0|xargs-0stat--format'%Y:%y%n'|排序-nr|剪切-d:-f2-|头以上代码适用于本地文件系统。我可以从HDFS获取日期、时间和文件名，但是如何使用这3个参数获取最新文件？这是我试过的代码:hadoopfs-ls-R/tmp/apps|awk-F""'{print$6""$7""$8}'我们将不胜感激。提前致谢。

bash HDFS section code shell unix hadoop

scala - 我可以从 Spark 程序而不是 RDD 写入纯文本 HDFS(或本地)文件吗？

我有一个Spark程序(在Scala中)和一个SparkContext。我正在使用RDD的saveAsTextFile编写一些文件。在我的本地机器上，我可以使用本地文件路径，它与本地文件系统一起工作。在我的集群上，它适用于HDFS。我还想写入其他任意文件作为处理结果。我在我的本地机器上将它们作为常规文件写入，但希望它们进入集群上的HDFS。SparkContext似乎有一些与文件相关的方法，但它们似乎都是输入而不是输出。我该怎么做？最佳答案感谢marios和kostya，但是从Spark将文本文件写入HDFS只需几个步骤。//H

scala Spark code section SparkContext hadoop apache-spark

hadoop - hdfs Datanode 拒绝与 namenode 通信，因为无法解析主机名

我在LXC容器内的一台机器上有3个DataNode和1个NameNode。与NameNode位于同一节点上的DataNode工作正常，但我没有得到其他2个:InitializationfailedforBlockpoolBP-232943349-10.0.3.112-1417116665984(DatanodeUuidnull)servicetohadoop12.domain.local/10.0.3.112:8022Datanodedeniedcommunicationwithnamenodebecausehostnamecannotberesolved(ip=10.0.3.233,

Datanode namenode gt lt property hadoop hdfs

java - 在映射器中逐行从 HDFS 读取文本文件

Mappers的以下代码是否正确，从HDFS读取文本文件？如果是:如果不同节点中的两个映射器几乎同时尝试打开文件，会发生什么情况？不需要关闭InputStreamReader吗？如果是这样，如何在不关闭文件系统的情况下做到这一点？我的代码是:Pathpt=newPath("hdfs://pathTofile");FileSystemfs=FileSystem.get(context.getConfiguration());BufferedReaderbr=newBufferedReader(newInputStreamReader(fs.open(pt)));Stringline;li

射器本文 section line java hadoop hdfs

hadoop - 小文件和 HDFS block

Hadoop分布式文件系统中一个block是存储多个小文件，还是一个block只存储1个文件？最佳答案多个文件不存储在一个block中。顺便说一句，单个文件可以存储在多个block中。文件和blockID之间的映射保存在NameNode中。根据Hadoop:TheDefinitiveGuideUnlikeafilesystemforasingledisk,afileinHDFSthatissmallerthanasingleblockdoesnotoccupyafullblock’sworthofunderlyingstorag

hadoop block section noreferrer hdfs

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在，当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的，第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe

时出 amazon-s code gt lt amazon-s3 amazon-ec2 hadoop cloud hdfs

232 233 234235236 237 238