草庐IT

hdfs_clusters

全部标签

Hadoop Mapreduce 错误输入路径不存在 : hdfs://localhost:54310/user/hduser/input"

我已经在UbuntuLinux15.04中安装了hadoop2.6,并且运行良好。但是,当我运行示例测试mapreduce程序时,出现以下错误:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Inputpathdoesnotexist:hdfs://localhost:54310/user/hduser/input.请帮助我。以下是错误的完整详细信息。hduser@krishadoop:/usr/local/hadoop/sbin$hadoopjar/usr/local/hadoop/share/hadoop/ma

apache - HADOOP/YARN - ResourceManager 和 hdfs NameNode 是否总是安装在同一台主机上?

“资源管理器”和“hdfsnamenode”是否总是安装在同一台主机上?1)当我想向getnewapplicationid发送http请求(YARNRESTAPI)时我正在使用这个网络uri:http:///ws/v1/cluster/apps/new-application此端口是Resource-ManagerWebUI的http端口,默认值为8088,如img1所示:sourceforimg12)当我想为hdfs命令发送一个http请求(WebHDFSRESTAPI)时,例如getfilestatus我正在使用这个网络uri:http://:/webhdfs/v1/?op=GET

hadoop - 如何更新 HDFS 中的文件

我知道HDFS是一次写入多次读取。假设如果我想更新HDFS中的文件,有什么办法可以做到吗?提前谢谢你! 最佳答案 选项1:如果你只是想追加到一个现有的文件echo""|hdfsdfs-appendToFile-/user/hduser/myfile.txt或者hdfsdfs-appendToFile-/user/hduser/myfile.txt然后在终端上输入文本。完成输入后,按“Ctrl+D”选项2:从HDFS获取原始文件到本地文件系统,修改后放回HDFS。hdfsdfs-get/user/hduser/myfile.txtvi

hadoop - HDFS 文件观察器

我可以在HDFS上安装filewatcher吗?场景:文件不断登陆HDFS。一旦文件数量达到阈值(可以是文件数量或文件大小),我想启动一个Spark作业。是否可以在HDFS上实现文件观察器来实现这一点。如果是,那么任何人都可以建议这样做的方法吗?有哪些不同的选择?Zookeeper或Oozie能做到吗?任何帮助将不胜感激。谢谢。 最佳答案 Hadoop2.6引入了DFSInotifyEventInputStream,您可以为此使用它。您可以从HdfsAdmin获取它的实例,然后只需调用.take()或.poll()即可获取所有事件。

bash - 获取 HDFS 中最后更新的文件

我想要我的一个HDFS目录中的最新更新文件。代码基本上应该遍历目录和子目录,并获取带有文件名的最新文件路径。我能够在本地文件系统中获取最新文件,但不确定如何为HDFS文件系统执行此操作。查找/tmp/sdsa-typef-print0|xargs-0stat--format'%Y:%y%n'|排序-nr|剪切-d:-f2-|头以上代码适用于本地文件系统。我可以从HDFS获取日期、时间和文件名,但是如何使用这3个参数获取最新文件?这是我试过的代码:hadoopfs-ls-R/tmp/apps|awk-F""'{print$6""$7""$8}'我们将不胜感激。提前致谢。

scala - 我可以从 Spark 程序而不是 RDD 写入纯文本 HDFS(或本地)文件吗?

我有一个Spark程序(在Scala中)和一个SparkContext。我正在使用RDD的saveAsTextFile编写一些文件。在我的本地机器上,我可以使用本地文件路径,它与本地文件系统一起工作。在我的集群上,它适用于HDFS。我还想写入其他任意文件作为处理结果。我在我的本地机器上将它们作为常规文件写入,但希望它们进入集群上的HDFS。SparkContext似乎有一些与文件相关的方法,但它们似乎都是输入而不是输出。我该怎么做? 最佳答案 感谢marios和kostya,但是从Spark将文本文件写入HDFS只需几个步骤。//H

hadoop - hdfs Datanode 拒绝与 namenode 通信,因为无法解析主机名

我在LXC容器内的一台机器上有3个DataNode和1个NameNode。与NameNode位于同一节点上的DataNode工作正常,但我没有得到其他2个:InitializationfailedforBlockpoolBP-232943349-10.0.3.112-1417116665984(DatanodeUuidnull)servicetohadoop12.domain.local/10.0.3.112:8022Datanodedeniedcommunicationwithnamenodebecausehostnamecannotberesolved(ip=10.0.3.233,

java - 在映射器中逐行从 HDFS 读取文本文件

Mappers的以下代码是否正确,从HDFS读取文本文件?如果是:如果不同节点中的两个映射器几乎同时尝试打开文件,会发生什么情况?不需要关闭InputStreamReader吗?如果是这样,如何在不关闭文件系统的情况下做到这一点?我的代码是:Pathpt=newPath("hdfs://pathTofile");FileSystemfs=FileSystem.get(context.getConfiguration());BufferedReaderbr=newBufferedReader(newInputStreamReader(fs.open(pt)));Stringline;li

hadoop - 小文件和 HDFS block

Hadoop分布式文件系统中一个block是存储多个小文件,还是一个block只存储1个文件? 最佳答案 多个文件不存储在一个block中。顺便说一句,单个文件可以存储在多个block中。文件和blockID之间的映射保存在NameNode中。根据Hadoop:TheDefinitiveGuideUnlikeafilesystemforasingledisk,afileinHDFSthatissmallerthanasingleblockdoesnotoccupyafullblock’sworthofunderlyingstorag

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在,当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的,第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe