hdfs-audit

hadoop - 如何从每个节点访问 hadoop-yarn 应用程序上的 hdfs？

如何在“HADOOP(2.5.2)YARN应用”中访问HDFS并从各个节点读写文件？我通常知道YARN应用程序运行在HDFS上。我没有可以回答这些基本问题的网站或文档，所以我想问一下。最佳答案 YARN应用程序在YARN中运行(或至少请求内存空间)，而不是HDFS。HDFS只是一个用于文件存储的文件系统。您使用多种工具进行读写，例如HadoopCLI、MapReduce、ApacheSpark等。例如CLI是hadoopfs-put/local-filehdfs://remote/file这些应用程序是否由YARN管理与HDFS文

scala - HDFS : java. io.FileNotFoundException : File does not exist: name. _COPYING

我正在使用Scala处理SparkStreaming。我需要使用此行从HDFS目录动态读取.csv文件:vallines=ssc.textFileStream("/user/root/")我使用以下命令行将文件放入HDFS:hdfsdfs-put./head40k.csv它适用于相对较小的文件。当我尝试使用更大的一个时，出现此错误:org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException):Filedoesnotexist:/user/root/head800k.csv._COPYING我能理解为什么，但我不

FileNotFoundException COPYING apache 34 import scala hadoop apache-spark hdfs spark-streaming

java - Hadoop 2.7 - 在 HDFS 中创建目录的简单 Java 代码

我正在尝试的是以编程方式使用Java在HDFS中创建一个目录。我收到此错误。线程“main”中的异常java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystem无法实例化引起:java.lang.NoClassDefFoundError:com/amazonaws/AmazonServiceException由以下原因引起:java.lang.ClassNotFoundException:com.amazonaws.Am

Hadoop java import apache amazon-s3 mapreduce

hadoop - HDFS 和 ZooKeeper 之间的区别？

在阅读ZooKeeper的文档时，在我看来，HDFS依赖于与ZooKeeper几乎相同的分发/复制机制(广义上讲)。我听到一些回声，但我仍然不能清楚和严格地分辨事物。我知道ZooKeeper是一个集群管理/同步工具，而HDFS是一个分布式文件管理系统，但是HDFS集群是否需要ZK？最佳答案是的，因素是具有zookeper仲裁的hadoop集群上的分布式处理和高可用性例如。HadoopNamenode故障转移过程。Hadoop高可用性是围绕ActiveNamenode和StandbyNamenode设计的，用于故障转移过程。在任何

ZooKeeper hadoop section strong hdfs bigdata

hadoop - 权威指南 - 为什么 hdfs 中的 block 这么大

我从权威指南(HDFS概念-block)中看到了以下段落，但无法理解。MapReduce中的映射任务通常一次在一个block上运行，因此如果您的任务太少(少于集群中的节点)，您的作业将比其他方式运行得更慢。我想知道与集群中的节点总数相比，当任务很少时，作业会如何变慢。假设集群中有1000个节点和3个任务(按任务我取block，因为每个block被发送到一个节点用于单个任务)，获得结果所花费的时间总是少于说1000的场景节点和1000个任务对吗？权威指南中给出的段落无法说服我。最佳答案您从书中引用的段落基本上是说“尽可能多地利用节

权威指南 section 1000 block hadoop mapreduce

scala - 使用 Spark 在 HDFS 上压缩 Har 文件

我有大量的hadoop存档.har格式的数据。因为har不包含任何压缩，所以我试图进一步将其压缩并存储在HDFS中。我唯一可以毫无错误地开始工作的是:harFile.coalesce(1,"true").saveAsTextFile("hdfs://namenode/archive/GzipOutput",classOf[org.apache.hadoop.io.compress.GzipCodec])//`coalesce`becauseGzipisn'tsplittable.但是，这并没有给我正确的结果。生成了一个Gzipped文件，但输出无效(单行说明rdd类型等)任何帮助将不胜

scala Spark 34 hadoop apache apache-spark compression hdfs

hadoop - Spark 数据集写入 HDFS 期间创建的空分区

尝试使用write方法将数据集/数据帧作为Parquet保存到hdfs。分区在HDFS中创建，但数据为空。我正在使用Spark版本-2.xdataset.write.mode("append").partitionBy("empNo").format("parquet").save("hdfspath")或dataset.write.mode(SaveMode.Overwrite).save("hdfspath")请推荐最佳答案我刚刚检查了它的数据框。根据您的查询将其分区在单个列上。在具有适当值的输出文件夹中创建了两个分区文件夹

空分 hadoop section code 34 apache-spark hdfs

macos - Hadoop2.7.3 : Cannot see DataNode/ResourceManager process after starting hdfs and yarn

我使用的是mac和java版本:$java-versionjavaversion"1.8.0_111"Java(TM)SERuntimeEnvironment(build1.8.0_111-b14)JavaHotSpot(TM)64-BitServerVM(build25.111-b14,mixedmode)点击此链接:https://dtflaneur.wordpress.com/2015/10/02/installing-hadoop-on-mac-osx-el-capitan/我先brewinstallhadoop，根据需要配置ssh连接和xml文件，start-dfs.shst

ResourceManager DataNode hadoop localhost code macos process hdfs hadoop-yarn

hadoop - Hadoop Namenode HA 和 HDFS federation 之间有什么区别

我对使用QJM和HDFS联合的HadoopNamenodeHA有点困惑。两者都使用多个名称节点并且都提供高可用性。我无法决定将哪种架构用于Namenode高可用性，因为除了QJM之外，两者看起来完全相同。如果这不是这里要讨论的问题类型，请原谅。最佳答案 HDFSHighAvailability和HDFSFederation之间的主要区别在于，Federation中的名称节点彼此不相关。在HDFS联邦中，所有名称节点共享一个元数据池，其中每个名称节点都有自己的池，因此提供容错能力，即如果联合中的一个名称节点发生故障，它不会影响其他名

federation Namenode section HDFS hadoop high-availability quorum

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序，它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常，但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

Kerberos hadoop java apache apache-spark

7 8 91011 12 13