草庐IT

HDFS常用命令汇总

全部标签

java - Hadoop 2.7 - 在 HDFS 中创建目录的简单 Java 代码

我正在尝试的是以编程方式使用Java在HDFS中创建一个目录。我收到此错误。线程“main”中的异常java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystem无法实例化引起:java.lang.NoClassDefFoundError:com/amazonaws/AmazonServiceException由以下原因引起:java.lang.ClassNotFoundException:com.amazonaws.Am

hadoop - HDFS 和 ZooKeeper 之间的区别?

在阅读ZooKeeper的文档时,在我看来,HDFS依赖于与ZooKeeper几乎相同的分发/复制机制(广义上讲)。我听到一些回声,但我仍然不能清楚和严格地分辨事物。我知道ZooKeeper是一个集群管理/同步工具,而HDFS是一个分布式文件管理系统,但是HDFS集群是否需要ZK? 最佳答案 是的,因素是具有zookeper仲裁的hadoop集群上的分布式处理和高可用性例如。HadoopNamenode故障转移过程。Hadoop高可用性是围绕ActiveNamenode和StandbyNamenode设计的,用于故障转移过程。在任何

hadoop - 权威指南 - 为什么 hdfs 中的 block 这么大

我从权威指南(HDFS概念-block)中看到了以下段落,但无法理解。MapReduce中的映射任务通常一次在一个block上运行,因此如果您的任务太少(少于集群中的节点),您的作业将比其他方式运行得更慢。我想知道与集群中的节点总数相比,当任务很少时,作业会如何变慢。假设集群中有1000个节点和3个任务(按任务我取block,因为每个block被发送到一个节点用于单个任务),获得结果所花费的时间总是少于说1000的场景节点和1000个任务对吗?权威指南中给出的段落无法说服我。 最佳答案 您从书中引用的段落基本上是说“尽可能多地利用节

scala - 使用 Spark 在 HDFS 上压缩 Har 文件

我有大量的hadoop存档.har格式的数据。因为har不包含任何压缩,所以我试图进一步将其压缩并存储在HDFS中。我唯一可以毫无错误地开始工作的是:harFile.coalesce(1,"true").saveAsTextFile("hdfs://namenode/archive/GzipOutput",classOf[org.apache.hadoop.io.compress.GzipCodec])//`coalesce`becauseGzipisn'tsplittable.但是,这并没有给我正确的结果。生成了一个Gzipped文件,但输出无效(单行说明rdd类型等)任何帮助将不胜

hadoop - Spark 数据集写入 HDFS 期间创建的空分区

尝试使用write方法将数据集/数据帧作为Parquet保存到hdfs。分区在HDFS中创建,但数据为空。我正在使用Spark版本-2.xdataset.write.mode("append").partitionBy("empNo").format("parquet").save("hdfspath")或dataset.write.mode(SaveMode.Overwrite).save("hdfspath")请推荐 最佳答案 我刚刚检查了它的数据框。根据您的查询将其分区在单个列上。在具有适当值的输出文件夹中创建了两个分区文件夹

macos - Hadoop2.7.3 : Cannot see DataNode/ResourceManager process after starting hdfs and yarn

我使用的是mac和java版本:$java-versionjavaversion"1.8.0_111"Java(TM)SERuntimeEnvironment(build1.8.0_111-b14)JavaHotSpot(TM)64-BitServerVM(build25.111-b14,mixedmode)点击此链接:https://dtflaneur.wordpress.com/2015/10/02/installing-hadoop-on-mac-osx-el-capitan/我先brewinstallhadoop,根据需要配置ssh连接和xml文件,start-dfs.shst

hadoop - Hadoop Namenode HA 和 HDFS federation 之间有什么区别

我对使用QJM和HDFS联合的HadoopNamenodeHA有点困惑。两者都使用多个名称节点并且都提供高可用性。我无法决定将哪种架构用于Namenode高可用性,因为除了QJM之外,两者看起来完全相同。如果这不是这里要讨论的问题类型,请原谅。 最佳答案 HDFSHighAvailability和HDFSFederation之间的主要区别在于,Federation中的名称节点彼此不相关。在HDFS联邦中,所有名称节点共享一个元数据池,其中每个名称节点都有自己的池,因此提供容错能力,即如果联合中的一个名称节点发生故障,它不会影响其他名

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序,它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常,但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

performance - 我应该把程序放在 HDFS 上吗?

我应该把程序放在HDFS上还是放在本地?我说的是一个二进制文件,它是:由spark-submit启动每天执行在RDD/Dataframes上执行sparkmapreduce函数是一个JAR体重20个月处理大量数据,此dfata位于HDFS上我认为这是个坏主意,因为在HDFS上分发可执行文件可能会减慢执行速度。我认为对于大于64Mo(Hadoopblock大小)的文件来说,情况会更糟。但是,我没有找到相关资源。另外,我不知道内存管理的后果(是否为每个保存JAR副本的节点复制了Java堆?) 最佳答案 是的,这正是YARN共享缓存背后的

Git概述:常用命令,工作流程,开发规范

相关链接Git简明指南Git的安装与配置-知乎常见Git命令-掘金Git完整命令手册常用Git图形化工具-CSDN四种常见的Git工作流-知乎GitFlow工作流程-简书一小时Git教程-bilibili一、简介Git是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。它是LinusTorvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。与常用的版本控制工具CVS,Subversion等不同,它采用了分布式版本库的方式,不必服务器端软件支持。Git工作流程workspace:表示工作区Index:表示暂存区Repository:表示本地仓库Remot