草庐IT

hdfs_clusters

全部标签

macos - Hadoop2.7.3 : Cannot see DataNode/ResourceManager process after starting hdfs and yarn

我使用的是mac和java版本:$java-versionjavaversion"1.8.0_111"Java(TM)SERuntimeEnvironment(build1.8.0_111-b14)JavaHotSpot(TM)64-BitServerVM(build25.111-b14,mixedmode)点击此链接:https://dtflaneur.wordpress.com/2015/10/02/installing-hadoop-on-mac-osx-el-capitan/我先brewinstallhadoop,根据需要配置ssh连接和xml文件,start-dfs.shst

hadoop - 哪个最好 : Apache Ambari cluster on Physical system with 5 Machine or install on virtual machine with diffrent 5 VM?

您好,我正在做我的一个项目,我创建了5台机器的虚拟机,它在开发环境中运行良好,但我对虚拟机集群好还是需要使用物理系统集群有一些困惑。 最佳答案 Hadoop是为物理系统开发的,但它会在虚拟环境中发挥不同程度的成功,这取决于具体的环境。这实际上是hadoop邮件列表上的一个非常常见的问题,Hadoop开发人员在HadoopWiki文章中专门解决了这个问题:VirtualHadoop.本文介绍了每种方法的优点/缺点,并讨论了云部署。您应该阅读本文,看看您属于哪种部署方案,并评估您的VM设置中可能存在的问题。

hadoop - Hadoop Namenode HA 和 HDFS federation 之间有什么区别

我对使用QJM和HDFS联合的HadoopNamenodeHA有点困惑。两者都使用多个名称节点并且都提供高可用性。我无法决定将哪种架构用于Namenode高可用性,因为除了QJM之外,两者看起来完全相同。如果这不是这里要讨论的问题类型,请原谅。 最佳答案 HDFSHighAvailability和HDFSFederation之间的主要区别在于,Federation中的名称节点彼此不相关。在HDFS联邦中,所有名称节点共享一个元数据池,其中每个名称节点都有自己的池,因此提供容错能力,即如果联合中的一个名称节点发生故障,它不会影响其他名

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序,它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常,但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

performance - 我应该把程序放在 HDFS 上吗?

我应该把程序放在HDFS上还是放在本地?我说的是一个二进制文件,它是:由spark-submit启动每天执行在RDD/Dataframes上执行sparkmapreduce函数是一个JAR体重20个月处理大量数据,此dfata位于HDFS上我认为这是个坏主意,因为在HDFS上分发可执行文件可能会减慢执行速度。我认为对于大于64Mo(Hadoopblock大小)的文件来说,情况会更糟。但是,我没有找到相关资源。另外,我不知道内存管理的后果(是否为每个保存JAR副本的节点复制了Java堆?) 最佳答案 是的,这正是YARN共享缓存背后的

hadoop - Spark - 如何在 HDFS 中重组目录

我有一个结构如下的目录:temp/Tweets/userId123/Tweets.csvtemp/Tweets/userId456/Tweets.csvtemp/Tweets/userId789/Tweets.csvtemp/Mentions/userId123/Mentions.csvtemp/Mentions/userId456/Mentions.csvtemp/Mentions/userId789/Mentions.csv...数据由数据实体的类型构成,我想由用户对其进行重组,如下所示:final/userId123/Tweets.csvfinal/userId123/Menti

java - HDFS 授予对文件及其所有目录的权限

我在HDFS中有以下数据(2个文件):/a/b/c/f1.txt/f2.txt我想将f1.txt和f2.txt的权限更改为644:例如hadoopfs-chmod644/a/b/c/*.txt但是,为了真正授予对这些文件的访问权限,我需要将/b和/c的权限更改为755:+x到包含文件的目录。注意:我不拥有/a并且它已经是世界可读的。是否有hadoopfs命令让我这样做?Java/Scala代码怎么样? 最佳答案 您可以使用acls为此:授予用户读写和执行权限hdfsdfs-setfacl-m-Ruser:UserName:rwx/a

ubuntu - 如何将 -ls 输出保存到 hdfs 目录

hadoopfs-ls/drwxrwxrwx-hadoopprofessor02018-03-1206:51/dir1drwxr-xr-x-hadoopsupergroup02018-04-0409:02/dir2drwxrwxrwx-hadoophadoop02018-04-0405:55/dir3drwx-------hadoopsupergroup02018-03-1207:01/tmpdrwxrwxrwx-hadoophadoop02018-03-1803:49/userdrwxr-xr-x-hadoopsupergroup02018-04-0408:36/photo我想把ls

hadoop - oozie 工作流应该只在有可用的输入 hdfs 文件时运行

我设置了协调器和值和超时。协调器工作正常,因为它会检查输入文件是否在hdfs位置可用,只有在它运行工作流时才会超时。我在工作流中需要相同的行为,就像如果我只运行一个没有协调器的工作流,那么工作流的行为应该与上述协调器的行为相同。我试过mapred.input.dir但工作流程成功运行。有没有其他方法可以达到同样的效果。工作流是一个简单的helloworld作业,而不是map-reduce作业。 最佳答案 Wrokflow用于按需运行作业。您正在寻找的功能在Workflow中不可用。该功能由协调器提供。

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常,但我在问一些问题,也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1,part-00001的可用性是slave3和slave4。