Namenode-HDFS

hadoop - Hadoop Namenode HA 和 HDFS federation 之间有什么区别

我对使用QJM和HDFS联合的HadoopNamenodeHA有点困惑。两者都使用多个名称节点并且都提供高可用性。我无法决定将哪种架构用于Namenode高可用性，因为除了QJM之外，两者看起来完全相同。如果这不是这里要讨论的问题类型，请原谅。最佳答案 HDFSHighAvailability和HDFSFederation之间的主要区别在于，Federation中的名称节点彼此不相关。在HDFS联邦中，所有名称节点共享一个元数据池，其中每个名称节点都有自己的池，因此提供容错能力，即如果联合中的一个名称节点发生故障，它不会影响其他名

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序，它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常，但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

Kerberos hadoop java apache apache-spark

Hadoop Kerberos : Datanode cannot connect to Namenode. 由 jsvc 启动 Datanode 以绑定(bind)特权端口(不使用 SASL)

我设置了一个运行良好的HAHadoop集群。但是添加Kerberos认证后datanode无法连接namenode。验证Namenode服务器成功启动并且没有记录错误。我用用户'hduser'启动所有服务$sudonetstat-tuplen...tcp0010.28.94.150:80190.0.0.0:*LISTEN1001202181518/javatcp0010.28.94.150:500700.0.0.0:*LISTEN1001202071447/javatcp0010.28.94.150:90000.0.0.0:*LISTEN1001202351447/java数据节点以r

Datanode Kerberos hadoop gt authentication hdfs

performance - 我应该把程序放在 HDFS 上吗？

我应该把程序放在HDFS上还是放在本地？我说的是一个二进制文件，它是:由spark-submit启动每天执行在RDD/Dataframes上执行sparkmapreduce函数是一个JAR体重20个月处理大量数据，此dfata位于HDFS上我认为这是个坏主意，因为在HDFS上分发可执行文件可能会减慢执行速度。我认为对于大于64Mo(Hadoopblock大小)的文件来说，情况会更糟。但是，我没有找到相关资源。另外，我不知道内存管理的后果(是否为每个保存JAR副本的节点复制了Java堆？) 最佳答案是的，这正是YARN共享缓存背后的

performance HDFS section li noreferrer hadoop apache-spark

hadoop - Spark - 如何在 HDFS 中重组目录

我有一个结构如下的目录:temp/Tweets/userId123/Tweets.csvtemp/Tweets/userId456/Tweets.csvtemp/Tweets/userId789/Tweets.csvtemp/Mentions/userId123/Mentions.csvtemp/Mentions/userId456/Mentions.csvtemp/Mentions/userId789/Mentions.csv...数据由数据实体的类型构成，我想由用户对其进行重组，如下所示:final/userId123/Tweets.csvfinal/userId123/Menti

何在 hadoop hdfsPath Mentions code apache-spark hdfs

java - HDFS 授予对文件及其所有目录的权限

我在HDFS中有以下数据(2个文件):/a/b/c/f1.txt/f2.txt我想将f1.txt和f2.txt的权限更改为644:例如hadoopfs-chmod644/a/b/c/*.txt但是，为了真正授予对这些文件的访问权限，我需要将/b和/c的权限更改为755:+x到包含文件的目录。注意:我不拥有/a并且它已经是世界可读的。是否有hadoopfs命令让我这样做？Java/Scala代码怎么样？最佳答案您可以使用acls为此:授予用户读写和执行权限hdfsdfs-setfacl-m-Ruser:UserName:rwx/a

及其 java code setfacl hadoop scala hdfs hadoop2

ubuntu - 如何将 -ls 输出保存到 hdfs 目录

hadoopfs-ls/drwxrwxrwx-hadoopprofessor02018-03-1206:51/dir1drwxr-xr-x-hadoopsupergroup02018-04-0409:02/dir2drwxrwxrwx-hadoophadoop02018-04-0405:55/dir3drwx-------hadoopsupergroup02018-03-1207:01/tmpdrwxrwxrwx-hadoophadoop02018-03-1803:49/userdrwxr-xr-x-hadoopsupergroup02018-04-0408:36/photo我想把ls

ubuntu hdfs hadoop section code command-line

hadoop - oozie 工作流应该只在有可用的输入 hdfs 文件时运行

我设置了协调器和值和超时。协调器工作正常，因为它会检查输入文件是否在hdfs位置可用，只有在它运行工作流时才会超时。我在工作流中需要相同的行为，就像如果我只运行一个没有协调器的工作流，那么工作流的行为应该与上述协调器的行为相同。我试过mapred.input.dir但工作流程成功运行。有没有其他方法可以达到同样的效果。工作流是一个简单的helloworld作业，而不是map-reduce作业。最佳答案 Wrokflow用于按需运行作业。您正在寻找的功能在Workflow中不可用。该功能由协调器提供。

hadoop oozie 协调器 section code workflow oozie-coordinator

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS？

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

流式 kafka connect java hdfs hadoop apache-kafka apache-kafka-connect confluent-platform

hadoop - HDFS 名称节点高可用性

我使用ambari启用了Namenode高可用性。我想在开始编码之前使用dfs.nameservices(名称服务ID)验证连接。是否有任何命令行或工具可以验证它？最佳答案您可以使用普通的HDFSCLI。hdfsdfs-lshdfs://nameservice/user这也应该和一样工作hdfsdfs-lshdfs:///user或者提供你的事件名称节点hdfsdfs-lshdfs://namenode-1:port/user如果你提供standbynamenode，它会说operationREADnotsupportedins

hadoop HDFS section code high-availability

8 9 101112 13 14