hdfs-audit

performance - 我应该把程序放在 HDFS 上吗？

我应该把程序放在HDFS上还是放在本地？我说的是一个二进制文件，它是:由spark-submit启动每天执行在RDD/Dataframes上执行sparkmapreduce函数是一个JAR体重20个月处理大量数据，此dfata位于HDFS上我认为这是个坏主意，因为在HDFS上分发可执行文件可能会减慢执行速度。我认为对于大于64Mo(Hadoopblock大小)的文件来说，情况会更糟。但是，我没有找到相关资源。另外，我不知道内存管理的后果(是否为每个保存JAR副本的节点复制了Java堆？) 最佳答案是的，这正是YARN共享缓存背后的

performance HDFS section li noreferrer hadoop apache-spark

hadoop - Spark - 如何在 HDFS 中重组目录

我有一个结构如下的目录:temp/Tweets/userId123/Tweets.csvtemp/Tweets/userId456/Tweets.csvtemp/Tweets/userId789/Tweets.csvtemp/Mentions/userId123/Mentions.csvtemp/Mentions/userId456/Mentions.csvtemp/Mentions/userId789/Mentions.csv...数据由数据实体的类型构成，我想由用户对其进行重组，如下所示:final/userId123/Tweets.csvfinal/userId123/Menti

何在 hadoop hdfsPath Mentions code apache-spark hdfs

java - HDFS 授予对文件及其所有目录的权限

我在HDFS中有以下数据(2个文件):/a/b/c/f1.txt/f2.txt我想将f1.txt和f2.txt的权限更改为644:例如hadoopfs-chmod644/a/b/c/*.txt但是，为了真正授予对这些文件的访问权限，我需要将/b和/c的权限更改为755:+x到包含文件的目录。注意:我不拥有/a并且它已经是世界可读的。是否有hadoopfs命令让我这样做？Java/Scala代码怎么样？最佳答案您可以使用acls为此:授予用户读写和执行权限hdfsdfs-setfacl-m-Ruser:UserName:rwx/a

及其 java code setfacl hadoop scala hdfs hadoop2

ubuntu - 如何将 -ls 输出保存到 hdfs 目录

hadoopfs-ls/drwxrwxrwx-hadoopprofessor02018-03-1206:51/dir1drwxr-xr-x-hadoopsupergroup02018-04-0409:02/dir2drwxrwxrwx-hadoophadoop02018-04-0405:55/dir3drwx-------hadoopsupergroup02018-03-1207:01/tmpdrwxrwxrwx-hadoophadoop02018-03-1803:49/userdrwxr-xr-x-hadoopsupergroup02018-04-0408:36/photo我想把ls

ubuntu hdfs hadoop section code command-line

hadoop - oozie 工作流应该只在有可用的输入 hdfs 文件时运行

我设置了协调器和值和超时。协调器工作正常，因为它会检查输入文件是否在hdfs位置可用，只有在它运行工作流时才会超时。我在工作流中需要相同的行为，就像如果我只运行一个没有协调器的工作流，那么工作流的行为应该与上述协调器的行为相同。我试过mapred.input.dir但工作流程成功运行。有没有其他方法可以达到同样的效果。工作流是一个简单的helloworld作业，而不是map-reduce作业。最佳答案 Wrokflow用于按需运行作业。您正在寻找的功能在Workflow中不可用。该功能由协调器提供。

hadoop oozie 协调器 section code workflow oozie-coordinator

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS？

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

流式 kafka connect java hdfs hadoop apache-kafka apache-kafka-connect confluent-platform

hadoop - HDFS 名称节点高可用性

我使用ambari启用了Namenode高可用性。我想在开始编码之前使用dfs.nameservices(名称服务ID)验证连接。是否有任何命令行或工具可以验证它？最佳答案您可以使用普通的HDFSCLI。hdfsdfs-lshdfs://nameservice/user这也应该和一样工作hdfsdfs-lshdfs:///user或者提供你的事件名称节点hdfsdfs-lshdfs://namenode-1:port/user如果你提供standbynamenode，它会说operationREADnotsupportedins

hadoop HDFS section code high-availability

hadoop - 当文件不在目录中时将文件从 HDFS 加载到配置单元的替代方法

ROWFORMATDELIMITEDFIELDSTERMINATEDBY'${database_delimiter}'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${database_location}/Person';这里的person应该是一个目录。而person是part-m文件而不是目录。最佳答案如果我对问题的理解正确，Hive确实无法在文件上创建表。它需要是一个目录位置。因此，无论您有什么进程，都需要制作上述目录。例如，无论您有什么映射器进程，您都需要指定一个输出目录，如

中时配置单 database_location location section hadoop hive hdfs hiveql

hadoop - 在 hdfs 上格式化 namenode 后如何格式化 datanodes？

我最近一直在伪分布式模式下设置hadoop，我创建了数据并将其加载到HDFS中。后来因为一个问题格式化了namenode。现在，当我这样做时，我发现之前在数据节点上已经存在的目录和文件不再显示了。(虽然“格式化”这个词是有道理的)但是现在，我确实有这个疑问。由于名称节点不再保存文件的元数据，是否会中断对先前加载文件的访问？如果是，那么我们如何删除数据节点上已有的数据？最佳答案是的，您以前的数据节点目录现在已经过时了。您需要手动遍历每个数据节点并删除这些目录的内容。通过HadoopCLI没有这样的格式命令数据节点目录默认是/tmp

datanodes namenode section stackoverflow strong hadoop datanode

hadoop - 如何获取 hdfs 文件上最后添加的数据？

我有数据以一定的速度传输到HDFS文件中。我有一个建立在它之上的外部配置单元表。Data有一个timestamp列和一个int列。每5分钟，将添加一行。我有一个JDBC程序，如果int列值是否超过限制，它需要检查最后添加的行。我以为我会为新的时间戳写一个搜索查询，获取行并检查它的int列值。但是，它遍历整个表以搜索最后附加的行。我可以在时间戳列上创建索引。有没有其他方法可以检索最近添加的数据，这样性能就不会下降？最佳答案按日期(例如load_date)对表进行分区，您可以使用date()函数从时间戳字段中导出日期。当然，您还需要

hadoop hdfs section load_date date jdbc hive mapreduce

8 9 101112 13 14