hdfs_clusters

scala - 如何更改我的 Spark 程序的 HDFS 复制因子？

我需要将我的Spark程序的HDFS复制因子从3更改为1。在搜索时，我想到了“spark.hadoop.dfs.replication”属性，但是通过查看https://spark.apache.org/docs/latest/configuration.html，它似乎不存在了。那么，如何从我的Spark程序或使用spark-submit更改hdfs复制因子？最佳答案您应该使用spark.hadoop.dfs.replication在您的spark应用程序中设置HDFS中的复制因子。但是为什么在https://spark.ap

hadoop - 如何在 docker 容器中持久化 HDFS 数据

我有一个hadoop的docker镜像。(在我的例子中是https://github.com/kiwenlau/hadoop-cluster-docker，但这个问题适用于任何hadoopdocker图像)我正在如下运行docker容器..sudodockerrun-itd--net=hadoop--user=root-p50070:50070\-p8088:8088-p9000:9000--namehadoop-master--hostnamehadoop-master\kiwenlau/hadoop我正在从主机ubuntu机器上运行的java将数据写入hdfs文件系统。FileSy

何在容器 hadoop docker section hdfs

java - 如何使用spark java解压存储在hdfs中的文件

Listlist=jsc.wholeTextFiles(hdfsPath).keys().collect();for(Stringstring:list){System.out.println(string);}我在这里获取所有的zip文件。从这里我无法继续如何提取每个文件并存储到具有相同zipname文件夹的hdfs路径最佳答案您可以像下面这样使用，但在将内容写入hdfs之前，我们只需要在zipFilesRdd.collect().forEach处收集。map和平面map给出的任务此时不可序列化。publicvoidreadW

java spark section String configuration hadoop apache-spark hdfs

scala - 在 Scala/Spark 的 HDFS 上将文件从一个文件夹移动到另一个文件夹

我有两条路径，一条用于文件，一条用于文件夹。我想将文件移动到HDFS上的那个文件夹中。我怎样才能在Scala中做到这一点？我也在用Spark如果相同的代码也适用于Windows路径，就像在HDFS上读取/写入文件一样，但不是必需的。我尝试了以下方法:valfs=FileSystem.get(sc.hadoopConfiguration)fs.moveFromLocalFile(something,something2)我收到以下错误:Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:hdfs:/user/

scala apache hadoop 34 apache-spark hdfs

hadoop - HDFS 复制 - 数据存储

我是hadoop的新手，想更好地了解复制在HDFS中的工作原理。假设我有一个10节点系统(每个节点1TB)，总容量为10TB。如果我的复制因子是3，那么每个文件有1个原始副本和3个副本。所以，本质上，我的存储空间中只有25%是原始数据。所以我的10TB集群实际上只有2.5TB的原始(未复制)数据。请让我知道我的思路是否正确。最佳答案你的想法有点不对。复制因子3表示您有3个总数据副本。更具体地说，您的文件的每个block将有3个副本，因此如果您的文件由10个block组成，则在您的10个节点中总共有30个block，或者每个节点大

hadoop HDFS section strong block

hadoop - 如何显式定义数据节点以在 HDFS 中存储特定的给定文件？

我想编写一个脚本或类似.xml文件的文件，它明确定义Hadoop集群中的数据节点以存储特定的文件block。例如:假设有4个从节点和1个主节点(hadoop集群中共有5个节点)。有两个文件file01(size=120MB)和file02(size=160MB)。默认block大小=64MB现在我想将file01的两个block中的一个存储在从属节点1中，另一个存储在从属节点2中。类似地，file02的三个block之一在从节点1，第二个在从节点3，第三个在从节点4。所以，我的问题是我该怎么做？其实有一种方法:每次在conf/slaves文件中进行修改，来存储一个文件。但我不想这样做那

给定 hadoop section block 节点 hdfs

hadoop - 如何强制同步 hdfs 复制？

我写了一个简单的程序，将数据放入HDFS。我通过Configuration对象将dfs.replication设置为3，并针对伪分布式hdfs集群运行该程序。我希望得到一个异常，因为复制因子是3并且只有一个数据节点；但是程序成功地完成了执行。这是了解我的数据处于复制不足状态的一种方式吗？我认为这与dfs.replication.min有关，但是当我也将其更改为3时(在程序配置对象中)，写入仍然成功并且我没有得到任何异常。最佳答案我已经完成了一些测试并找到了原因。首先，当您创建文件时，其复制因子必须高于或等于dfs.replica

hadoop hdfs replication section dfs

hadoop - HDFS 配置和用户目录的用途是什么？

我目前正在虚拟机(来自cloudera的CDH4.1.3图像)中“玩弄”Hadoop。我想知道的是以下内容(文档在这方面并没有真正帮助我)。按照教程，我会先格式化一个NameNode-好的，如果使用cloudera图像，这已经完成了。同样，HDFS文件结构已经存在。在hdfs-site.xml中，datanode数据目录设置为:/var/lib/hadoop-hdfs/cache/${user.name}/dfs/data这显然是在真正的分布式设置中应该将block复制到的位置。在cloudera教程中，有人被告知为每个用户创建hdfs“主目录”(/users/)，我不明白它们的用途。

用途 hadoop HDFS blockquote section

hadoop - 连接HDFS时控制重试次数的属性有哪些

当我尝试使用无效URL连接到HDFS时，我收到以下形式的消息:Retryingconnecttoserver:/.Alreadytriedtime(s);maxRetries=45Hadoop配置中的哪个属性控制maxRetries？还有没有一种简单的方法可以找到这些属性(而不是尝试谷歌搜索)？最佳答案我看到你找到了答案。只是要补充一点，最直接的学习方法可能是阅读Hadoopdocs.在此页面底部(当前)有一个名为“配置”的部分，其中还列出了这些文件和可用选项。关于hadoop-连

hadoop HDFS section code stackoverflow

scala - 如何枚举HDFS目录中的文件

如何枚举HDFS目录中的文件？这是为了使用Scala枚举ApacheSpark集群中的文件。我看到有sc.textfile()选项，但它也会读取内容。我只想读取文件名。我实际上尝试了listStatus。但是没有用。得到以下错误。我正在使用AzureHDInsightSpark，Blob存储文件夹“testContainer@testhdi.blob.core.windows.net/example/”包含.json文件。valfs=FileSystem.get(newConfiguration())valstatus=fs.listStatus(newPath("wasb://tes

scala HDFS SparkInterpreter at hadoop apache-spark

205 206 207208209 210 211