hdfs_clusters_草庐IT

hadoop - 我们可以在 hdfs 文件系统中指定 DATANODE 的大小吗

在使用以下命令格式化DATANODE时:hdfsdfsdatanode-format是否可以指定HDFS的大小？我了解水平可扩展性会受到影响。最佳答案 HDFS与附加到它的数据节点一样大...因此，通过添加更多硬件，您可以指定大小。它不像一个可以分区的磁盘(至少，不是一般意义上的为特定任务分配特定大小的磁盘)。关于hadoop-我们可以在hdfs文件系统中指定DATANODE的大小吗，我们在StackOverflow上找到一个类似的问题： https://

中指 DATANODE section code strong hadoop hadoop2

hadoop - spark-ml 朴素贝叶斯保存到 hdfs

我知道通过spark-mllib我们可以通过save()方法将朴素贝叶斯模型保存到hdfs。但是我们尝试使用spark-mlnaivebayes保存到hdfs然后它给出错误。错误的FS:hdfs://localhost:8020/pa/model/nb，应为:file:///我正在使用spark-1.6.0和hadoop2.7。最佳答案我在保存spark-ml模型时也遇到了问题-似乎没有一种直接的方法可以做到这一点。尝试像这样保存它-如果您遇到路径错误，请尝试将其保存到tmp，如下所示。sc.parallelize(Seq(NB

贝叶朴素 section spark hadoop apache-spark apache-spark-mllib apache-spark-ml

hadoop - 如何详细获取hdfs使用报告

我们得到了容量为900TB的hdfs。随着存储的数据越来越多，很难跟踪哪些有用，哪些可以删除。我想分析以下模式的hdfs使用情况，以便可以最佳地使用容量。经常访问的数据是什么。数据长时间未被触及/访问(可能被删除)用户的数据使用分布。活跃用户。最佳答案您可以从中获取数据:(1)HDFS审计日志(每个用户/ip的访问模式)(2)fsimage(每个文件的访问次数，未访问的数据)(1)您是否启用了HDFS审计日志？阅读更多here.(2)从fsimage开始阅读this-有一个例子可以得到“数据长时间未被触及/访问”您可能还想考虑H

hadoop hdfs section 长时 cloudera cloudera-cdh bigdata

java - 使用 Java 和 Spark 将本地镜像的序列文件写入 HDFS

正如标题所说，这就是我现在的目标。我需要从目录加载一堆非文本文件从中提取通常的文件信息(创建日期、作者、类型……那些)创建一个类型的序列文件将新提取的信息放入.seq文件的Key中将它们全部存储在一个hdfs目录中。我使用spark的原因是为了可伸缩性(要处理数以千计的文件，我将有一个工作集群可用)并且因为我正在考虑在图像目录上实现一个SParkStreaming接收器，以便文件将被自动处理。这是我的初始代码:JavaPairRDDimageRDD=jsc.wholeTextFiles("file:///home/cloudera/Pictures/");imageRDD.mapToP

Spark java String Text SequenceFile hadoop apache-spark hdfs spark-streaming

Windows上的hadoop，如何添加D :\folder1 and E:\folder1 to hdfs?

hadoopfs-putpopularNames.txt/user/hadoop/dir1/popularNames.txt我的文件夹非常大，大约有3TB。我不想复制文件夹，我想将hdfs设置到该位置。如何制作？最佳答案 HDFS:Hadoop分布式文件系统。您不能添加指向某个位置的链接，因为数据必须存在于HDFS中(而非本地)。使用hadoop的全部意义在于分布式计算，当您的数据分布在集群上时，这是可能的。hadoopfs-put必须用于将文件从本地移动到hdfs才能使用hadoop框架。

folder1 folder section hadoop code

hadoop - block 级别的 HDFS 压缩

HDFS的一个大问题是压缩:如果压缩文件，则必须处理可拆分压缩。为什么HDFS要求您压缩整个文件，而不是在HDFSblock级别实现压缩？这将解决问题:一个64MB的block在单个block中读取或写入，它足够大以进行压缩，并且不会干扰操作或需要可拆分压缩。有这方面的任何实现吗？最佳答案我在这里推测，但我可以看到几个问题。HDFS包含一个名为localshort-circuitreads的功能.这允许数据节点打开block文件，验证安全性，然后将文件描述符传递给在同一节点上运行的应用程序。这完全绕过了通过HTTP或其他方式从H

级别 hadoop block section noreferrer hdfs

shell - HDFS 中的文件重命名

我将一个特定的文件放在名为A1的hdfs目录中，并希望在运行我的shell脚本时多次执行此过程，但是当我将文件放在hdfs目录中时，我想重命名该A1文件，每次重命名都应该有所不同，我该怎么做。场景:我有一个文件名A1，一旦完成所有操作，我就将该文件保存在hdfs目录名称completed_data中，因为我正在使用shell脚本和调度程序运行它，这个过程将在一段时间后发生相同的文件名A1不能存在于同一目录中，所以我想每次都用不同的名称重命名A1。谢谢最佳答案我给出的是普通mv的例子。您可以针对您的hadoop环境更改它。使用$R

命名 shell code section hadoop cron cloudera

linux - 向 HDFS 中的一个数据节点添加一个新的硬盘驱动器或磁盘分区

我有一个集群，由一个master节点(它只运行namenode)和两个从节点组成，即slave1和slave2(它运行数据节点)。现在，我只想给slave1添加一个新的硬盘，并用它来增加数据节点的容量。我在互联网上遵循了不同的教程和方法，并且我了解了一般的操作方法。我的问题是，仅将分区/硬盘驱动器添加到slave1会引发问题，因为在hdfs-site.xml中添加的新分区/硬盘驱动器的路径不会slave2找不到。这是我在slave1上所做的(新磁盘在sdb上):我运行fdisk/dev/sdb来创建分区。该过程毫无问题地结束，创建了/dev/sdb1。我用mkfs.ext4/dev/s

linux HDFS code section slave hadoop

java - 方案 : hdfs when building fat jar in Spark; works fine in Eclipse mars 没有文件系统

当我用我的spark程序做一个fatjar然后我启动它时，我得到了这个错误:java-jar-myApp.jar[args]当我在Eclipse中运行我的应用程序时，它运行得非常好。这是我的POM:UTF-81.71.7org.apache.sparkspark-streaming-kafka_2.101.5.0org.apache.kafkakafka_2.100.9.0.1org.apache.sparkspark-streaming_2.101.6.1com.google.code.gsongson2.6.2org.apache.hadoophadoop-hdfs2.6.0org

building Eclipse gt lt artifactId java maven hadoop apache-spark

image - 在 HDFS 中保存图像文件(jpeg、png)的输入格式

我想在HDFS(Hadoop文件系统)上保存图像文件(如jpeg、png等)。我尝试了两种方法:使用put命令将图像文件按原样(即以相同的格式)保存到HDFS中。完整的命令是:hadoopfs-put/home/a.jpeg/user/hadoop/。已成功放置。将这些图像文件转换为Hadoop的SequenceFile格式，然后使用put命令保存在HDFS中。我想知道HDFS应该用什么格式保存。使用SequenceFile格式的优点是什么？我知道的优点之一是它是可拆分的。还有其他的吗？最佳答案与HDFS存储的block大小相比

image HDFS section code questions hadoop sequencefile