HDFS-HAWQ

shell - hdfs 删除超过 7 天的目录

我有这样的存档目录结构/archivedData/Mappings/Web/NOW/,其中NOW是当前日期:现在=$(日期+"%Y%m%d%H%M")。我必须从hdfs中删除超过7天的NOW目录。最佳答案这可以通过awk和date命令来实现，下面是shell脚本#!/bin/bashhadoopfs-ls/archivedData/Mappings/Web/NOW/|whilereadpath;dodir_date=`echo$path|awk'{print$6}'`|cut-d'/'-f5purge_criteria=`dat

hadoop - hdfs-计数 : Illegal option -v

我试图获取标题，但它说非法选项-vhdfsdfs-count-q-h-vhdfs_path-count:Illegaloption-vHadoop版本:Hadoop2.6.0.3.0.0.0-249来源链接:hdfscount 最佳答案版本很重要。您链接上的文档与hadoop2.7相关。似乎选项-v在Hadoop2.6中不存在这是hadoop2.6的文档:https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/FileSystemShell.h

Illegal hadoop section count command-line hdfs bigdata

hadoop - 无法创建 HDFS admin super 用户

我正在尝试创建HDFS管理员super用户。我在下面提到了另一个super用户创建。CreatingHDFSAdminuser我按照确切的步骤但是在运行之后hdfsdfsadmin-报告报告:用户abc的访问被拒绝。需要super用户权限。这里有什么指示吗？我应该如何调试它？最佳答案改为使用此命令即可:sudo-uhdfshdfsdfsadmin-report对我有用关于hadoop-无法创建HDFSadminsuper用户，我们在StackOverflow上找到一个类似的问题：

hadoop admin section hdfs super

hadoop - 避免无密码访问 HDFS 文件

我创建了一个HDFS用户externUser，他拥有HDFS中的文件夹/user/externUser。权限设置为drwx------，请参见下面的屏幕截图:我正在使用HDP2.4.2和Ambari2.2.2现在我已经编写了一个Java应用程序，它使用以下代码打开并读取此用户文件夹中的csv文件:System.setProperty("HADOOP_USER_NAME","externUser");Configurationconf=newConfiguration();Pathpath=newPath(hdfs://namenode_url:8020/user/externUser/

hadoop HDFS section externUser

hadoop - Spark ml 模型保存到 hdfs

我正在尝试将我的模型保存为从sparkml库创建的对象。但是，它给我一个错误:线程“main”中的异常java.lang.NoSuchMethodError:org.apache.spark.ml.PipelineModel.save(Ljava/lang/String;)V在com.sf.prediction$.main(prediction.scala:61)在com.sf.prediction.main(prediction.scala)在sun.reflect.NativeMethodAccessorImpl.invoke0(native方法)在sun.reflect.Nati

hadoop Spark gt lt apache-spark dataframe machine-learning

hadoop - 我们可以在 hdfs 文件系统中指定 DATANODE 的大小吗

在使用以下命令格式化DATANODE时:hdfsdfsdatanode-format是否可以指定HDFS的大小？我了解水平可扩展性会受到影响。最佳答案 HDFS与附加到它的数据节点一样大...因此，通过添加更多硬件，您可以指定大小。它不像一个可以分区的磁盘(至少，不是一般意义上的为特定任务分配特定大小的磁盘)。关于hadoop-我们可以在hdfs文件系统中指定DATANODE的大小吗，我们在StackOverflow上找到一个类似的问题： https://

中指 DATANODE section code strong hadoop hadoop2

hadoop - spark-ml 朴素贝叶斯保存到 hdfs

我知道通过spark-mllib我们可以通过save()方法将朴素贝叶斯模型保存到hdfs。但是我们尝试使用spark-mlnaivebayes保存到hdfs然后它给出错误。错误的FS:hdfs://localhost:8020/pa/model/nb，应为:file:///我正在使用spark-1.6.0和hadoop2.7。最佳答案我在保存spark-ml模型时也遇到了问题-似乎没有一种直接的方法可以做到这一点。尝试像这样保存它-如果您遇到路径错误，请尝试将其保存到tmp，如下所示。sc.parallelize(Seq(NB

贝叶朴素 section spark hadoop apache-spark apache-spark-mllib apache-spark-ml

hadoop - 如何详细获取hdfs使用报告

我们得到了容量为900TB的hdfs。随着存储的数据越来越多，很难跟踪哪些有用，哪些可以删除。我想分析以下模式的hdfs使用情况，以便可以最佳地使用容量。经常访问的数据是什么。数据长时间未被触及/访问(可能被删除)用户的数据使用分布。活跃用户。最佳答案您可以从中获取数据:(1)HDFS审计日志(每个用户/ip的访问模式)(2)fsimage(每个文件的访问次数，未访问的数据)(1)您是否启用了HDFS审计日志？阅读更多here.(2)从fsimage开始阅读this-有一个例子可以得到“数据长时间未被触及/访问”您可能还想考虑H

hadoop hdfs section 长时 cloudera cloudera-cdh bigdata

java - 使用 Java 和 Spark 将本地镜像的序列文件写入 HDFS

正如标题所说，这就是我现在的目标。我需要从目录加载一堆非文本文件从中提取通常的文件信息(创建日期、作者、类型……那些)创建一个类型的序列文件将新提取的信息放入.seq文件的Key中将它们全部存储在一个hdfs目录中。我使用spark的原因是为了可伸缩性(要处理数以千计的文件，我将有一个工作集群可用)并且因为我正在考虑在图像目录上实现一个SParkStreaming接收器，以便文件将被自动处理。这是我的初始代码:JavaPairRDDimageRDD=jsc.wholeTextFiles("file:///home/cloudera/Pictures/");imageRDD.mapToP

Spark java String Text SequenceFile hadoop apache-spark hdfs spark-streaming

Windows上的hadoop，如何添加D :\folder1 and E:\folder1 to hdfs?

hadoopfs-putpopularNames.txt/user/hadoop/dir1/popularNames.txt我的文件夹非常大，大约有3TB。我不想复制文件夹，我想将hdfs设置到该位置。如何制作？最佳答案 HDFS:Hadoop分布式文件系统。您不能添加指向某个位置的链接，因为数据必须存在于HDFS中(而非本地)。使用hadoop的全部意义在于分布式计算，当您的数据分布在集群上时，这是可能的。hadoopfs-put必须用于将文件从本地移动到hdfs才能使用hadoop框架。

folder1 folder section hadoop code

101 102 103104105 106 107