我有这样的存档目录结构/archivedData/Mappings/Web/NOW/,其中NOW是当前日期:现在=$(日期+"%Y%m%d%H%M")。我必须从hdfs中删除超过7天的NOW目录。 最佳答案 这可以通过awk和date命令来实现,下面是shell脚本#!/bin/bashhadoopfs-ls/archivedData/Mappings/Web/NOW/|whilereadpath;dodir_date=`echo$path|awk'{print$6}'`|cut-d'/'-f5purge_criteria=`dat
我试图获取标题,但它说非法选项-vhdfsdfs-count-q-h-vhdfs_path-count:Illegaloption-vHadoop版本:Hadoop2.6.0.3.0.0.0-249来源链接:hdfscount 最佳答案 版本很重要。您链接上的文档与hadoop2.7相关。似乎选项-v在Hadoop2.6中不存在这是hadoop2.6的文档:https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/FileSystemShell.h
我正在尝试创建HDFS管理员super用户。我在下面提到了另一个super用户创建。CreatingHDFSAdminuser我按照确切的步骤但是在运行之后hdfsdfsadmin-报告报告:用户abc的访问被拒绝。需要super用户权限。这里有什么指示吗?我应该如何调试它? 最佳答案 改为使用此命令即可:sudo-uhdfshdfsdfsadmin-report对我有用 关于hadoop-无法创建HDFSadminsuper用户,我们在StackOverflow上找到一个类似的问题:
我创建了一个HDFS用户externUser,他拥有HDFS中的文件夹/user/externUser。权限设置为drwx------,请参见下面的屏幕截图:我正在使用HDP2.4.2和Ambari2.2.2现在我已经编写了一个Java应用程序,它使用以下代码打开并读取此用户文件夹中的csv文件:System.setProperty("HADOOP_USER_NAME","externUser");Configurationconf=newConfiguration();Pathpath=newPath(hdfs://namenode_url:8020/user/externUser/
我正在尝试将我的模型保存为从sparkml库创建的对象。但是,它给我一个错误:线程“main”中的异常java.lang.NoSuchMethodError:org.apache.spark.ml.PipelineModel.save(Ljava/lang/String;)V在com.sf.prediction$.main(prediction.scala:61)在com.sf.prediction.main(prediction.scala)在sun.reflect.NativeMethodAccessorImpl.invoke0(native方法)在sun.reflect.Nati
在使用以下命令格式化DATANODE时:hdfsdfsdatanode-format是否可以指定HDFS的大小?我了解水平可扩展性会受到影响。 最佳答案 HDFS与附加到它的数据节点一样大...因此,通过添加更多硬件,您可以指定大小。它不像一个可以分区的磁盘(至少,不是一般意义上的为特定任务分配特定大小的磁盘)。 关于hadoop-我们可以在hdfs文件系统中指定DATANODE的大小吗,我们在StackOverflow上找到一个类似的问题: https://
我知道通过spark-mllib我们可以通过save()方法将朴素贝叶斯模型保存到hdfs。但是我们尝试使用spark-mlnaivebayes保存到hdfs然后它给出错误。错误的FS:hdfs://localhost:8020/pa/model/nb,应为:file:///我正在使用spark-1.6.0和hadoop2.7。 最佳答案 我在保存spark-ml模型时也遇到了问题-似乎没有一种直接的方法可以做到这一点。尝试像这样保存它-如果您遇到路径错误,请尝试将其保存到tmp,如下所示。sc.parallelize(Seq(NB
我们得到了容量为900TB的hdfs。随着存储的数据越来越多,很难跟踪哪些有用,哪些可以删除。我想分析以下模式的hdfs使用情况,以便可以最佳地使用容量。经常访问的数据是什么。数据长时间未被触及/访问(可能被删除)用户的数据使用分布。活跃用户。 最佳答案 您可以从中获取数据:(1)HDFS审计日志(每个用户/ip的访问模式)(2)fsimage(每个文件的访问次数,未访问的数据)(1)您是否启用了HDFS审计日志?阅读更多here.(2)从fsimage开始阅读this-有一个例子可以得到“数据长时间未被触及/访问”您可能还想考虑H
正如标题所说,这就是我现在的目标。我需要从目录加载一堆非文本文件从中提取通常的文件信息(创建日期、作者、类型……那些)创建一个类型的序列文件将新提取的信息放入.seq文件的Key中将它们全部存储在一个hdfs目录中。我使用spark的原因是为了可伸缩性(要处理数以千计的文件,我将有一个工作集群可用)并且因为我正在考虑在图像目录上实现一个SParkStreaming接收器,以便文件将被自动处理。这是我的初始代码:JavaPairRDDimageRDD=jsc.wholeTextFiles("file:///home/cloudera/Pictures/");imageRDD.mapToP
hadoopfs-putpopularNames.txt/user/hadoop/dir1/popularNames.txt我的文件夹非常大,大约有3TB。我不想复制文件夹,我想将hdfs设置到该位置。如何制作? 最佳答案 HDFS:Hadoop分布式文件系统。您不能添加指向某个位置的链接,因为数据必须存在于HDFS中(而非本地)。使用hadoop的全部意义在于分布式计算,当您的数据分布在集群上时,这是可能的。hadoopfs-put必须用于将文件从本地移动到hdfs才能使用hadoop框架。