hdfs

hadoop - 根据 dfsadmin 命令，HDFS 配置容量小于原始磁盘容量

我在VMWare工作站中使用ClouderaManager5.4.1实现了2节点集群，其中包括Hbase、Impala、Hive、Sqoop2、Oozie、Zookeeper、NameNode、SecondaryName和YARN等组件。我为每个节点模拟了3个磁盘驱动器，其中包括用于操作系统的sda、用于Hadoop存储的sdb和sdc。因为我已经为每个节点上的Hadoop存储分配了16GB的sdb1和16GB的sdc1。因此，我假设我的HDFS存储总容量(包括两个节点)应该是64GB。但是当使用dfsadmin命令并使用NameNodeUI检查输出时，我看到“配置的容量小于为HDFS

hadoop - 写入 hdfs 时出现 Spark Socket 超时问题

我正在尝试处理配置单元查询并以ORC格式写入HDFS。但是我遇到了超时问题。我检查了spark-default.conf，但是没有超时设置，我应该添加它吗？请让我知道要进行的更改temp=sqlContext.sql("""query""")temp.write.format("orc").option("header","true").save("hdfs://app/Quality/spark_test/")附上错误日志:org.apache.hadoop.net.ConnectTimeoutException:CallFrom..toapp:8020failedonsockett

时出 hadoop apache java apache-spark hive timeout hdfs

shell - hdfs 删除超过 7 天的目录

我有这样的存档目录结构/archivedData/Mappings/Web/NOW/,其中NOW是当前日期:现在=$(日期+"%Y%m%d%H%M")。我必须从hdfs中删除超过7天的NOW目录。最佳答案这可以通过awk和date命令来实现，下面是shell脚本#!/bin/bashhadoopfs-ls/archivedData/Mappings/Web/NOW/|whilereadpath;dodir_date=`echo$path|awk'{print$6}'`|cut-d'/'-f5purge_criteria=`dat

shell hdfs code section date hadoop

hadoop - hdfs-计数 : Illegal option -v

我试图获取标题，但它说非法选项-vhdfsdfs-count-q-h-vhdfs_path-count:Illegaloption-vHadoop版本:Hadoop2.6.0.3.0.0.0-249来源链接:hdfscount 最佳答案版本很重要。您链接上的文档与hadoop2.7相关。似乎选项-v在Hadoop2.6中不存在这是hadoop2.6的文档:https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/FileSystemShell.h

Illegal hadoop section count command-line hdfs bigdata

hadoop - 无法创建 HDFS admin super 用户

我正在尝试创建HDFS管理员super用户。我在下面提到了另一个super用户创建。CreatingHDFSAdminuser我按照确切的步骤但是在运行之后hdfsdfsadmin-报告报告:用户abc的访问被拒绝。需要super用户权限。这里有什么指示吗？我应该如何调试它？最佳答案改为使用此命令即可:sudo-uhdfshdfsdfsadmin-report对我有用关于hadoop-无法创建HDFSadminsuper用户，我们在StackOverflow上找到一个类似的问题：

hadoop admin section hdfs super

hadoop - 避免无密码访问 HDFS 文件

我创建了一个HDFS用户externUser，他拥有HDFS中的文件夹/user/externUser。权限设置为drwx------，请参见下面的屏幕截图:我正在使用HDP2.4.2和Ambari2.2.2现在我已经编写了一个Java应用程序，它使用以下代码打开并读取此用户文件夹中的csv文件:System.setProperty("HADOOP_USER_NAME","externUser");Configurationconf=newConfiguration();Pathpath=newPath(hdfs://namenode_url:8020/user/externUser/

hadoop HDFS section externUser

hadoop - Spark ml 模型保存到 hdfs

我正在尝试将我的模型保存为从sparkml库创建的对象。但是，它给我一个错误:线程“main”中的异常java.lang.NoSuchMethodError:org.apache.spark.ml.PipelineModel.save(Ljava/lang/String;)V在com.sf.prediction$.main(prediction.scala:61)在com.sf.prediction.main(prediction.scala)在sun.reflect.NativeMethodAccessorImpl.invoke0(native方法)在sun.reflect.Nati

hadoop Spark gt lt apache-spark dataframe machine-learning

hadoop - 我们可以在 hdfs 文件系统中指定 DATANODE 的大小吗

在使用以下命令格式化DATANODE时:hdfsdfsdatanode-format是否可以指定HDFS的大小？我了解水平可扩展性会受到影响。最佳答案 HDFS与附加到它的数据节点一样大...因此，通过添加更多硬件，您可以指定大小。它不像一个可以分区的磁盘(至少，不是一般意义上的为特定任务分配特定大小的磁盘)。关于hadoop-我们可以在hdfs文件系统中指定DATANODE的大小吗，我们在StackOverflow上找到一个类似的问题： https://

中指 DATANODE section code strong hadoop hadoop2

hadoop - spark-ml 朴素贝叶斯保存到 hdfs

我知道通过spark-mllib我们可以通过save()方法将朴素贝叶斯模型保存到hdfs。但是我们尝试使用spark-mlnaivebayes保存到hdfs然后它给出错误。错误的FS:hdfs://localhost:8020/pa/model/nb，应为:file:///我正在使用spark-1.6.0和hadoop2.7。最佳答案我在保存spark-ml模型时也遇到了问题-似乎没有一种直接的方法可以做到这一点。尝试像这样保存它-如果您遇到路径错误，请尝试将其保存到tmp，如下所示。sc.parallelize(Seq(NB

贝叶朴素 section spark hadoop apache-spark apache-spark-mllib apache-spark-ml

hadoop - 如何详细获取hdfs使用报告

我们得到了容量为900TB的hdfs。随着存储的数据越来越多，很难跟踪哪些有用，哪些可以删除。我想分析以下模式的hdfs使用情况，以便可以最佳地使用容量。经常访问的数据是什么。数据长时间未被触及/访问(可能被删除)用户的数据使用分布。活跃用户。最佳答案您可以从中获取数据:(1)HDFS审计日志(每个用户/ip的访问模式)(2)fsimage(每个文件的访问次数，未访问的数据)(1)您是否启用了HDFS审计日志？阅读更多here.(2)从fsimage开始阅读this-有一个例子可以得到“数据长时间未被触及/访问”您可能还想考虑H

hadoop hdfs section 长时 cloudera cloudera-cdh bigdata

152 153 154155156 157 158