hdfs_clusters_草庐IT

hadoop - HDFS 空间分配(大小/已用/可用)

我阅读了一些引用资料，但我仍然无法弄清楚HDFS系统上可用于存储文件的基本总大小是如何确定的。如果我有一个运行HDFS服务的1TB磁盘，当我向其中添加文件时，dfs部分会自然地“增长”，还是默认情况下磁盘的一部分分配给DFS？最佳答案是的，随着文件的添加，HDFS的磁盘使用量会增长。默认情况下，Datanodes将尝试使用其存储目录dfs.datanode.data.dir中的所有可用空间。Datanode的配置容量是TotalStorageCapacity-ReservedStorageReservedStorage默认为0B

java - 在 hadoop 安装期间尝试执行命令 "hdfs: command not found"时出现 "hdfs namenode -format"

完整的错误陈述:Nocommand'hdfs'found,didyoumean:Command'hfs'frompackage'hfsutils-tcltk'(universe)Command'hdfls'frompackage'hdf4-tools'(universe)hdfs:commandnotfound 最佳答案您的HDFS安装可能有问题，请尝试在命令中提供hdfs的完整路径。/path/to/dir/hdfsnamenode-format路径取决于您的操作系统和您使用的hadoop发行版等。使用locate或find。如

时出 amp section code hdfs java python hadoop

scala - 如果我有身份验证详细信息，如何使用 spark 编程 API 写入 HDFS？

我需要写入外部HDFS集群，其身份验证详细信息可用于简单例份验证和kerberos身份验证。为了简单起见，假设我们正在处理简单的身份验证。这是我的:外部HDFS集群连接详细信息(主机、端口)身份验证详细信息(简单例份验证的用户)HDFS需要写入文件的位置(hdfs://host:port/loc)此外，其他细节，如格式等。请注意SPARK用户与为HDFS身份验证指定的用户不同。现在，使用spark编程API，这就是我想要做的:valhadoopConf=newConfiguration()hadoopConf.set("fs.defaultFS",fileSystemPath)hado

scala spark hadoop apache java apache-spark authentication hdfs

hadoop - Apache Nifi 无法写入 HDFS

当我尝试使用PutHDFS处理器将文件放在HDFS上时出现以下错误:我使用HortonWorks沙箱HDP和HDF(Windows上的docker容器)。好像是Nifi的问题，HDFS没问题，可以放/写/读。我正在尝试修复此问题但没有结果，我已经删除了docker的HDP镜像并获得了一个新的，但也没有结果。最佳答案通常，该错误意味着写入HDFS的任何内容都能够到达名称节点，但无法到达数据节点。在您的情况下，这很可能是两个容器之间的网络配置问题。您可以通过从场景中消除NiFi并在运行NiFi的容器上安装Hadoop客户端来测试这一

hadoop Apache section 容器 HDFS apache-nifi hortonworks-data-platform hortonworks-dataflow

hadoop - hdfs数据目录 "is in an inconsistent state: is incompatible with others."

对不起，这让我很紧张......就在我开始通过配置单元加载表时，我开始收到此错误。亲爱的老谷歌也帮不上忙。我的情况-单节点设置。名称节点正常工作。datanode启动失败并显示此消息-ERRORdatanode.DataNode:org.apache.hadoop.hdfs.server.common.InconsistentFSStateException:Directory/xxxxxx/hadoop/hdfs-data-dirisinaninconsistentstate:isincompatiblewithothers.我已经尝试过重新格式化我的名称节点，但没有用。此外，我试图

inconsistent incompatible section hadoop VERSION hdfs

sql-server - 将 SQL Server 表导入 HDFS

我是Hadoop的新手，关于使用sqoop从SQLServer将表导入到hdfs我几乎没有疑问:如何使用sqoop和任何其他方式将整个数据库导入hadoop。如何导入没有主键的单个表，或者是否可以导入没有主键的SQLServer表。最佳答案如何使用sqoop和任何其他工具将整个数据库导入hadoop方式。您可以使用sqoop-import-all-tables要做到这一点。其他方式会是使用DBInputFormat编写您自己的作业。如何导入没有主键或主键的单个表可以导入没有主键的SQLServer表。您可以使用--split-b

sql-server server section strong sqoop hadoop hbase hive

hadoop - 使用 SFTP 将文件移动到 Hadoop HDFS

我有一个VPC子网，其中有多台机器。在机器上，我存储了一些文件。在另一台机器上，我安装并运行了hadoopHDFS服务。我需要使用SFTP将这些文件从第一台机器移动到HDFS文件系统。Hadoop有一些API可以实现这个目标吗？PS:我使用ClouderaCDH4发行版安装了Hadoop。最佳答案这是一个在ftp/sftp服务器端比HDFS更容易实现的要求。查看在HDFS上运行的ftp服务器hdfs-over-ftp 关于hadoop-使用SFTP将文件移动到HadoopHDFS，我

hadoop section HDFS mapreduce sftp cloudera

hadoop - HDFS 文件系统命名空间

在HDFS的上下文中，我们有Namenode和Datanode，Namenode存储文件系统命名空间是什么意思？另外，我们为datanode(在hdfs-core.xml中)指定的目录是唯一可以存放数据的地方，还是我们可以指定任何其他目录来存放数据？最佳答案表示NameNode将文件名插入到文件系统树中，并为其分配一个数据block。当您尝试将数据放入HDFS时，这实际上会发生。是的，可以有任意数量的数据目录。这是您必须在conf文件夹中的hdfs-site.xml中设置的内容。dfs.data.dirpathtodatadir

命名 hadoop section 中设 stackoverflow namespaces filesystems hdfs

java - org.apache.hadoop.hdfs.DFSInputStream 中的 NoSuchMethodError

我有一个非常简单的Java代码，它从hdfs读取数据try{InputStreams=newGzipCompressorInputStream(hdfsFileSystem.open(filePath),false);ByteStreams.copy(s,outputStream);s.close();}catch(Exceptionex){logger.error("Problemwithfile"+filePath,ex);}有时(不总是)它会抛出异常java.lang.NoSuchMethodError:org.apache.commons.io.IOUtils.closeQui

NoSuchMethodError DFSInputStream code java hadoop

hadoop - 什么是 HDFS 写入一致性

HDFS是不是和Cassandra一样有写一致性，比如说我写完一个文件到HDFS，什么时候能得到成功响应，是第一次复制完成还是3次复制完成？(假设rep=3) 最佳答案与Cassandra相比，它在Hadoop中的工作方式不同。您有两个与复制相关的参数。dfs.replication:默认block复制。实际的复制次数可以在创建文件时指定。如果在创建时未指定复制，则使用默认值dfs.namenode.replication.min:最小块复制。一旦满足dfs.namenode.replication.min，写入操作将被视为成功。

hadoop HDFS code section Datanode