hdfs-audit

r - 在 rhdfs 中的 hdfs.init() 中出现错误

我想运行hdfs.init()，我的代码是:Sys.setenv(HADOOP_CMD="C:\\hdp\\hadoop\\hadoop-1.2.0.1.3.0.0-0380\\bin\\hadoop")Sys.setenv(HADOOP_CONF_DIR="C:\\hdp\\hadoop\\hadoop-1.2.0.1.3.0.0-0380\\conf")library(rhdfs)hdfs.init()执行hdfs.init()后，我得到如下错误:>hdfs.init()Errorin.jnew("org/apache/hadoop/conf/Configuration"):jav

hadoop - HDFS单节点复制

在单独的物理硬盘驱动器上运行具有多个数据目录的单节点HDFS集群(或伪分布式模式)时，是否可以在磁盘故障的情况下进行block复制？我知道单节点安装是非典型的，但仍然想知道。我阅读的所有内容都只涉及节点故障，但我找不到任何关于单节点场景中磁盘故障的信息。注意:我只对这里数据丢失的可能性感兴趣，而不对所谓的“集群”的可用性感兴趣。最佳答案节点故障可能仅由磁盘故障引起，因此每次磁盘故障都会导致节点故障，这意味着如果您只有一个磁盘和一个节点，数据就会丢失。但是如果你在一个节点上有两个磁盘，你可以在该机器上有两个DataNode，每个都

hadoop HDFS section strong stackoverflow

java - HDFS API - 统计目录、文件和字节数

如何在Scala/Java中以编程方式获取HDFS中的DIR_COUNT、FILE_COUNT、CONTENT_SIZEFILE_NAME？(不通过Shell)valfileStatus=fileSystem.getFileStatus(newPath(path))valfileByteSize=fileStatus.getLenFileSystemAPI似乎没有这些信息。我只能得到1个文件的文件大小(上面的代码)。但是我没有得到每个目录的文件数和字节大小。我正在寻找类似的行为:hdfsdfs-count[-q]统计所提供路径下的目录数、文件数和字节数最佳

java HDFS section code FileSystem scala hadoop filesystems

algorithm - gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件。我知道gzip压缩不支持夹板。假设现在该文件是一个gzip压缩文件，其压缩大小为1GB。现在我的问题是:此文件将如何存储在HDFS中(block大小为64MB)从这里link我开始知道gzip格式使用DEFLATE来存储压缩数据，DEFLATE将数据存储为一系列压缩block。但我无法完全理解并寻找广泛的解释。更多来自gzip压缩文件的疑惑:这个1GB的gzip压缩文件将有多少block。它会在多个数据节点上运行吗？如何将复制因子应用于此文件(Hadoop集群复制因子为3。)什么是DEFLATE算法？读取gzip压缩文件时采用了哪种算法？我在这里

algorithm HDFS blockquote block noreferrer hadoop compression gzip

oracle - 异常 : Job Failed with status:3 when copying data from Oracle to HDFS through sqoop2

我正在尝试使用Sqoop2将数据从Oracle11g2服务器复制到HDFS。Oracle的链接似乎有效，因为如果我使用无效的凭据，它会提示。定义如下:linkwithid14andnameOLink(Enabled:true,Createdbyxxxat2/9/162:48PM,Updatedbyxxxat2/11/1610:08AM)UsingConnectorgeneric-jdbc-connectorwithid4LinkconfigurationJDBCDriverClass:oracle.jdbc.driver.OracleDriverJDBCConnectionString

copying through java apache oracle hadoop sqoop2

hadoop - Sparksql saveAsTable 调用错误的 hdfs 端口

我用hadoop2.6.3、spark2.0.0(之前是1.6.1)、hive2.0配置了一个hadoop集群；最近，我更改了hadoop端口规范。一项重大更改是针对core-site.xml中的fs.defaultFS。我从改变了这个属性hdfs://10.104.90.40:9000到hdfs://10.104.90.40:8020之后我重述了hadoop。现在我想用代码编写一个表来使用SparkSql进行配置:df=sqlContext.sql('select*fromvehicle')df.take(1)//thiscanshowthecontentcorrectlydf.wr

saveAsTable Sparksql code section pre hadoop apache-spark apache-spark-sql

hadoop - HDFS HA 可能性

最近，我成功地为HDFS和YARN启用了HA。现在我有一个事件的和备用的名称节点，自动故障转移工作正常。我正在使用ClouderaManager和CDH5。我有以下问题。例如，如果我的事件Namenode崩溃而备用Namenode变为事件状态，是否可以自动设置先前崩溃的Namenode以在它变得健康时将自己提升为事件状态？这样，一开始配置为备用的Namenode在关键情况下就可以简单地作为替代。期待您的回答! 最佳答案查看这篇文章以了解故障转移过程:HowdoesHadoopNamenodefailoverprocessworks

hadoop HDFS Namenode section stackoverflow high-availability cloudera-manager bigdata

hadoop - DC/OS 中机器重启的 HDFS 弹性

我已经在我的10台CoreOS机器(3个主节点，7个代理节点)的DCOS集群上安装了来自universe的HDFS。我的HAHDFS配置有2个名称节点、3个日志节点和5个数据节点。现在，我的问题是。HDFS不应该对机器重启有弹性吗？如果我重新启动安装了数据节点的机器，数据节点将被重建为其他节点的镜像(仅在从DC/OSUI重新启动HDFS服务之后)。在日志节点或名称节点所在的重启的情况下，节点将被标记为丢失并且永远不会重建。最佳答案最终问题是在DC/OS的universeHDFS包的错误版本中发现的。然而，一个全新的DC/OSHD

hadoop HDFS section dcos-community data-services mesos marathon dcos

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

我有一个带有1个主节点和2个节点(工作节点+数据节点)的spark集群。我想添加另一个数据节点。问题是，当我执行hdfsdfs-setrep-R-w2时，结果是:1stdatanode->DFSUsed%:75.61%2nddatanode->DFSUsed%:66.78%3rddatanode->DFSUsed%:8.83%您知道如何平衡hdfs中的block，以便每个block大约为30->33%吗？谢谢最佳答案运行balancer，集群平衡实用程序。这将重新平衡数据节点之间的数据。hdfsbalancer-threshol

hadoop datanode section code apache-spark hdfs

windows - 无法从 IE 中找到凭据导致 HDFS WebUI Kerberos 身份验证失败

我使用kerberos身份验证设置我的HDFS服务，这就是配置:hadoop.http.filter.initializersorg.apache.hadoop.security.AuthenticationFilterInitializerhadoop.http.authentication.typekerberoshadoop.http.authentication.simple.anonymous.allowedfalsehadoop.http.authentication.signature.secret.file/opt/hadoop/hdfs/default/etc/had

凭据 Kerberos property gt lt windows hadoop authentication hdfs

35 36 373839 40 41