hdfs_clusters

hadoop - Sparksql saveAsTable 调用错误的 hdfs 端口

我用hadoop2.6.3、spark2.0.0(之前是1.6.1)、hive2.0配置了一个hadoop集群；最近，我更改了hadoop端口规范。一项重大更改是针对core-site.xml中的fs.defaultFS。我从改变了这个属性hdfs://10.104.90.40:9000到hdfs://10.104.90.40:8020之后我重述了hadoop。现在我想用代码编写一个表来使用SparkSql进行配置:df=sqlContext.sql('select*fromvehicle')df.take(1)//thiscanshowthecontentcorrectlydf.wr

hadoop - HDFS HA 可能性

最近，我成功地为HDFS和YARN启用了HA。现在我有一个事件的和备用的名称节点，自动故障转移工作正常。我正在使用ClouderaManager和CDH5。我有以下问题。例如，如果我的事件Namenode崩溃而备用Namenode变为事件状态，是否可以自动设置先前崩溃的Namenode以在它变得健康时将自己提升为事件状态？这样，一开始配置为备用的Namenode在关键情况下就可以简单地作为替代。期待您的回答! 最佳答案查看这篇文章以了解故障转移过程:HowdoesHadoopNamenodefailoverprocessworks

hadoop HDFS Namenode section stackoverflow high-availability cloudera-manager bigdata

hadoop - DC/OS 中机器重启的 HDFS 弹性

我已经在我的10台CoreOS机器(3个主节点，7个代理节点)的DCOS集群上安装了来自universe的HDFS。我的HAHDFS配置有2个名称节点、3个日志节点和5个数据节点。现在，我的问题是。HDFS不应该对机器重启有弹性吗？如果我重新启动安装了数据节点的机器，数据节点将被重建为其他节点的镜像(仅在从DC/OSUI重新启动HDFS服务之后)。在日志节点或名称节点所在的重启的情况下，节点将被标记为丢失并且永远不会重建。最佳答案最终问题是在DC/OS的universeHDFS包的错误版本中发现的。然而，一个全新的DC/OSHD

hadoop HDFS section dcos-community data-services mesos marathon dcos

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

我有一个带有1个主节点和2个节点(工作节点+数据节点)的spark集群。我想添加另一个数据节点。问题是，当我执行hdfsdfs-setrep-R-w2时，结果是:1stdatanode->DFSUsed%:75.61%2nddatanode->DFSUsed%:66.78%3rddatanode->DFSUsed%:8.83%您知道如何平衡hdfs中的block，以便每个block大约为30->33%吗？谢谢最佳答案运行balancer，集群平衡实用程序。这将重新平衡数据节点之间的数据。hdfsbalancer-threshol

hadoop datanode section code apache-spark hdfs

windows - 无法从 IE 中找到凭据导致 HDFS WebUI Kerberos 身份验证失败

我使用kerberos身份验证设置我的HDFS服务，这就是配置:hadoop.http.filter.initializersorg.apache.hadoop.security.AuthenticationFilterInitializerhadoop.http.authentication.typekerberoshadoop.http.authentication.simple.anonymous.allowedfalsehadoop.http.authentication.signature.secret.file/opt/hadoop/hdfs/default/etc/had

凭据 Kerberos property gt lt windows hadoop authentication hdfs

linux - 在 Hortonworks Distribution 中归档 HDFS 文件时出现 AWK 使用问题

我正在尝试将HDFS目录中超过3天的文件移动到HDFS中的存档文件夹。AWK脚本:hdfsdfs-lshdfs://companycluster/data/src/purecloud/current|tail-n+2|xargs-n8|awk'{DAY_CONV=(60*60*24);X="date+%s";X|getlineED;printf("")>"X";close("X");Y="date-d\"$6\"+%s";Y|getlineSD;printf("")>"Y";close("Y");DIFF=(ED-SD)/DAY_CONV;print"SD=",SD"ED=",ED,"

时出 Distribution 2017 hdfs companycluster linux bash hadoop awk hortonworks-data-platform

hadoop - 写HDFS的flume agent在哪里运行？

我有25-20个代理将数据发送给几个收集器代理，然后这些收集器代理必须将数据写入HDFS。在哪里运行这些收集器代理？在Hadoop集群的Data节点上还是集群外？它们各自的优缺点是什么？人们目前是如何运行它们的？最佳答案第2层水槽代理使用hdfsSink直接写入HDFS。更重要的是，Tier1可以使用failoversinkgroup。如果第2层水槽代理之一出现故障。关于hadoop-写HDFS的flumeagent在哪里运行？，我们在StackOverflow上找到一个类似的问题

hadoop flume 收集器 section strong flume-ng

hadoop - 如何复制到 HDFS 文件并仍然保留权限？

我创建了一个具有特定所有者和权限的零字节文件，权限为600-rw-------3clouderahdfs562014-04-0118:47Data/input/test.datcloudera:/home/cloudera当我尝试通过api运行副本时，我看到它将权限从600翻转为644。如何保留权限？任何帮助将不胜感激。复制前***>hadoopfs-lsData/input/Found1items-rw-------3clouderacloudera102014-04-0119:54Data/input/test.dat复制后***>hadoopfs-lsData/input/Fou

仍然 hadoop cloudera section hdfs

hadoop - 写入路径 HDFS

简介对thisquestion的后续问题.一个文件已经被提供给HDFS并且随后被复制到三个DataNodes。如果要再次提供同一个文件，HDFS会提示该文件已经存在。基于thisanswer一个文件将被分成64MB的block(取决于配置设置)。文件名和block的映射将在NameNode中创建。NameNode知道某个文件的block位于哪个DataNodes中。如果再次提供相同的文件，NameNode知道该文件的block存在于HDFS上，并将指示该文件已经存在。如果文件的内容被更改并再次提供，NameNode是否会更新现有文件，或者检查是否仅限于将文件名映射到block，尤其是文

hadoop HDFS code block the

java - 从 HDFS 读取数据 - 我的程序找不到路径

我正在尝试从HDFS读取文件的内容。我的代码如下-packagegen;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassReadFromHDFS{publicstaticvoidmain(String[]args)th

java HDFS section code BufferedReader hadoop file-io

39 40 414243 44 45