草庐IT

hdfs_rtp

全部标签

hadoop - Cloudera hadoop : not able to run Hadoop fs command and at same time HBase is not able to create directory on HDFS?

我已经启动并运行了6个节点的cloudera5.0beta集群但是我无法使用命令查看hadoopHDFS的文件和文件夹sudo-uhdfshadoopfs-ls/在输出中它显示了linux目录的文件和文件夹。尽管namenodeUI正在显示文件和文件夹。在HDFS上创建文件夹时出现错误sudo-uhdfshadoopfs-mkdir/testmkdir:`/test':Input/outputerror由于此错误,hbase未启动并关闭并出现以下错误:Unhandledexception.Startingshutdown.java.io.IOException:Exceptioninm

hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"

哪种工具最适合测量HDFS空间消耗?当我总结“hdfsdfs-du/”的输出时,与“hdfsdfsadmin-report”(“DFSUsed”行)相比,我总是消耗更少的空间。是否有du没有考虑的数据? 最佳答案 Hadoop文件系统通过将数据副本放置到多个节点来提供重新标记存储。副本数是复制因子,通常大于一。命令hdfsdfs-du/显示空间在没有复制的情况下消耗了您的数据。命令hdfsdfsadmin-report(使用DFS行)显示实际磁盘使用情况,同时考虑了数据复制。所以当从dfs-ud命令获取数字时,它应该大几倍。

scala - 获取 HDFS 中 Parquet 文件的大小,以便在 Scala 中使用 Spark 进行重新分区

我在HDFS上有许多parquet文件目录,每个目录包含几千个小的(大多数使用以下代码,我可以将本地parquet文件重新分区为更少的部分:valpqFile=sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")但我不知道如何通过Scala代码以编程方式获取HDFS上目录的大小,因此我无法计算出要传递给coalesce函数的分区数真实数据集。我该怎么做?或者在Spar

hadoop - 无法创建目录/home/hadoop/hadoopinfra/hdfs/namenode/current

我得到了错误Cannotcreatedirectory/home/hadoop/hadoopinfra/hdfs/namenode/current尝试在本地Mac上安装hadoop时。这可能是什么原因?仅供引用,我将我的xml文件放在下面:mapred-site.xml:mapreduce.framework.nameyarnhdfs-site.xml:dfs.replication1dfs.name.dirfile:///home/hadoop/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop/hadoopinfra/h

hadoop - 以伪分布式hadoop方式管理hdfs

我想在我的四核机器上用hadoop和mahout做一些计算,所以我在伪分布式模式下使用hadoop。问题是我的根驱动器上的空间有限,所以我如何配置它以使用其他外部硬盘驱动器上的可用空间。 最佳答案 您可以配置hdfs存储数据的位置。将以下内容添加到您的conf/hdfs-site.xml中:dfs.data.dir__path_to_where_you_want_to_store_your_data/hdfs/data/dfs.name.dir__path_to_where_you_want_to_store_your_data/h

hadoop - 如何通过浏览器从HDFS读取文件

如何提供HDFS文件的链接,以便单击该url将下载HDFS文件..请提供输入...谢谢MRK 最佳答案 检查HDFSProxyGuide.还有Hoop这是contributed到Cloudera的Hadoop。目前它的目标是0.24版本。但是,可以使用HoopSite中的说明手动构建、安装和配置它。.虽然HDFSProxy仅支持W,但HOOP支持R/W到HDFS。计划用Hoop替换HDFSProxy。虽然上述选项是基于代理的,但另一种选择是在没有代理的情况下直接访问NameNode。浏览文件系统(http://namenode:50

hadoop - HDFS 目录的 "t"权限是什么?

在ClouderaHue中看到的HDFS目录似乎具有以下权限标志:drwxrwxrwxt我知道这是一个目录(d),所有用户都可以在读/写模式下使用(rw),并且所有用户都可以访问child(x)。最后一个标志t是什么意思? 最佳答案 t标志称为粘性位。粘滞位是在目录上设置的权限位,只允许该目录中文件的所有者或root用户删除或重命名文件。没有其他用户具有删除其他用户创建的文件所需的权限。这是一种避免删除关键文件夹及其内容(子目录和文件)的安全措施,尽管其他用户拥有完全权限。 关于hado

hadoop - 使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败

我正在尝试使用EMR中的工作流将文件从s3复制到hdfs,当我运行以下命令时,作业流成功启动但在尝试将文件复制到HDFS时给我一个错误。我需要设置任何输入吗文件权限?命令:./elastic-mapreduce--jobflowj-35D6JOYEDCELA--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar--args'--src,s3://odsh/input/,--dest,hdfs:///Users输出任务TASKID="task_201301310606_0001_r_000000"T

Hadoop HDFS - 缺少副本和复制 block 不足之间的区别

我知道复制不足的block和错误复制的block都是由于相对于复制因子集的数据节点数较少而发生的。但是它们有什么区别呢?在可用数据节点为1的情况下将复制因子重新设置为1,复制不足的block和丢失的副本错误都被清除。通过执行命令hdfsfsck/确保这一点 最佳答案 摘自TomWhite的“Hadoop:权威指南”:Over-replicatedblocksTheseareblocksthatexceedtheirtargetreplicationforthefiletheybelongto.Normally,over-replic

java.lang.IllegalArgumentException : Wrong FS: , 预期:hdfs://localhost:9000

我正在尝试实现reducesidejoin,并使用mapfilereader查找分布式缓存,但在stderr中检查时它没有查找值,它显示以下错误,lookupfile文件已经存在于hdfs中,并且似乎如标准输出所示正确加载到缓存中。java.lang.IllegalArgumentException:WrongFS:file:/app/hadoop/tmp/mapred/local/taskTracker/distcache/-8118663285704962921_-1196516983_170706299/localhost/input/delivery_status/Delive