hdfs_clusters

hadoop - 从 HDFS 中删除文件不会释放磁盘空间

将我们的小型ClouderaHadoop集群升级到CDH5后，删除文件不再释放可用存储空间。即使我们删除的数据多于添加的数据，文件系统仍会填满。集群设置我们在物理专用硬件上运行一个四节点集群，总存储容量约为110TB。4月3日，我们将CDH软件从5.0.0-beta2版本升级到5.0.0-1版本。我们以前以大约700GB/天的速率将日志数据以纯文本格式存储在hdfs上。4月1日，我们改为将数据导入为.gz文件，这将每日摄取率降低至约130GB。由于我们只想保留一定期限内的数据，因此每晚都有一个任务来删除过时的文件。这个结果以前在hdfs容量监控图中可以清晰可见，现在已经看不到了。由于我

Hadoop HDFS 最大文件大小

我的一位同事认为HDFS没有最大文件大小，即通过划分为128/256兆block可以存储任何文件大小(显然HDFS磁盘有大小并且会限制，但这是唯一的限制)。我找不到任何说有限制的说法，那么她是对的吗？谢谢，吉姆最佳答案显然有一个实际限制。但物理上HDFSblockID是Javalongs因此它们的最大值为2^63，如果您的block大小为64MB，则最大大小为512yottabytes。关于HadoopHDFS最大文件大小，我们在StackOverflow上找到一个类似的问题：

Hadoop HDFS section stackoverflow

node.js - 我应该使用哪个 nodejs 库来写入 HDFS？

我有一个nodejs应用程序，我想将数据写入hadoopHDFS文件系统。我见过两个主要的nodejs库可以做到这一点:node-hdfs和node-webhdfs。有人试过吗？有什么提示吗？我应该在生产中使用哪一个？我倾向于使用node-webhdfs，因为它使用WebHDFSRESTAPI。node-hdfs似乎是一个c++绑定(bind)。任何帮助将不胜感激。最佳答案您可能想查看webhdfs图书馆。它为WebHDFSRESTAPI调用提供了漂亮而直接的(类似于fs模块API)接口(interface)。写入远程文件:va

nodejs node remoteFileStream section 39 node.js hadoop hdfs webhdfs

apache - 可以在没有 HDFS 的情况下使用 Apache YARN 吗？

我想使用ApacheYARN作为集群和资源管理器来运行一个框架，在这个框架中资源将在同一框架的不同任务之间共享。我想使用我自己的分布式堆外文件系统。是否可以将任何其他分布式文件系统与YARN一起使用除了HDFS？如果是，需要实现哪些HDFSAPI？运行YARN需要哪些Hadoop组件？最佳答案这里有一些不同的问题您可以使用YARN部署应用程序，使用类似S3的东西来传播二进制文件吗？是的:LinkedIn过去就是这样部署Samza的，使用http://下载。Samza不需要集群文件系统，因此集群中没有运行hdfs，只有本地file

apache section 替代品的 hadoop hadoop-yarn hadoop2

scala - 如何使用 Scala 写入 HDFS

我正在学习Scala，我需要将自定义文件写入HDFS。我在笔记本电脑上使用vmwarefusion在Cloudera镜像上运行了自己的HDFS。这是我的实际代码:packageorg.glassfish.samplesimportorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importjava.io.PrintWriter;/***@author${user.name}*/objectApp{defmain(args:

scala hadoop FileSystem 34 hdfs

hadoop - 如何检索 Hdfs 文件中的复制因子信息？

我已经为我的文件设置了复制因子，如下所示:hadoopfs-Ddfs.replication=5-copyFromLocalfile.txt/user/xxxx当NameNode重新启动时，它会确保复制不足的block被复制。因此，文件的复制信息被存储(可能在nameNode中)。我怎样才能得到这些信息？最佳答案尝试使用命令hadoopfs-stat%r/path/to/file，它应该打印复制因子。关于hadoop-如何检索Hdfs文件中的复制因子信息？，我们在StackOver

hadoop Hdfs section code replication hadoop2

hadoop - 如何获取 HDFS 目录的配额

我看到有设置配额的命令，但找不到获取配额的命令。有人可以帮忙吗？谢谢最佳答案 hadoopfs-count-q/path/to/directoryQUOTAREMAINING_QUOTASPACE_QUOTAREMAINING_SPACE_QUOTADIR_COUNTFILE_COUNTCONTENT_SIZEFILE_NAMEnoneinf549755813888005277747062870392241846416565944775310hdfs://master:54310/path/to/directory第三列会给你空间

hadoop HDFS section and QUOTA

hadoop - HDFS 中参数 "mapred.min.split.size"的行为

参数“mapred.min.split.size”改变了之前写入文件的block的大小？假设我在开始JOB时传递值为134217728(128MB)的参数“mapred.min.split.size”。关于发生的事情，正确的说法是什么？1-每个MAP处理相当于2个HDFSblock(假设每个block64MB)；2-我的输入文件(以前包含HDFS)将有一个新的分区，以占用HDFS128M中的block；最佳答案 splitsize的计算公式:-max(mapred.min.split.size,min(mapred.max.spl

amp hadoop section block size hdfs

hadoop - 找不到带有 key dfs.encryption.key.provider.uri 的 uri 以在 CDH 5.4 的 HDFS 加密中创建 key 提供程序

CDH版本:CDH5.4.5问题:当使用HadoopCDH5.4中可用的KMS启用HDFS加密时，将文件放入加密区域时出错。步骤:Hadoop的加密步骤如下:创建key[成功][tester@master~]$hadoopkeycreate'TDEHDP'-providerkms://https@10.1.118.1/key_generator/kms-size128tdegrouphasbeensuccessfullycreatedwithoptionsOptions{cipher='AES/CTR/NoPadding',bitLength=128,description='null

中创 key section tester hadoop encryption copy hdfs cloudera-cdh

hadoop - pyspark : how to check if a file exists in hdfs

我想在通过SparkContext加载它们之前检查hdfs中是否存在多个文件。我使用pyspark。我试过os.system("hadoopfs-test-e%s"%path)但是由于我有很多路径要检查，所以作业崩溃了。我还尝试了sc.wholeTextFiles(parent_path)然后按键过滤。但它也崩溃了，因为parent_path包含很多子路径和文件。你可以帮帮我吗？最佳答案正确的说法TristanReid:...(Spark)Itcanreadmanyformats,anditsupportsHadoopglobe

pyspark hadoop section stackoverflow path apache-spark filesystems hdfs

230 231 232233234 235 236