hdfs_clusters_草庐IT

hadoop - HDFS 上的 lsof 命令

我想知道某个文件当前是否正在HDFS上使用或打开。我正在尝试使用以下命令，但它不起作用。有人可以给我正确的命令来执行此操作吗？hadoopfs-lsof/apps/hive/warehouse/db/table/.hive-staging_* 最佳答案没有这样的命令(参见listofavailablecommands)，但您可以使用hdfsfsck检查HDFS中的不一致性。与选项-openforwrite一起列出卡在OPENFORWRITE状态的文件hdfsfsck-files-blocks-locations-openforwr

hadoop - 如何将大型 xml 文件解压缩到一个 HDFS 目录中

我需要从HDFS目录加载Zip文件，将其解压缩并在包含所有解压缩文件的单个目录中写回HDFS。这些文件是XML，大小以GB为单位。首先，我通过编写自定义InputFormat和自定义RecordReader来实现Map-Reduce程序来解压缩文件并将这些内容提供给映射器，此后每个映射器处理并使用MultiOutput格式写入HDFS。在YARN上运行的mapreduce作业。当输入大小为MB时，这种方法工作正常并且能够在HDFS中获取解压缩格式的文件，但当输入大小为GB时，作业无法写入并以以下错误结束。17/06/1603:49:44INFO mapreduce.Job: map9

hadoop - HDFS 和小文件 - 第 2 部分

这是引用问题:SmallfilesandHDFSblocks答案引用了Hadoop:权威指南:Unlikeafilesystemforasingledisk,afileinHDFSthatissmallerthanasingleblockdoesnotoccupyafullblock’sworthofunderlyingstorage.我完全同意这一点，因为根据我的理解，block只是名称节点映射整个集群中哪个文件所在位置的一种方式。由于HDFS是我们常规文件系统的抽象，如果block大小为128MB，140MB不可能占用HDFS上的256MB空间，或者换句话说，block中的剩余空间

从本地桌面使用 sparklyr 读取存储在 hdfs 上的 csv 文件

我们正在尝试使用sparklyr中可用的spark_read_csv函数加载存储在HDFS中的csv文件。R代码在windows桌面上运行，并配置为以yarn-client模式连接到远程yarn集群，提交和执行作业。使用的spark版本是1.6.0。我们已将com.databricks_spark-csv_2.10-1.0.3.jar和org.apache.commons_commons-csv-1.1.jar包含到spark类路径中，因为spark1.6.0不支持CSV。问题:当我们调用spark_read_csv(sc=sc,path="/user/xyz/adv.csv",nam

hadoop - HDFS/tmp 文件系统正在快速填满，预计会导致中断

在我们的Hadoop集群(Cloudera发行版)中，我们最近发现HiveJob是由用户在“/tmp”位置创建160TB的文件启动的，它几乎耗尽了剩余的HDFS空间并即将导致中断。后来我们排除故障并终止特定作业，因为我们无法联系到启动该作业的用户。所以现在我的问题是，如果有人创建了大文件或者我们需要限制使用HDFA配额的用户，我们能否为“/tmp”位置设置警报。如果您有任何其他建议，请分享。最佳答案您可以使用以下一组命令设置和管理目录的配额hdfsdfsadmin-setQuota...hdfsdfsadmin-clrQuota

hadoop - 为什么我应该避免在 Hadoop HDFS 中存储大量小文件？

我读到很多小文件存储在HDFS中可能是个问题，因为很多小文件意味着很多对象HadoopNameNode内存。然而，由于每个block都作为对象存储在命名节点中，对于大文件有何不同？无论您在内存中存储单个文件的1000个block还是1000个文件的1000个block，NameNode内存使用量是否相同？map作业的类似问题。由于它们对block进行操作，因此block是小文件还是大文件有什么关系？最佳答案在高层次上，您可以将HadoopNameNode视为跟踪器，用于跟踪组成存储在HDFS中的"file"的block所在的位置

python - 如何在 hadoop 分布式文件系统 (hdfs) 上执行 python 文件 (.py)

Hadoop提供了使用直接在集群上运行java应用程序的可能性hadoopjar现在我有一个python脚本而不是java应用程序。下面是没有所有功能的.py文件的构造，只剩下“从文件夹中删除文件”部分importos.pathdeftransform():inputfolder="input"forfilenameinos.listdir(inputfolder):path=inputfolder+"\\"+filenameos.remove(path)defmain():transform()if__name__=="__main__":main()有没有一种方法可以像我执行.ja

hadoop - 如何配置 pyspark 默认写入 HDFS？

我正在尝试让spark默认写入HDFS。目前，当我在RDD上调用saveAsTextFile时，它会写入我的本地文件系统。具体来说，如果我这样做:rdd=sc.parallelize([1,2,3,4,5])rdd.saveAsTextFile("/tmp/sample")它将写入我本地文件系统上名为/tmp/sample的文件。但是，如果我这样做rdd=sc.parallelize([1,2,3,4,5])rdd.saveAsTextFile("hdfs://localhost:9000/tmp/sample")然后它会保存到我本地hdfs实例上的适当位置。有没有办法配置或初始化

hadoop - 在 HDFS 上写入 Kafka Streaming 结果

我编写了一个KafkaStreaming应用程序，使用以下代码将结果写入本地文件:source.mapValues(record->finall(record)).mapValues(record->Arrays.deepToString(record)).writeAsText(PATH);尝试在HDFS上保存数据，使用命令:source.mapValues(record->finall(record)).mapValues(record->Arrays.deepToString(record)).writeAsText(hdfs://localhost:54310/output);

hadoop - Oozie 将文件从一个 hdfs 位置复制到另一个

我正在使用ooziefsmove选项将数据从一个hdfs文件夹复制到另一个。但是，如果目标存在，fs命令会按预期将源作为目标目录的子目录。有没有办法避免这种情况，只将avro文件从源复制到目标。最佳答案如果您必须覆盖一个目录，您可以使用-f示例:hdfsdfs-cp-f/sourcepath/Destinationpath您可以在oozie中反射(reflect)相同的方式。如果你只想复制Avro文件，选择avro文件的通用扩展名并使用wildcare，像这样hdfsdfs-cp-fsourcepath/*.avro/Destn