hdfs-audit_草庐IT

hadoop - 配置单元 : How to execute a query from a file and dump the output in hdfs

我可以从sql文件执行查询并将输出存储在本地文件中使用hive-f/home/Prashasti/test.sql>/home/Prashasti/output.csv此外，我可以使用以下方法将配置单元查询的输出存储在hdfs中:insertoverwritedirectory'user/output'select*fromfolders;有什么方法可以从sql文件运行查询并将输出也存储在hdfs中吗？最佳答案只需要修改sql文件，将insertoverwritedirectory'user/output'添加到查询的前面。

hadoop - HDFS 容量 : how to read "dfsadmin report"

我正在使用Hadoop2.6.0。当我运行“hdfsdfsadmin-report”时，我得到了这样的东西(简化):ConfiguredCapacity:3TBPresentCapacity:400GBDFSRemaining:300GBDFSUsed:100GB我想知道“配置容量”是什么，“当前容量”是什么。看起来“PresentCapacity”是有效的。我怎样才能增加这个？最佳答案配置容量是用于数据目录的磁盘/卷的总可用容量。例如:我在/Hadoop/sdb1、/Hadoop/sdc1、/Hadoop/sdd1上安装了三个

amp dfsadmin Hadoop section code cloudera-cdh

datetime - hdfs 文件时间戳

我想获取hdfs上文件的最后修改时间。我检查了HDFSshell指南，但没有得到任何可用的相关命令。Hadoop版本为2.4.0。谁能建议我如何获取hdfs文件的last_modification时间？提前致谢最佳答案您可以从hadoopls命令检索时间戳并使用awk解析它。文件/目录时间戳有模式。对于文件，它是permissionsnumber_of_replicasuseridgroupidfilesizemodification_datemodification_timefilename它是目录permissionsuse

datetime hdfs section hadoop modification

hadoop - Spark 工作负载是否需要 HDFS？

HDFS不是必需的，但建议出现在某些地方。为了帮助评估让HDFS运行所花费的努力:将HDFS用于Spark工作负载有哪些好处？最佳答案 Spark是分布式处理引擎，HDFS是分布式存储系统。如果HDFS不是一个选项，那么Spark必须使用ApacheCassandra或AmazonS3形式的其他替代方案。看看这个comparisionS3–非紧急批处理作业。当数据局部性不重要时，S3适合非常具体的用例。Cassandra–非常适合流数据分析和批处理作业。HDFS–非常适合批处理作业，不会影响数据局部性。什么时候使用HDFS作为Sp

hadoop Spark strong section HDFS apache-spark mesos mesosphere

hadoop - 在 HDFS 中遇到大量文件时，实际理想的 NameNode 内存大小是多少

我的HDFS集群中将有2亿个文件，我们知道每个文件将在NameNode内存中占用150个字节，加上3个block，因此在NN中总共有600个字节。所以我将我的NN内存设置为250GB以很好地处理2亿个文件。我的问题是250GB这么大的内存，会不会对GC造成太大的压力？为NN创建250GB内存是否可行。Cansomeonejustsaysomething,whynobodyanswer?? 最佳答案理想的名称节点内存大小约为数据元使用的总空间+操作系统+守护进程的大小以及处理相关数据的20-30%空间。您还应该考虑数据进入集群的速率

NameNode hadoop section noreferrer noopener hdfs

hadoop - 如何使用oozie检查文件是否存在于HDFS位置？

如何使用Oozie检查HDFS位置的文件是否存在？在我的HDFS位置，我会在每天晚上11点得到一个像这样的文件test_08_01_2016.csv。我想在晚上11点15分之后检查这个文件是否存在。我可以使用Oozie协调器作业安排批处理。但是我如何验证该文件是否存在于HDFS中？最佳答案您可以在oozie中使用EL表达式，例如:${fs:exists('/path/test_08_01_2016.csv')}您还可以使用简单的shell脚本使用捕获输出来构建文件的名称。关于had

hadoop oozie section lt gt hadoop2 cloudera-cdh oozie-coordinator

bash - 如果目录不存在，使用 bash 在 HDFS 中创建目录

我想测试一个目录是否存在于Hadoop分布式文件系统(HDFS)中。如果目录不存在，我想创建该目录，否则不执行任何操作。当我修改http://jugnu-life.blogspot.com/2012/10/hadoop-fs-test-example.html处的代码时:#!/bin/bashdirectory=/raw/tool/ifhadoopfs-test–d$directory;thenecho"Directoryexists"elsehadoopfs-mkdir$directoryecho"Creatingdirectory"fi我得到错误:-test:Toomanyargu

bash HDFS section hadoop directory mapreduce

hadoop - Spark 在 hdfs 中只读

我已经使用HDFS设置了一个Spark集群配置，我知道在HDFS示例中Sparkall将读取默认文件路径:/ad-cpc/2014-11-28/Sparkwillreadin:hdfs://hmaster155:9000/ad-cpc/2014-11-28/有时我想知道如何在不重新配置我的集群(不使用hdfs)的情况下强制Spark在本地读取文件。请帮帮我!!! 最佳答案可以从Spark引用本地文件系统，前缀为file:///Eg:sparkContext.textFile("file:///>")此命令从本地文件系统读取文件。注

hadoop Spark section strong apache-spark distributed-computing

hadoop - 合并 HDFS 上的压缩文件

如何将HDFS目录中的所有文件合并到一个压缩文件中，无需通过本地计算机复制数据？例如，但不一定，使用Pig？例如，我有一个文件夹/data/input，其中包含文件part-m-00000.gz和part-m-00001.gz。现在我想将它们合并成一个文件/data/output/foo.gz 最佳答案我建议查看FileCrush(https://github.com/edwardcapriolo/filecrush)，这是一种使用MapReduce合并HDFS上文件的工具。它完全按照您的描述进行操作，并提供了多个选项来处理压缩和

hadoop HDFS section output files compression apache-pig

hadoop - 是否可以写入远程 HDFS？

如题，是否可以写入远程HDFS？例如我在AWSEC2上安装了一个HDFS集群，我想从我的本地计算机写入一个文件到HDFS集群。最佳答案写入远程HDFS的两种方法，使用可用的WebHDFSapi。它支持在外部运行的系统Hadoop集群访问和操作HDFS内容。它不需要客户端系统安装hadoop二进制文件。将客户端系统配置为Hadoopedgenode以与Hadoop集群/HDFS。请引用，https://hadoop.apache.org/docs/r1.2.1/webhdfs.htmlhttp://www.dummies.com/

hadoop HDFS section