草庐IT

hadoop - 递归查找 HDFS 文件夹中的最大文件或子目录

我想递归地查找HDFS文件夹中的最大文件或子目录。有没有什么命令或者脚本可以引用?提前致谢,林 最佳答案 试试这个shell脚本,如果你想找到最大大小的文件:h1out="/path/to/out/file/hadoop-ls-out.txt"a1out="/path/to/out/file/hadoop-awk-out.txt"h1="`hadoopfs-lsr/usr>$h1out`"a1="`awk'{print$5,$8}'$h1out>$a1out`"a2="`awk'BEGIN{first=1;}{if(first){m

python - 获取子目录列表

我知道我可以做到:data=sc.textFile('/hadoop_foo/a')data.count()240data=sc.textFile('/hadoop_foo/*')data.count()168129但是,我想统计“/hadoop_foo/”的每个子目录的数据大小。我可以这样做吗?换句话说,我想要的是这样的:subdirectories=magicFunction()forsubdirinsubdirectories:datasc.textFile(subdir)data.count()我试过:In[9]:[x[0]forxinos.walk("/hadoop_foo/

hadoop - 从 Hadoop 子目录处理数据文件

我希望我的hadoop作业从子目录的叶节点获取数据。因此,数据将始终仅存在于具有.dat扩展名的叶节点中。说明子目录结构:说a->b->1.dat,a->c->2.dat我尝试在HDFS上执行fs-put"a"目录,然后将"a"指定为hadoop作业的输入,但它失败了。然而,如果dat文件在“a”内,上述方法工作正常。任何可能的解决方案? 最佳答案 使用多输入格式,我们可以读取两个不同格式的文件,并将两者合并的结果发送给reducer作业。请查看以下链接。https://github.com/subbu-m/MultipleInpu

logging - Hadoop 作业中的日志记录如何工作?

登录Hadoop作业如何工作?使用SLF4J和Logback,我需要什么样的配置才能在一个地方看到所有日志输出?JobTracker会整理Hadoop作业的STDOUT吗? 最佳答案 每个数据节点上的日志目录包含一个子目录userlogs。这包含最近maptask尝试的子目录。那是针对maptask的每个实例。由于任务尝试在其名称中包含作业ID,因此您可以找出特定作业在何处创建的日志。任务尝试目录包含文件:标准错误标准输出系统日志这些包含各自的输出。您可以通过从列出的作业导航到其任务、单击任务并选择其输出来从JobTrackerWe

unix - hadoop命令从hadoop中的目录获取最新的子目录名称

如何在hadoop的目录中找到最新创建的子目录?例如在hadoop中,如果我有一个名为mgm的目录,它有2个子目录1和2,如下所示:/user/mgm/1/user/mgm/2我想知道1或2中哪一个是先创建的。hadoopfs-ls-t/user/mgm/|head-1对我不起作用。它说“非法选项-t” 最佳答案 hdfsdfs-ls的-t选项是针对ApacheHadoop2.8.0的新功能,目前尚未发布。这在JIRA问题HADOOP-8934中进行了跟踪.我不确定为什么该选项在ls中可见已有文档。与此同时,另一种选择是使用hdfs

hadoop - 如何在 impala 中启用递归读取

我需要从Imapala查询小时mapreduce批处理结果outputdirectorystructurewillbe/data/access/web1/2015/Jan/day1/09/part-r-00000/data/access/web1/2015/Jan/day1/09/part-r-00001.../data/access/web1/2015/Jan/day1/20/part-r-00000/data/access/web1/2015/Jan/day1/20/part-r-00001.../data/access/web1/2015/Jan/day2/01/part-r-0

batch-file - Apache Spark : batch processing of files

我在HDFS上设置了目录和子目录,我想在将所有文件一次加载到内存中之前预处理所有文件。我基本上有大文件(1MB),一旦处理将更像1KB,然后执行sc.wholeTextFiles开始我的分析我如何在我的目录/子目录中的每个文件(*.xml)上循环,执行一个操作(假设为了示例的缘故,保留第一行),然后转储结果回到HDFS(新文件,比如.xmlr)? 最佳答案 我建议您只使用sc.wholeTextFiles并使用转换对其进行预处理,然后将它们全部保存为单个压缩序列文件(您可以引用我的指南:http://0x0fff.com/spark

list - 如何递归列出 HDFS 的子目录?

我在HDFS中递归地创建了一组目录。如何列出所有目录?对于普通的unix文件系统,我可以使用下面的命令来做到这一点find/path/-typed-print但我想为HDFS获得类似的东西。 最佳答案 要递归地列出目录内容,可以使用hadoopdfs-lsr/dirname命令。要仅过滤目录,您可以在上述命令的输出中grep"drwx"(因为所有者对目录具有rwx权限)。因此整个命令将如下所示。$hadoopdfs-lsr/sqoopO7|grepdrwx 关于list-如何递归列出HD

hadoop - Hive 是否可以在不分区或不编辑 hive-site.xml 的情况下递归下降到子目录?

我有一些Web服务器日志,我想用Hive查询。HDFS中的目录结构如下所示:/data/access/web1/2014/09/data/access/web1/2014/09/access-20140901.log[...etc...]/data/access/web1/2014/10/data/access/web1/2014/10/access-20141001.log[...etc...]/data/access/web2/2014/09/data/access/web2/2014/09/access-20140901.log[...etc...]/data/access/we

hadoop - Hive:使用具有多个目录的多文件创建表

我想创建一个Hive表,其中输入文本文件遍历到hdfs中的多个子目录。所以我在hdfs中的例子:/testdata/user/Jan/part-0001/testdata/user/Feb/part-0001/testdata/user/Mar/part-0001andsoon...如果我想在hive中创建一个表user,但是可以遍历user的子目录,可以吗?我尝试过类似的方法,但不起作用;CREATEEXTERNALTABLEusers(idint,namestring)STOREDASTEXTFILELOCATION'/testdata/user/*'我认为添加通配符会起作用,但不