hdfs-audit

linux - 在 Hortonworks Distribution 中归档 HDFS 文件时出现 AWK 使用问题

我正在尝试将HDFS目录中超过3天的文件移动到HDFS中的存档文件夹。AWK脚本:hdfsdfs-lshdfs://companycluster/data/src/purecloud/current|tail-n+2|xargs-n8|awk'{DAY_CONV=(60*60*24);X="date+%s";X|getlineED;printf("")>"X";close("X");Y="date-d\"$6\"+%s";Y|getlineSD;printf("")>"Y";close("Y");DIFF=(ED-SD)/DAY_CONV;print"SD=",SD"ED=",ED,"

时出 Distribution 2017 hdfs companycluster linux bash hadoop awk hortonworks-data-platform

hadoop - 写HDFS的flume agent在哪里运行？

我有25-20个代理将数据发送给几个收集器代理，然后这些收集器代理必须将数据写入HDFS。在哪里运行这些收集器代理？在Hadoop集群的Data节点上还是集群外？它们各自的优缺点是什么？人们目前是如何运行它们的？最佳答案第2层水槽代理使用hdfsSink直接写入HDFS。更重要的是，Tier1可以使用failoversinkgroup。如果第2层水槽代理之一出现故障。关于hadoop-写HDFS的flumeagent在哪里运行？，我们在StackOverflow上找到一个类似的问题

hadoop flume 收集器 section strong flume-ng

hadoop - 如何复制到 HDFS 文件并仍然保留权限？

我创建了一个具有特定所有者和权限的零字节文件，权限为600-rw-------3clouderahdfs562014-04-0118:47Data/input/test.datcloudera:/home/cloudera当我尝试通过api运行副本时，我看到它将权限从600翻转为644。如何保留权限？任何帮助将不胜感激。复制前***>hadoopfs-lsData/input/Found1items-rw-------3clouderacloudera102014-04-0119:54Data/input/test.dat复制后***>hadoopfs-lsData/input/Fou

仍然 hadoop cloudera section hdfs

hadoop - 写入路径 HDFS

简介对thisquestion的后续问题.一个文件已经被提供给HDFS并且随后被复制到三个DataNodes。如果要再次提供同一个文件，HDFS会提示该文件已经存在。基于thisanswer一个文件将被分成64MB的block(取决于配置设置)。文件名和block的映射将在NameNode中创建。NameNode知道某个文件的block位于哪个DataNodes中。如果再次提供相同的文件，NameNode知道该文件的block存在于HDFS上，并将指示该文件已经存在。如果文件的内容被更改并再次提供，NameNode是否会更新现有文件，或者检查是否仅限于将文件名映射到block，尤其是文

hadoop HDFS code block the

java - 从 HDFS 读取数据 - 我的程序找不到路径

我正在尝试从HDFS读取文件的内容。我的代码如下-packagegen;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassReadFromHDFS{publicstaticvoidmain(String[]args)th

java HDFS section code BufferedReader hadoop file-io

hadoop - 如何将 -text HDFS 命令的输出复制到另一个文件中？

有什么方法可以使用HDFS命令将hdfs文件的文本内容复制到另一个文件系统中:hadoopfs-text/user/dir1/abc.txt我可以使用-cat或任何方法将-text的输出打印到另一个文件吗？:hadoopfs-cat/user/deepak/dir1/abc.txt 最佳答案如documentation中所写您可以使用hadoopfs-cp将文件复制到hdfs中。您可以使用hadoopfs-copyToLocal将文件从hdfs复制到本地文件系统。如果你想将文件从一个hdfs复制到另一个然后使用DistCptool

hadoop HDFS code section sequencefile

hadoop - 什么元数据存储在 HDFS 的数据节点上？

在阅读有关存储在HDFS数据节点上的元数据时。我通过了这些选项，但不确定是全部正确还是部分正确。它存储一个文件，其中包含它存储的block的校验和。它存储用于创建block的hadoop版本和命名空间ID。它存储有关同一命名空间中其他block的信息。正确答案是什么？最佳答案根据权威指南:HDFSblock存储在带有blk_前缀的文件中；它们由正在存储的文件的一部分的原始字节组成。每个block都有一个带有.meta后缀的关联元数据文件。它由带有版本和类型信息的header组成，后跟该block部分的一系列校验和。

hadoop HDFS section block 的

java - 如何将多个文件从 hdfs 上传到单个 s3 文件？

我有一个hadoop作业，可以将许多部分输出到hdfs，例如输出到某个文件夹。例如:/output/s3/2014-09-10/part...最好的方法是什么，使用s3javaapi将这些部分上传到s3中的signle文件例如s3:/jobBucket/output-file-2014-09-10.csv作为一个可能的解决方案，有一个选项可以合并各个部分并将结果写入hdfs单个文件，但这将创建一个双I/O。使用单个reducer也不是选项谢谢，最佳答案尝试使用FileUtil#copyMerge方法，它允许您在两个文件系统之间复

传到 java section hadoop apache amazon-s3

python - 如何比较 hdfs 文件和 unix 文件？

我想比较hdfs文件和unix文件。我知道使用cat命令比较文件的一种方法，因为Hadoop分布式文件系统(HDFS)也提供了cat命令。举个例子:#hdfsdfs-ls-R/demo-rw-r--r--3roothdfs1296172014-10-1712:22/demo/abc.log#ls/tmpxyz.log这里我想比较abc.log和xyz.log。还有更好的方法吗？？最佳答案您可能会使用shell重定向+diff。diff 关于python-如何比较hdfs文件和unix

python hdfs section code linux shell hadoop

hadoop - 是否可以在不(误)使用异常的情况下检查 HDFS 上的文件是否为 SequenceFile？

我想从客户端应用程序的HDFS中读取特定的SequenceFile。我可以使用SequenceFile.Reader来做到这一点，它工作正常。但是是否也可以通过分析抛出的IOException来检查是否一个文件是SequenceFile？最佳答案我翻遍了Hadoop文档、源代码和网络，找到了一个解决方案:SequenceFile以一个四字节的header开头，读取SEQn，其中n是文件的版本(一个正的单字节数字，但绝不会大于6)。因此，对于检查，可以执行以下操作:使用FileSystem.open打开文件作为普通FSDataIn

SequenceFile hadoop code section hdfs

36 37 383940 41 42