草庐IT

hdfs_clusters

全部标签

hadoop - HDFS 目录的 "t"权限是什么?

在ClouderaHue中看到的HDFS目录似乎具有以下权限标志:drwxrwxrwxt我知道这是一个目录(d),所有用户都可以在读/写模式下使用(rw),并且所有用户都可以访问child(x)。最后一个标志t是什么意思? 最佳答案 t标志称为粘性位。粘滞位是在目录上设置的权限位,只允许该目录中文件的所有者或root用户删除或重命名文件。没有其他用户具有删除其他用户创建的文件所需的权限。这是一种避免删除关键文件夹及其内容(子目录和文件)的安全措施,尽管其他用户拥有完全权限。 关于hado

hadoop - 使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败

我正在尝试使用EMR中的工作流将文件从s3复制到hdfs,当我运行以下命令时,作业流成功启动但在尝试将文件复制到HDFS时给我一个错误。我需要设置任何输入吗文件权限?命令:./elastic-mapreduce--jobflowj-35D6JOYEDCELA--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar--args'--src,s3://odsh/input/,--dest,hdfs:///Users输出任务TASKID="task_201301310606_0001_r_000000"T

Hadoop HDFS - 缺少副本和复制 block 不足之间的区别

我知道复制不足的block和错误复制的block都是由于相对于复制因子集的数据节点数较少而发生的。但是它们有什么区别呢?在可用数据节点为1的情况下将复制因子重新设置为1,复制不足的block和丢失的副本错误都被清除。通过执行命令hdfsfsck/确保这一点 最佳答案 摘自TomWhite的“Hadoop:权威指南”:Over-replicatedblocksTheseareblocksthatexceedtheirtargetreplicationforthefiletheybelongto.Normally,over-replic

java.lang.IllegalArgumentException : Wrong FS: , 预期:hdfs://localhost:9000

我正在尝试实现reducesidejoin,并使用mapfilereader查找分布式缓存,但在stderr中检查时它没有查找值,它显示以下错误,lookupfile文件已经存在于hdfs中,并且似乎如标准输出所示正确加载到缓存中。java.lang.IllegalArgumentException:WrongFS:file:/app/hadoop/tmp/mapred/local/taskTracker/distcache/-8118663285704962921_-1196516983_170706299/localhost/input/delivery_status/Delive

hadoop - hbase 命名空间/表数据存储在 hdfs 上的什么位置?

hbase在哪里存储命名空间/表的数据文件?我找到了这篇文章:HowHbasewriteitsdataandwhere但我需要一个完整的路径位置,只是为了将权限分离到不同的命名空间。在Hive中,文件位于hive_warehouse_path/database/table/partition中,我正在寻找相同的文件,但在Hbase中。你能帮忙吗?问候帕维尔编辑:顺便说一下,我发现了一个关于HBase文件结构的有趣幻灯片:http://www.slideshare.net/enissoz/hbase-and-hdfs-understanding-filesystem-usage

hadoop - hdfs mv命令如何工作

我想知道hdfs中的mv命令是如何工作的?这是否只是一个象征性的变化,没有任何实际的数据移动?如果moveTo目录存在(可能在diff分区上)如果moveTo是一个新目录在hadoop中移动大文件时是否可能损坏数据?那么cp或distcp哪个更安全? 最佳答案 当用户调用hdfsdfs-mv时,HDFS保证重命名操作的原子性。运行此命令时,客户端对NameNode进行RPC调用。此RPC的NameNode实现在修改inode树时持有锁,并且仅在重命名完成后释放该锁,无论成功或失败。(它可能会因权限或配额违规等原因而失败。)由于实现完

R+Hadoop : How to read CSV file from HDFS and execute mapreduce?

在下面的例子中:small.ints=to.dfs(1:1000)mapreduce(input=small.ints,map=function(k,v)cbind(v,v^2))mapreduce函数的数据输入是一个名为small.ints的对象,它引用了HDFS中的block。现在我有一个CSV文件已经存储在HDFS中"hdfs://172.16.1.58:8020/tmp/test_short.csv"如何为它获取一个对象?据我所知(这可能是错误的),如果我想将CSV文件中的数据作为mapreduce的输入,我必须首先在R中生成一个表,其中包含CSV文件中的所有值。我确实有这样的

Hadoop:HDFS 文件写入和读取

我有一个关于HDFS文件读写的基本问题。例如,如果我正在写一个文件,使用默认配置,Hadoop内部必须将每个block写入3个数据节点。我的理解是,对于每个block,首先客户端将block写入管道中的第一个数据节点,然后通知第二个数据节点,依此类推。一旦第三个数据节点成功接收到block,它会向数据节点2提供确认,最后通过数据节点1向客户端提供确认。只有在收到block的确认后,写入才被视为成功,客户端继续进行写下一个block。如果是这种情况,那么写入每个block所花费的时间是不是比传统的文件写入要多,因为-复制因子(默认为3)和写入过程按block顺序进行。如果我理解有误,请指

hadoop - 具有在 HDFS 上查找数据的 Kafka Streams

我正在使用KafkaStreams(v0.10.0.1)编写应用程序,并希望使用查找数据丰富我正在处理的记录。此数据(带时间戳的文件)每天(或每天2-3次)写入HDFS目录。如何在KafkaStreams应用程序中加载它并加入实际的KStream?当新文件到达那里时从HDFS重新读取数据的最佳做法是什么?或者切换到KafkaConnect并将RDBMS表内容写入Kafka主题,所有KafkaStreams应用程序实例都可以使用它会更好吗?更新:正如建议的那样,KafkaConnect将是必经之路。因为查找数据在RDBMS中以每日为基础进行更新,所以我正在考虑按计划运行KafkaConn

hadoop - 如何知道一个新数据被添加到 HDFS?

我正在实现一个基于发布订阅模型的通知系统,以在数据到达/加载到HDFS时通知数据的可用性。我没有找到在哪里寻找这个的方法。是否有任何HDFSAPI可用于执行此操作,或者我应该使用什么方法来获取写入HDFS的新数据的信息?我正在使用Hadoopv2.0.2,我不想使用HCatalog,我想实现我自己的工具来执行此操作。 最佳答案 您正在寻找的是OozieCoordinator。HDFS是一个文件系统,因此必须在HDFS之上构建一些东西来检查文件可用性。HBase有触发过程的协处理器。但它仅适用于HBase表。因此它不能用于检测HDFS