草庐IT

hadoop - hdfs mv命令如何工作

coder 2024-01-05 原文

我想知道 hdfs 中的 mv 命令是如何工作的?

  1. 这是否只是一个象征性的变化,没有任何实际的数据移动?

    • 如果 moveTo 目录存在(可能在 diff 分区上)
    • 如果moveTo是一个新目录
  2. 在 hadoop 中移动大文件时是否可能损坏数据?那么 cpdistcp 哪个更安全?

最佳答案

当用户调用hdfs dfs -mv时,HDFS保证重命名操作的原子性。运行此命令时,客户端对 NameNode 进行 RPC 调用。此 RPC 的 NameNode 实现在修改 inode 树时持有锁,并且仅在重命名完成后释放该锁,无论成功或失败。 (它可能会因权限或配额违规等原因而失败。)

由于实现完全在 NameNode 中执行并且仅操作文件系统元数据,因此不涉及实际的数据移动。在 hdfs dfs -mv 命令期间实际上没有与 DataNode 交互。文件的所有 block 都保持不变,与 inode 关联的 block 列表也保持不变。 NameNode 只是简单地从一个地方获取该文件的 inode 并将其移动到文件系统树中的另一个地方。不可能破坏 block 数据。

由于 NameNode 提供了重命名的保证原子实现,因此也不存在元数据损坏的可能性。不可能以“半完成”状态结束,文件在两个地方都存在,或者更糟糕的是,被完全删除。

现在我需要在上面的答案上添加一个细微的变化。大多数时候,在运行 HDFS shell 命令时,通常将 HDFS 作为后备文件系统进行交互。然而,这并不是唯一可能的文件系统实现。 Apache Hadoop 发行版附带了用于 S3 的替代文件系统插件, Azure StorageOpenStack Swift .还有许多供应商创建了自己的文件系统插件。这些替代文件系统是否提供原子重命名语义是那些其他文件系统的实现细节。 S3 和 Swift 插件将重命名实现为先复制后删除,因此它们肯定不提供原子性保证。 Azure 存储插件确实通过使用 Azure 存储 blob 租约为原子重命名提供了一些可选支持,但这不是默认行为。

此外,因此,无法跨不同的文件系统运行 hdfs dfs -mv。您必须为此使用复制命令,然后它将涉及完整的数据副本。以下是当您尝试跨文件系统重命名时会发生的情况。该示例尝试为我的 HDFS 安装中的源文件和本地文件系统上的目标运行 hdfs dfs -mv。命令被拒绝。

> hdfs dfs -mv hdfs:///testData file:///tmp/testData
mv: `hdfs:///testData': Does not match target filesystem

问题的最后一部分询问是否有可能在复制时损坏数据。 Hadoop 将在读取文件时执行校验和验证,因此预计客户端不会看到损坏的数据。 DistCp还可以在后处理步骤中执行源和目标之间的校验和比较。

关于hadoop - hdfs mv命令如何工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34512596/

有关hadoop - hdfs mv命令如何工作的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  4. ruby-on-rails - 由于 "wkhtmltopdf",PDFKIT 显然无法正常工作 - 2

    我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中,我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-

  5. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  6. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  7. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  8. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  9. ruby - 在 Ruby 中编写命令行实用程序 - 2

    我想用ruby​​编写一个小的命令行实用程序并将其作为gem分发。我知道安装后,Guard、Sass和Thor等某些gem可以从命令行自行运行。为了让gem像二进制文件一样可用,我需要在我的gemspec中指定什么。 最佳答案 Gem::Specification.newdo|s|...s.executable='name_of_executable'...endhttp://docs.rubygems.org/read/chapter/20 关于ruby-在Ruby中编写命令行实用程序

  10. ruby - 如何每月在 Heroku 运行一次 Scheduler 插件? - 2

    在选择我想要运行操作的频率时,唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。 最佳答案 这不是一个优雅的解决方案,但您可以安排它每天运行,并在实际开始工作之前检查日期是否为当月的第一天。 关于ruby-如何每月在Heroku运行一次Scheduler插件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/8692687/

随机推荐