草庐IT

hadoop基础:通过 Shell 命令访问 HDFS

药门 2024-05-14 原文

文章目录

1.HDFS Shell概述

HDFS Shell 是由一系列类似 Linux Shell 的命令组成的。命令大致可分为操作命令管理命令其他命令三类

1.1操作命令

操作命令是以“hdfs dfs”开头的命令。通过这些命令,用户可以完成 HDFS 文件的复制、删除和查找等操作,Shell 命令的一般格式如下。

hdfs dfs [通用选项]

其中,hdfs 是 Hadoop 系统在 Linux 系统中的主命令;dfs 是子命令,表示执行文件系统操作;通用选项由 HDFS 文件操作命令和操作参数组成。
(1)创建文件夹
命令:hdfs dfs -mkdir [-p] <文件路径>
-p]:表示如果父目录不存在,先创建父目录。
例如,新建文件夹/202012721、/202012721/dir1。命令如下:

hdfs dfs -mkdir /202012721
hdfs dfs -mkdir -p /202012721/dir1

结果为:

(2)列出指定的文件和目录
命令:hdfs dfs -ls [-d][-h][-R] <文件路径>
[-d]:返回 path。
[-h]:h 指“human-readble”,表示按照人性化的单位显示文件大小,比如文件显示为 10MB,
而不会显示 10240KB。
[-R]:级联显示 paths 下的文件。
例如,列出根目录下的文件或目录。命令如下:

hdfs dfs -ls /

结果为:

(3)新建文件
命令:hdfs dfs -touchz <存放路径>
例如,在主目录/202012721/input 下创建大小为 0 的空文件 file。命令如下:

hdfs dfs -touchz /202012721/input.txt
hdfs dfs -ls /202012721

结果为:

(4)上传文件
命令:hdfs dfs -put [-f] [-p] <本地路径> <HDFS上的路径> 或
hdfs dfs -copyFromLocal [-f] [-p] [-l] <本地路径> <HDFS上的路径> 在这里我们只演示第一个命令。例如,在本地创建一个文件 data.txt并传到HDFS的/202012721目录下命令如下:

hdfs dfs -put data.txt /202012721/data.txt

结果为:

(5)将本地文件移动到 HDFS
命令:hdfs dfs -moveFromLocal <本地文件路径> <HDFS路径> 。
与“hdfs dfs -copyFromLocal”命令不同的是,此命令将文件复制到 HDFS 后,本地的文件会被删除。
例如,我们把本地文件data2.txt移动到HDFS的/202012721命令如下:

hdfs dfs -moveFromLocal data2.txt /202012721 

结果为:

(6)下载文件
命令:hdfs dfs -get [-p] <HDFS路径> <本地文件路径> 或 hdfs dfs -copyToLocal [-p] [-ignoreCrc] [-crc] <HDFS路径> <本地文件路径>
例如,将 HDFS 中的/202012721/data.txt 文件下载并保存为本地的 ~/local_data.txt,将/202012721/data2.txt文件下载到本地目录。命令如下。

hdfs dfs -get /202012721/data.txt ~/local_data.txt
hdfs dfs -copyToLocal /202012721/data2.txt ~

(7)查看文件
命令:hdfs dfs -cat/text[-ignoreCrc] <文件路径>
hdfs dfs -tail [-f] <文件路径>
-ignoreCrc:忽略循环检验失败的文件。
-f:动态更新显示数据。
例如,查看/202012721/data.txt。命令如下。

hdfs dfs -cat /202012721/data.txt

结果为

(8)追写文件
命令:hdfs dfs -appendToFile <本地路径> <目标路径>
该命令将 localsrc 指向的本地文件内容写入目标文件 dst。例如,在本地根目录下新建 data3.txt 文件,内容为”hadoop”,追加到文件/202012721/data.txt 中。命令如下。

hdfs dfs -appendToFile data3.txt /202012721/data.txt
hdfs dfs -cat /202012721/data.txt

结果为:

(9)删除目录或者文件
命令:hdfs dfs -rm [-f] [-r] <文件路径>
-f:如果要删除的文件不存在,不显示错误信息。
-r/R:级联删除目录下所有的文件和子目录文件。
例如,删除 HDFS 中的/202012721/data2.txt 文件。命令如下。

hdfs dfs -rm /202012721/data2.txt

结果为:

(10)显示占用的磁盘空间大小
命令:hdfs dfs -du [-s] [-h] <文件路径>
按字节显示指定目录所占空间大小。
-s:显示指定目录下文件总的大小。
-h:h 指“human-readble”,表示按照人性化的单位显示文件大小,比如文件显示为 10MB,而不会显示 10240KB。例如,显示 HDFS 根目录中 202012721 文件夹下所有文件的大小。命令如下:

hdfs dfs -du /202012721

结果为:

(11)HDFS 中的文件复制
命令:hdfs dfs -cp [-f] [-p | -p[topax]] <原路径> <目标路径>
-f:如果目标文件存在,将强行覆盖。
-p:将保存文件的属性。
例如,将 HDFS 中的/202012721/data.txt 复制为/202012721/data_copy.txt。命令如下。

hdfs dfs -cp /202012721/data.txt /202012721/data_copy.txt

结果为:

(12)HDFS 中的文件移动(改名)
命令:hdfs dfs -mv <原路径> <目标路径>
例如,将 HDFS 中的/202012721/data_copy.txt 移动(也可理解为改名)为/202012721/data2.txt。命令如下。

hdfs dfs -mv /202012721/data_copy.txt /202012721/data2.txt

结果为:

管理命令

管理命令是以“hdfs dfsadmin”开头的命令。通过这些命令,用户可以管理 HDFS。管理命令的一般格式如下:

hdfs dfsadmin [通用选项]

其中,hdfs 是 Hadoop 系统在 Linux 系统中的主命令;dfsadmin 是子命令,表示执行文件系统管理的操作;通用选项由 HDFS 管理命令和参数组成。
(1)报告文件系统的基本信息和统计信息
命令如下:

hdfs dfsadmin -report

结果如下:

(2)查看拓扑
命令如下:

hdfs dfsadmin -printTopology

结果如下:

其他命令

我们把操作命令“hdfs dfs”、管理命令“hdfs dfsadmin”之外的命令称为其他命令。输入hdfs查看。

有关hadoop基础:通过 Shell 命令访问 HDFS的更多相关文章

  1. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  2. ruby - 通过 rvm 升级 ruby​​gems 的问题 - 2

    尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub

  3. ruby - 在 Ruby 中编写命令行实用程序 - 2

    我想用ruby​​编写一个小的命令行实用程序并将其作为gem分发。我知道安装后,Guard、Sass和Thor等某些gem可以从命令行自行运行。为了让gem像二进制文件一样可用,我需要在我的gemspec中指定什么。 最佳答案 Gem::Specification.newdo|s|...s.executable='name_of_executable'...endhttp://docs.rubygems.org/read/chapter/20 关于ruby-在Ruby中编写命令行实用程序

  4. ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2

    我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗? 最佳答案 您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话,Rails使用#method_missing作为属性setter,因此您的模块将优先,阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost),那么您的实例方法需要进入一个特殊的模块:classBlah

  5. ruby - 通过 erb 模板输出 ruby​​ 数组 - 2

    我正在使用puppet为ruby​​程序提供一组常量。我需要提供一组主机名,我的程序将对其进行迭代。在我之前使用的bash脚本中,我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby​​不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是,我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这

  6. ruby - 续集在添加关联时访问many_to_many连接表 - 2

    我正在使用Sequel构建一个愿望list系统。我有一个wishlists和itemstable和一个items_wishlists连接表(该名称是续集选择的名称)。items_wishlists表还有一个用于facebookid的额外列(因此我可以存储opengraph操作),这是一个NOTNULL列。我还有Wishlist和Item具有续集many_to_many关联的模型已建立。Wishlist类也有:selectmany_to_many关联的选项设置为select:[:items.*,:items_wishlists__facebook_action_id].有没有一种方法可以

  7. ruby - 通过 ruby​​ 进程共享变量 - 2

    我正在编写一个gem,我必须在其中fork两个启动两个webrick服务器的进程。我想通过基类的类方法启动这个服务器,因为应该只有这两个服务器在运行,而不是多个。在运行时,我想调用这两个服务器上的一些方法来更改变量。我的问题是,我无法通过基类的类方法访问fork的实例变量。此外,我不能在我的基类中使用线程,因为在幕后我正在使用另一个不是线程安全的库。所以我必须将每个服务器派生到它自己的进程。我用类变量试过了,比如@@server。但是当我试图通过基类访问这个变量时,它是nil。我读到在Ruby中不可能在分支之间共享类变量,对吗?那么,还有其他解决办法吗?我考虑过使用单例,但我不确定这是

  8. ruby - 通过 RVM (OSX Mountain Lion) 安装 Ruby 2.0.0-p247 时遇到问题 - 2

    我的最终目标是安装当前版本的RubyonRails。我在OSXMountainLion上运行。到目前为止,这是我的过程:已安装的RVM$\curl-Lhttps://get.rvm.io|bash-sstable检查已知(我假设已批准)安装$rvmlistknown我看到当前的稳定版本可用[ruby-]2.0.0[-p247]输入命令安装$rvminstall2.0.0-p247注意:我也试过这些安装命令$rvminstallruby-2.0.0-p247$rvminstallruby=2.0.0-p247我很快就无处可去了。结果:$rvminstall2.0.0-p247Search

  9. ruby-on-rails - Enumerator.new 如何处理已通过的 block ? - 2

    我在理解Enumerator.new方法的工作原理时遇到了一些困难。假设文档中的示例:fib=Enumerator.newdo|y|a=b=1loopdoy[1,1,2,3,5,8,13,21,34,55]循环中断条件在哪里,它如何知道循环应该迭代多少次(因为它没有任何明确的中断条件并且看起来像无限循环)? 最佳答案 Enumerator使用Fibers在内部。您的示例等效于:require'fiber'fiber=Fiber.newdoa=b=1loopdoFiber.yieldaa,b=b,a+bendend10.times.m

  10. ruby-on-rails - 如何在 ruby​​ 交互式 shell 中有多行? - 2

    这可能是个愚蠢的问题。但是,我是一个新手......你怎么能在交互式ruby​​shell中有多行代码?好像你只能有一条长线。按回车键运行代码。无论如何我可以在不运行代码的情况下跳到下一行吗?再次抱歉,如果这是一个愚蠢的问题。谢谢。 最佳答案 这是一个例子:2.1.2:053>a=1=>12.1.2:054>b=2=>22.1.2:055>a+b=>32.1.2:056>ifa>b#Thecode‘if..."startsthedefinitionoftheconditionalstatement.2.1.2:057?>puts"f

随机推荐