草庐IT

hdfs_clusters

全部标签

authentication - 从远程计算机将文件放在 HDFS 上时如何指定用户名?

我有一个Hadoop集群设置并在一个通用的默认用户名“user1”下工作。我想从不属于hadoop集群的远程机器将文件放入hadoop。我以一种方式在远程机器上配置了hadoop文件,当hadoopdfs-putfile1...从远程机器调用,它将file1放在Hadoop集群上。唯一的问题是我在远程机器上以“user2”身份登录,但没有给我预期的结果。事实上,上面的代码只能在远程机器上执行为:hadoopdfs-putfile1/user/user2/testFolder但是,我真正想要的是能够将文件存储为:hadoopdfs-putfile1/user/user1/testFold

hadoop - 无法使用 Spark 从 HDFS 读取文件

我已经使用clouderamanager安装了clouderaCDH5。我可以轻松做到hadoopfs-ls/input/war-and-peace.txthadoopfs-cat/input/war-and-peace.txt上述命令将在控制台上打印整个txt文件。现在我启动sparkshell并说valtextFile=sc.textFile("hdfs://input/war-and-peace.txt")textFile.count现在我得到一个错误Spark上下文以sc形式提供。scala>valtextFile=sc.textFile("hdfs://input/war-a

hadoop - HDFS 默认将文件存储在本地哪里?

我正在使用单节点集群的默认配置运行hadoop,并且想找到HDFS在本地存储文件的位置。有什么想法吗?谢谢。 最佳答案 您需要在hdfs-default.xml配置文件中查看dfs.data.dir设置。默认设置是:${hadoop.tmp.dir}/dfs/data注意${hadoop.tmp.dir}实际上在core-default.xml中描述here.描述了配置选项here.此设置的说明是:DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks

hadoop - Spark 迭代 HDFS 目录

我在HDFS上有一个目录目录,我想遍历这些目录。有什么简单的方法可以使用SparkContext对象对Spark执行此操作? 最佳答案 您可以使用org.apache.hadoop.fs.FileSystem.具体来说,FileSystem.listFiles([path],true)还有Spark...FileSystem.get(sc.hadoopConfiguration).listFiles(...,true)编辑值得注意的是,获取与Path方案相关联的FileSystem是一个很好的做法。path.getFileSyste

shell - hdfs 权限被拒绝

我是hadoop分布式文件系统的新手,我已经在我的机器上完成了hadoop单节点的完整安装。但是在那之后,当我要将数据上传到hdfs时,它给出了一条错误消息PermissionDenied.来自终端的命令消息:hduser@ubuntu:/usr/local/hadoop$hadoopfs-put/usr/local/input-data//inputput:/usr/local/input-data(Permissiondenied)hduser@ubuntu:/usr/local/hadoop$使用sudo并将hduser添加到sudouser后:hduser@ubuntu:/us

hadoop - HDFS 的默认 Namenode 端口是 50070。但我在某些地方遇到过 8020 或 9000

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题,您可以发表评论,说明问题可能在哪里得到解答。关闭去年。Improvethisquestion当我设置hadoop集群时,我读到namenode在50070上运行,我相应地进行了设置,它运行良好。但在一些书中我遇到过名称节点地址

database - HDFS 中的数据 block 大小,为什么是 64MB?

HDFS/Hadoop的默认数据block大小为64MB。磁盘中的block大小一般为4KB。64MBblock大小是什么意思?->是不是说从磁盘读取的最小单位是64MB?如果是,这样做的好处是什么?->易于连续访问HDFS中的大文件?我们可以使用磁盘的原始4KBblock大小来做同样的事情吗? 最佳答案 Whatdoes64MBblocksizemean?block大小是文件系统可以存储的最小数据单元。如果您存储一个1k或60Mb的文件,它将占用一个block。超过64Mb边界后,您需要第二个block。Ifyes,whatist

hadoop - 如何在不删除源文件的情况下从 HDFS 加载数据到配置单元?

从HDFS加载数据到Hive时,使用LOADDATAINPATH'hdfs_file'INTOTABLEtablename;命令,看起来它正在将hdfs_file移动到hive/warehouse目录。是否有可能(如何?)复制它而不是移动它,以便文件被另一个进程使用。 最佳答案 根据您的问题,我假设您已经在hdfs中拥有数据。因此您不需要LOADDATA,它将文件移动到默认的配置单元位置/user/hive/warehouse。您可以简单地使用external关键字定义表,这会将文件留在原地,但会在配置单元元存储中创建表定义。看这里

hadoop - Hive cluster by vs order by vs sort by

据我了解;sortby仅在reducer中排序orderby在全局范围内排序,但将所有内容都推送到一个reducer中clusterby通过键散列智能地将内容分发到reducer中,并按以下方式排序所以我的问题是clusterby保证全局顺序吗?distributionby将相同的键放入相同的reducer,但是相邻的键呢?我能找到的唯一文档是here从这个例子来看,它似乎是在全局范围内订购的。但从定义来看,我觉得它并不总是这样做。 最佳答案 一个简短的回答:是的,CLUSTERBY保证全局排序,前提是您愿意自己加入多个输出文件。较

hadoop - HDFS可用空间可用命令

是否有一个hdfs命令可以查看hdfs中的可用空间。我们可以通过浏览器在浏览器中的master:hdfsport看到它,但由于某种原因我无法访问它,我需要一些命令。我可以通过命令./bin/hadoopfs-du-h查看磁盘使用情况,但看不到可用空间。提前感谢您的回答。 最佳答案 试试这个:hdfsdfsadmin-report对于旧版本的Hadoop,试试这个:hadoopdfsadmin-report 关于hadoop-HDFS可用空间可用命令,我们在StackOverflow上找到