hdfs_clusters_草庐IT

authentication - 从远程计算机将文件放在 HDFS 上时如何指定用户名？

我有一个Hadoop集群设置并在一个通用的默认用户名“user1”下工作。我想从不属于hadoop集群的远程机器将文件放入hadoop。我以一种方式在远程机器上配置了hadoop文件，当hadoopdfs-putfile1...从远程机器调用，它将file1放在Hadoop集群上。唯一的问题是我在远程机器上以“user2”身份登录，但没有给我预期的结果。事实上，上面的代码只能在远程机器上执行为:hadoopdfs-putfile1/user/user2/testFolder但是，我真正想要的是能够将文件存储为:hadoopdfs-putfile1/user/user1/testFold

上时 authentication hadoop section code authorization hdfs

hadoop - 无法使用 Spark 从 HDFS 读取文件

我已经使用clouderamanager安装了clouderaCDH5。我可以轻松做到hadoopfs-ls/input/war-and-peace.txthadoopfs-cat/input/war-and-peace.txt上述命令将在控制台上打印整个txt文件。现在我启动sparkshell并说valtextFile=sc.textFile("hdfs://input/war-and-peace.txt")textFile.count现在我得到一个错误Spark上下文以sc形式提供。scala>valtextFile=sc.textFile("hdfs://input/war-a

hadoop Spark Client handleConnectionTimeout maxRetries apache-spark cloudera-cdh

hadoop - HDFS 默认将文件存储在本地哪里？

我正在使用单节点集群的默认配置运行hadoop，并且想找到HDFS在本地存储文件的位置。有什么想法吗？谢谢。最佳答案您需要在hdfs-default.xml配置文件中查看dfs.data.dir设置。默认设置是:${hadoop.tmp.dir}/dfs/data注意${hadoop.tmp.dir}实际上在core-default.xml中描述here.描述了配置选项here.此设置的说明是:DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks

hadoop HDFS section strong

hadoop - Spark 迭代 HDFS 目录

我在HDFS上有一个目录目录，我想遍历这些目录。有什么简单的方法可以使用SparkContext对象对Spark执行此操作？最佳答案您可以使用org.apache.hadoop.fs.FileSystem.具体来说，FileSystem.listFiles([path],true)还有Spark...FileSystem.get(sc.hadoopConfiguration).listFiles(...,true)编辑值得注意的是，获取与Path方案相关联的FileSystem是一个很好的做法。path.getFileSyste

hadoop Spark code section FileSystem hdfs apache-spark

shell - hdfs 权限被拒绝

我是hadoop分布式文件系统的新手，我已经在我的机器上完成了hadoop单节点的完整安装。但是在那之后，当我要将数据上传到hdfs时，它给出了一条错误消息PermissionDenied.来自终端的命令消息:hduser@ubuntu:/usr/local/hadoop$hadoopfs-put/usr/local/input-data//inputput:/usr/local/input-data(Permissiondenied)hduser@ubuntu:/usr/local/hadoop$使用sudo并将hduser添加到sudouser后:hduser@ubuntu:/us

shell hdfs hadoop section local security permissions

hadoop - HDFS 的默认 Namenode 端口是 50070。但我在某些地方遇到过 8020 或 9000

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题，您可以发表评论，说明问题可能在哪里得到解答。关闭去年。Improvethisquestion当我设置hadoop集群时，我读到namenode在50070上运行，我相应地进行了设置，它运行良好。但在一些书中我遇到过名称节点地址

Namenode hadoop section class noreferrer hdfs

database - HDFS 中的数据 block 大小，为什么是 64MB？

HDFS/Hadoop的默认数据block大小为64MB。磁盘中的block大小一般为4KB。64MBblock大小是什么意思？->是不是说从磁盘读取的最小单位是64MB？如果是，这样做的好处是什么？->易于连续访问HDFS中的大文件？我们可以使用磁盘的原始4KBblock大小来做同样的事情吗？最佳答案 Whatdoes64MBblocksizemean?block大小是文件系统可以存储的最小数据单元。如果您存储一个1k或60Mb的文件，它将占用一个block。超过64Mb边界后，您需要第二个block。Ifyes,whatist

database block section blockquote hadoop mapreduce hdfs

hadoop - 如何在不删除源文件的情况下从 HDFS 加载数据到配置单元？

从HDFS加载数据到Hive时，使用LOADDATAINPATH'hdfs_file'INTOTABLEtablename;命令，看起来它正在将hdfs_file移动到hive/warehouse目录。是否有可能(如何？)复制它而不是移动它，以便文件被另一个进程使用。最佳答案根据您的问题，我假设您已经在hdfs中拥有数据。因此您不需要LOADDATA，它将文件移动到默认的配置单元位置/user/hive/warehouse。您可以简单地使用external关键字定义表，这会将文件留在原地，但会在配置单元元存储中创建表定义。看这里

配置单何在 code section hadoop hive

hadoop - Hive cluster by vs order by vs sort by

据我了解；sortby仅在reducer中排序orderby在全局范围内排序，但将所有内容都推送到一个reducer中clusterby通过键散列智能地将内容分发到reducer中，并按以下方式排序所以我的问题是clusterby保证全局顺序吗？distributionby将相同的键放入相同的reducer，但是相邻的键呢？我能找到的唯一文档是here从这个例子来看，它似乎是在全局范围内订购的。但从定义来看，我觉得它并不总是这样做。最佳答案一个简短的回答:是的，CLUSTERBY保证全局排序，前提是您愿意自己加入多个输出文件。较

by cluster code reducer section hadoop hql hive

hadoop - HDFS可用空间可用命令

是否有一个hdfs命令可以查看hdfs中的可用空间。我们可以通过浏览器在浏览器中的master:hdfsport看到它，但由于某种原因我无法访问它，我需要一些命令。我可以通过命令./bin/hadoopfs-du-h查看磁盘使用情况，但看不到可用空间。提前感谢您的回答。最佳答案试试这个:hdfsdfsadmin-report对于旧版本的Hadoop，试试这个:hadoopdfsadmin-report 关于hadoop-HDFS可用空间可用命令，我们在StackOverflow上找到

hadoop HDFS section code