hdfs_rtp

hadoop - 在 hdfs 文件系统中创建文件的标准方法是什么？

我了解到我必须在hdfs-site.xml中配置NameNode和DataNode目录。这就是我在NameNode上的hdfs-site.xml配置:dfs.replication3dfs.namenode.name.dirfile://usr/local/hadoop-2.6.0/hadoop_data/hdfs/namenodedfs.block.size134217728我在我的DataNode上做了几乎相同的事情，并将dfs.namenode更改为dfs.datanode。然后我通过格式化文件系统hadoopnamenode-format一切似乎都没有错误地完成了。然后我想使用

建文中创 code section gt hadoop hdfs

R 没有连接到 HDFS

为什么R没有连接到Hadoop？我正在使用R通过“rhdfs”包连接到HDFS。安装“rJava”包并加载rhdfs包。HADOOP_CMD环境变量在R中使用:Sys.setenv(HADOOP_CMD='/usr/local/hadoop/bin')但是当给出hdfs.init()函数时，会产生如下错误信息:sh:1:/usr/local/hadoop/bin:PermissiondeniedErrorin.jnew("org/apache/hadoop/conf/Configuration"):java.lang.ClassNotFoundExceptionInaddition:W

HDFS 没有 hadoop section code r mapreduce java-6 rhadoop

java - YARN 上 Spark 提交和 Flink 的 HDFS 路径

我使用clouderalivevm，我有一个hadoop和spral独立集群。现在我想用sparksubmit和flinkrun脚本提交我的工作。这也有效。但我的应用程序可以在hdfs中找到输入和输出文件的路径。我设置的路径如下:hdfs://127.0.0.1:50010/user/cloudera/outputs我从这个端口得到的信息:如何在java中设置hdfs的路径？？最好的问候，保罗最佳答案您不必设置DataNode主机的路径。在“概述”页面上，您将看到NameNode的连接信息，这也是您必须连接到的地方。

Spark Flink section 中设 stackoverflow java hadoop apache-spark hdfs apache-flink

python - PySpark 和访问 HDFS

我正在尝试获取已复制到HDFS的文件，但我似乎无法弄清楚如何实际连接。例如，我使用以下命令将文件放在HDFS中:hdfsdfs-put~/spark-1.4.0/XXX/YYYinput哪个工作正常，但现在是从PySpark定位它们的问题。spark的文档指向:https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html我使用的是与hadoop2.6匹配的spark版本，但在上述链接指向的目录中没有看到任何conf文件。我可以直接访问输入文件吗？还是需要使用PySpark进行更多配置？

PySpark python section hadoop spark apache-spark

java - 读取 HDFS 文件拆分

使用HDFS的JavaAPI，可以直接读取一个文件，一次按顺序读取每个block。这是一个simpleexample.我希望能够使用类似HDFS的FileSplits的方式一次block读取文件.最终目标是用多台机器并行读取一个文件，每台机器读取一个block区域。给定HDFS路径，我如何获得FileSplits或block？Map-Reduce和其他处理器不涉及。这是严格的文件系统级操作。最佳答案这就是你如何在HDFS中获取文件的block位置Pathdataset=newPath(fs.getHomeDirectory(),

java HDFS section block datasetFile hadoop distributed-computing

hadoop - hdfs 如何删除过度复制的 block

例如，我使用复制因子2将文件写入HDFS。我正在写入的节点现在拥有文件的所有block。文件所有block的其他副本分散在集群中所有剩余的节点周围。这是默认的HDFS策略。如果我将文件的复制因子降低到1，到底会发生什么？HDFS如何决定从哪些节点删除哪些block？我希望它尝试从文件block数最多的节点中删除block？为什么我要问-如果是这样，那将是有道理的-它会减轻文件的处理。因为如果所有block只有一个副本，并且所有block都位于同一节点上，那么由于数据传输到集群中的其他节点，使用map-reduce处理文件会更加困难。最佳答案

hadoop block section code hdfs replication

hadoop - 为 hdfs namenode 禁用 Web UI

是否有禁用HDFSHTTP命令的配置？在没有Kerberos的情况下，我试图禁用对HDFS中文件的HTTP访问。最佳答案 WebHDFS应该默认被禁用。您可以通过在之间添加以下内容来修改hdfs-site.xml来禁用WebHDFS和标签。dfs.webhdfs.enabledtrueEnableordisablewebhdfs.Defaultstofalse 关于hadoop-为hdfsnamenode禁用WebUI，我们在StackOverflow上找到一个类似的问题：

namenode hadoop section code lt hdfs

hadoop - 混淆 HDFS 'pwd' 等价物

首先，我已经阅读了这篇文章:Isthereanequivalentto`pwd`inhdfs?.它说HDFS中没有这样的“密码”。但是，随着我按照Hadoop:SettingupaSingleNodeCluster的说明进行操作，我在这个命令上失败了:$bin/hdfsdfs-putetc/hadoopinputput:'input':Nosuchfileordirectory很奇怪，我第一次成功执行此命令我按照说明进行操作，但第二次失败。同样奇怪的是，我在我friend的计算机上成功执行此命令，该计算机具有与我相同的系统(Ubuntu14.04)和hadoop版本(2.7.1)。谁能

等价物混淆 hadoop code hdfs

hadoop - hadoop/hdfs 中的默认存储文件格式

我正在设置一个新的hadoop集群(现阶段处于实验阶段)。我希望将其配置为无论何时将文件复制到集群(通过copyFromLocal或使用sqoop等)，hadoop/hdfs都应以parquet文件格式存储数据。我对此是否期待正确？可能吗？我认为在hdfs级别的某处应该有一个配置参数，我可以在其中指定存储数据时使用的格式，但不知何故找不到。想知道我是否遗漏了什么。最佳答案不，你是对的-没有HDFS级别的配置。每次对某些数据进行操作时，您都必须设置存储格式。想象一下如果每个文件都自动转换为Parquet将会造成多大的损失。应用程序

hadoop hdfs section Parquet code compression

hadoop hdfs 目录大小显示为 0

每次我使用hadoopfs-ls/path_to_directory或hadoopfs-ls-h/path_to_directory，结果是这样的drwxr-xr-x-hadoopsupergroup02016-08-0500:22/user/hive-0.13.1/warehouse/t_b_citydrwxr-xr-x-hadoopsupergroup02016-06-1516:28/user/hive-0.13.1/warehouse/t_b_mobile无论有无文件，HDFS内部目录大小始终显示为0。从WebUI浏览会得到与以下相同的结果:drwxr-xr-xhadoopsup

hadoop hdfs strong section

170 171 172173174 175 176