草庐IT

hdfs_rtp

全部标签

hadoop - 在 hdfs 文件系统中创建文件的标准方法是什么?

我了解到我必须在hdfs-site.xml中配置NameNode和DataNode目录。这就是我在NameNode上的hdfs-site.xml配置:dfs.replication3dfs.namenode.name.dirfile://usr/local/hadoop-2.6.0/hadoop_data/hdfs/namenodedfs.block.size134217728我在我的DataNode上做了几乎相同的事情,并将dfs.namenode更改为dfs.datanode。然后我通过格式化文件系统hadoopnamenode-format一切似乎都没有错误地完成了。然后我想使用

R 没有连接到 HDFS

为什么R没有连接到Hadoop?我正在使用R通过“rhdfs”包连接到HDFS。安装“rJava”包并加载rhdfs包。HADOOP_CMD环境变量在R中使用:Sys.setenv(HADOOP_CMD='/usr/local/hadoop/bin')但是当给出hdfs.init()函数时,会产生如下错误信息:sh:1:/usr/local/hadoop/bin:PermissiondeniedErrorin.jnew("org/apache/hadoop/conf/Configuration"):java.lang.ClassNotFoundExceptionInaddition:W

java - YARN 上 Spark 提交和 Flink 的 HDFS 路径

我使用clouderalivevm,我有一个hadoop和spral独立集群。现在我想用sparksubmit和flinkrun脚本提交我的工作。这也有效。但我的应用程序可以在hdfs中找到输入和输出文件的路径。我设置的路径如下:hdfs://127.0.0.1:50010/user/cloudera/outputs我从这个端口得到的信息:如何在java中设置hdfs的路径??最好的问候,保罗 最佳答案 您不必设置DataNode主机的路径。在“概述”页面上,您将看到NameNode的连接信息,这也是您必须连接到的地方。

python - PySpark 和访问 HDFS

我正在尝试获取已复制到HDFS的文件,但我似乎无法弄清楚如何实际连接。例如,我使用以下命令将文件放在HDFS中:hdfsdfs-put~/spark-1.4.0/XXX/YYYinput哪个工作正常,但现在是从PySpark定位它们的问题。spark的文档指向:https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html我使用的是与hadoop2.6匹配的spark版本,但在上述链接指向的目录中没有看到任何conf文件。我可以直接访问输入文件吗?还是需要使用PySpark进行更多配置?

java - 读取 HDFS 文件拆分

使用HDFS的JavaAPI,可以直接读取一个文件,一次按顺序读取每个block。这是一个simpleexample.我希望能够使用类似HDFS的FileSplits的方式一次block读取文件.最终目标是用多台机器并行读取一个文件,每台机器读取一个block区域。给定HDFS路径,我如何获得FileSplits或block?Map-Reduce和其他处理器不涉及。这是严格的文件系统级操作。 最佳答案 这就是你如何在HDFS中获取文件的block位置Pathdataset=newPath(fs.getHomeDirectory(),

hadoop - hdfs 如何删除过度复制的 block

例如,我使用复制因子2将文件写入HDFS。我正在写入的节点现在拥有文件的所有block。文件所有block的其他副本分散在集群中所有剩余的节点周围。这是默认的HDFS策略。如果我将文件的复制因子降低到1,到底会发生什么?HDFS如何决定从哪些节点删除哪些block?我希望它尝试从文件block数最多的节点中删除block?为什么我要问-如果是这样,那将是有道理的-它会减轻文件的处理。因为如果所有block只有一个副本,并且所有block都位于同一节点上,那么由于数据传输到集群中的其他节点,使用map-reduce处理文件会更加困难。 最佳答案

hadoop - 为 hdfs namenode 禁用 Web UI

是否有禁用HDFSHTTP命令的配置?在没有Kerberos的情况下,我试图禁用对HDFS中文件的HTTP访问。 最佳答案 WebHDFS应该默认被禁用。您可以通过在之间添加以下内容来修改hdfs-site.xml来禁用WebHDFS和标签。dfs.webhdfs.enabledtrueEnableordisablewebhdfs.Defaultstofalse 关于hadoop-为hdfsnamenode禁用WebUI,我们在StackOverflow上找到一个类似的问题:

hadoop - 混淆 HDFS 'pwd' 等价物

首先,我已经阅读了这篇文章:Isthereanequivalentto`pwd`inhdfs?.它说HDFS中没有这样的“密码”。但是,随着我按照Hadoop:SettingupaSingleNodeCluster的说明进行操作,我在这个命令上失败了:$bin/hdfsdfs-putetc/hadoopinputput:'input':Nosuchfileordirectory很奇怪,我第一次成功执行此命令我按照说明进行操作,但第二次失败。同样奇怪的是,我在我friend的计算机上成功执行此命令,该计算机具有与我相同的系统(Ubuntu14.04)和hadoop版本(2.7.1)。谁能

hadoop - hadoop/hdfs 中的默认存储文件格式

我正在设置一个新的hadoop集群(现阶段处于实验阶段)。我希望将其配置为无论何时将文件复制到集群(通过copyFromLocal或使用sqoop等),hadoop/hdfs都应以parquet文件格式存储数据。我对此是否期待正确?可能吗?我认为在hdfs级别的某处应该有一个配置参数,我可以在其中指定存储数据时使用的格式,但不知何故找不到。想知道我是否遗漏了什么。 最佳答案 不,你是对的-没有HDFS级别的配置。每次对某些数据进行操作时,您都必须设置存储格式。想象一下如果每个文件都自动转换为Parquet将会造成多大的损失。应用程序

hadoop hdfs 目录大小显示为 0

每次我使用hadoopfs-ls/path_to_directory或hadoopfs-ls-h/path_to_directory,结果是这样的drwxr-xr-x-hadoopsupergroup02016-08-0500:22/user/hive-0.13.1/warehouse/t_b_citydrwxr-xr-x-hadoopsupergroup02016-06-1516:28/user/hive-0.13.1/warehouse/t_b_mobile无论有无文件,HDFS内部目录大小始终显示为0。从WebUI浏览会得到与以下相同的结果:drwxr-xr-xhadoopsup