hdfs_rtp

java - 一旦主 NN 出现故障，自动从 Java 应用程序连接到 HDFS 辅助 NN

我有一个简单的Java客户端，可以将文件保存到HDFS-配置了1个名称节点。为此，我使用hadoop配置，指定默认文件系统，如:org.apache.hadoop.conf.Configurationconf=neworg.apache.hadoop.conf.Configuration();conf.set("fs.defaultFS","hdfs://NNip:port");但是，将来我需要连接到配置有1个Activity名称节点和1个备用名称节点的hdfs，以防Activity名称节点出现故障，自动使用备用名称节点。有没有人对如何实现这一目标有任何建议？任何链接/示例将不胜感激，

辅助一旦 section code Configuration java hadoop hdfs namenode

hadoop - 将本地 HDFS 文件系统浏览器与 IntelliJ IDEA 集成

我使用我大学的HDFS集群研究了MapReduce范式，通过HUE访问它。在HUE中，我可以浏览文件、阅读/编辑文件等等。所以在那个集群中我需要:我放置MapReduce.jar的普通文件夹访问HDFS中的结果我非常喜欢编写MapReduce应用程序，所以我已经正确配置了一个本地HDFS作为个人Playground，但现在我只能通过非常浪费时间的命令行(例如those)访问它。我可以通过SFTP远程主机连接的方式“直接”访问我完整的IntelliJIDEA的HDFS，下面是“用户普通文件夹”:这是HUE的HDFS，我从中得到了结果:显然在我的本地机器上，“普通用户文件夹”是我使用she

IntelliJ hadoop noreferrer noopener nofollow intellij-idea filesystems remote-access

hadoop - 浏览 HDFS 的权限被拒绝

我正在学习Hadoop和Spark环境，我成功地安装了这两个环境。但是，当我想进入HDFS管理(localhost:50070/explorer)并且我想点击tmp时，我遇到了这个问题:Permissiondenied:user=dr.who,access=READ_EXECUTE,inode="/tmp":valentin:supergroup:drwx-wx-wx我尝试更改权限:hdfsdfs–chmod–R755/valentin但是我得到:–chmod:Unknowncommand这很奇怪，因为我有:valentin@hadoop:~/hadoop-2.9.0$bin/hdfs

hadoop HDFS code HADOOP_HOME permission-denied

csv - cloudera quick start 使用终端加载 csv 表 hdfs

我对这一切还很陌生，因为我才上第二个学期，我只需要帮助来理解我需要执行的命令。我正在尝试使用终端将本地csv文件加载到cloudera上的hdfs。我必须使用这些数据并与Pig一起完成一项任务。我已经尝试了所有方法，但它仍然给我'nosuchfileordirectory'。我关闭了安全模式，检查了目录，甚至确保可以读取文件。以下是我尝试加载数据的命令:hadoopfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csv/user/roothdfsdfs-copyFromLoca

csv cloudera code copyFromLocal hadoop terminal hdfs

bash - 在 HDFS : How to check if 2 directories have same parent directory

是否有HDFS命令来检查HDFS中的2个目录是否具有共同的父目录。例如:$hadoopfs-ls-R/user/username/data//user/username/data/LIST_1539724717/SUBLIST_1533057294,/user/username/data/LIST_1539724717/SUBLIST_1533873826/UI,/user/username/data/LIST_1539724717/SUBLIST_1533873826/NEWDATA/A,/user/username/data/LIST_1539724717/SUBLIST_1533

directories directory 1539724717 username SUBLIST bash shell hadoop hdfs

hadoop - 是否可以配置clickhouse数据存储为hdfs

目前，clickhouse将数据存储在/var/lib/clickhouse路径，我读过它不支持深度存储。顺便问一下，它在config.xml文件中是否有任何hdfs设置的配置？最佳答案将clickhousedatadir存储到HDFS中，这是一个非常糟糕的主意；)因为HDFS不是posix兼容的文件系统，clickhouse在这个部署变体上会非常慢你可以使用https://github.com/jaykelin/clickhouse-hdfs-loader将数据从HDFS加载到clickhouse，并在不久的将来https:/

clickhouse hadoop https section hdfs

scala - 如何使用 Spark 读取不断更新的 HDFS 目录并根据字符串(行)将输出拆分为多个 HDFS 文件？

详细场景->HDFS目录，其中“提供”了多种类型的银行账户事件的新日志数据。每行代表一个随机事件类型，每行(String)包含文本“ActivityType=”。在Spark-Scala中，读取HDFS目录中的输入文件并输出多个HDFS文件的最佳方法是什么，其中每个ActivityType都写入其自己的新文件？最佳答案改编为声明的第一个答案:Thelocationofthe"key"stringisrandomwithintheparentString,theonlythingthatisguaranteedisthatitco

HDFS scala ActivityType section 34 apache-spark hadoop spark-streaming

apache-spark - 我如何从 Spark 写入 HDFS 以更快地访问该数据？

假设我不是像Hive或HBase这样的工具(Spark无论如何都无法使用Hive索引进行优化)，将数据写入HDFS以便更快地访问该数据的最佳方式是什么。我的想法是保存许多不同的文件，其名称由键标识。假设我们有一个由名字和姓氏识别的人的数据库。也许我可以用名字和姓氏的首字母保存文件。这样，我们将有26x26=676个文件。因此，例如，如果我们想查看AlanWalker的记录，我们只需要加载文件AW.这是做这种事情的好方法还是有更好的方法？最佳答案我相信索引是您所需要的。在HDFS中和在数据库中一样，索引在插入时有一些开销，但查询速

apache-spark apache section strong HDFS hadoop

apache-spark - DCOS 集群上的 Spark 提交失败，出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

UnknownHostException apache-spark java spark hdfs hadoop mesos dcos

Hadoop HDFS : Read/Write parallelism?

在网上找不到足够的信息所以在这里问:假设我正在将一个巨大的文件写入磁盘，数百TB，这是mapreduce(或spark或其他)的结果。mapreduce如何将这样的文件高效地(可能是并行的？)写入HDFS，以便稍后以并行方式读取？我的理解是HDFS只是基于block(例如128MB)。因此，为了写入第二个block，您必须已经写入了第一个block(或者至少确定哪些内容将进入block1)。假设它是一个CSV文件，文件中的一行很可能会跨越两个block——我们如何将这样的CSV读取到mapreduce中的不同映射器？它是否必须执行一些智能逻辑来读取两个block、连接它们并读取正确的行

parallelism Hadoop section block hdfs

114 115 116117118 119 120