hdfs

hadoop - spark + hadoop 数据本地化

我得到了一个文件名的RDD，所以是一个RDD[String]。我通过并行化文件名列表(hdfs中的文件)来获得它。现在我映射这个rdd，我的代码使用FileSystem.open(path)打开一个hadoop流。然后我处理它。当我运行我的任务时，我使用sparkUI/Stages，我看到所有任务的“LocalityLevel”=“PROCESS_LOCAL”。我认为spark不可能以我运行任务的方式(在4个数据节点的集群上)实现数据局部性，这怎么可能？最佳答案 WhenFileSystem.open(path)getsexecu

hadoop - 如何将 Kafka 主题加载到 HDFS？

我正在使用hortonworks沙箱。创建主题:./kafka-topics.sh--create--zookeeper10.25.3.207:2181--replication-factor1--partitions1--topiclognew跟踪apache访问日志目录:tail-f/var/log/httpd/access_log|./kafka-console-producer.sh--broker-list10.25.3.207:6667--topiclognew在另一个终端(kafkabin)启动消费者:./kafka-console-consumer.sh--zookee

hadoop Kafka data strong section apache-kafka

hadoop - java.io.IOException : Incompatible clusterIDs 异常

我正在安装Hadoop2.7.2(1个主NN-1第二个NN-3数据节点)并且无法启动数据节点!!!在大声喊出日志(见下文)之后，fatalerror是由于ClusterID不匹配造成的……很简单!只需更改ID。错误...当我在NameNode和DataNode上检查我的VERSION文件时，它们是相同的..所以问题很简单:INTO日志文件-->NameNode的ClusterID来自哪里？？？？日志文件:WARNorg.apache.hadoop.hdfs.server.common.Storage:java.io.IOException:IncompatibleclusterIDsi

Incompatible IOException strong datanode hadoop hdfs

hadoop - Hadoop -getmerge 是如何工作的？

hadoop中的getmerge说明Usage:hdfsdfs-getmergesrclocaldst[addnl]我的问题是，为什么getmerge连接到本地目标而不是hdfs本身？之所以问这个问题是因为我有以下问题如果要合并的文件超过本地大小怎么办？将hadoop-getmerge命令限制为仅连接到本地目标背后是否有任何特定原因？最佳答案 getmerge命令专为将HDFS中的文件合并到本地文件系统上的单个文件而创建。此命令对于下载MapReduce作业的输出非常有用，它可以生成多个part-*文件并在本地将它们组合成一个文件

getmerge hadoop code apache hdfs hadoop-yarn hadoop2

hadoop - httpfs error Operation category READ is not supported in state standby 状态备用

我正在使用hadoopapache2.7.1，我有一个由3个节点组成的集群nn1nn2DN1nn1是dfs.default.name，所以它是主名称节点。我已经安装了httpfs并在重新启动所有服务后当然启动了它。当nn1处于事件状态且nn2处于待机状态时，我可以发送此请求http://nn1:14000/webhdfs/v1/aloosh/oula.txt?op=open&user.name=root从我的浏览器中出现打开或保存此文件的对话框，但是当我终止在nn1上运行的名称节点并正常重新启动它时，由于高可用性，nn1变为待机状态并且nn2激活。所以这里httpfs应该可以工作，即使

Operation supported code gt lt hadoop hdfs httpfs

java - 在 Mac OS 中运行 hadoop

我尝试使用brew设置在MacOS中运行Hadoop.下面提供了所采取的步骤，安装hadoop使用命令$brewinstallhadoop文件夹内usr/local/Cellar/hadoop/3.1.0/libexec/etc/hadoop并在文件hadoop-env.sh中添加命令,exportHADOOP_OPTS="$HADOOP_OPTS-Djava.net.preferIPv4Stack=true-Djava.security.krb5.realm=-Djava.security.krb5.kdc="exportJAVA_HOME="/Library/Java/JavaVi

中运 hadoop libexec java hdfs

hadoop - Hadoop 可以分发任务和代码库吗？

我开始尝试使用hadoop(但还没有访问集群的权限，所以只能独立使用)。我的问题是，一旦进入集群设置，任务如何分配以及代码库能否转移到新节点？理想情况下，我想运行大型批处理作业，如果我需要更多容量，则向集群添加新节点，但我不确定是否必须复制在本地运行的相同代码或做一些特殊的事情批处理作业正在运行我可以添加容量。我以为我可以将我的代码库存储在HDFS上，并在每次需要时将其拉到本地运行，但这仍然意味着我需要在服务器上安装某种初始脚本，并且需要先手动运行它。任何关于这是否可能的建议或建议都会很棒!谢谢。最佳答案当您使用hadoopja

分发 hadoop 跟踪器 section 射器 distributed hdfs

java - 用于在 hdfs 中列出目录的主机和端口

首先，我使用HortonWorksSandbox作为Hadoopdist，完全没有自定义配置。一旦连接到沙箱，我就可以列出HDFS目录的文件:[root@sandbox~]#hadoopfs-lshdfs:///user/guest但如果我尝试指定主机和端口，我只会收到错误消息:[root@sandbox~]#hadoopfs-lshdfs://localhost:8020/user/guestls:从sandbox.hortonworks.com/10.0.2.15到localhost:8020的调用在连接异常时失败:java.net.ConnectException:Connexi

java hdfs code sandbox hortonworks hadoop hortonworks-data-platform

list - 如何递归列出 HDFS 的子目录？

我在HDFS中递归地创建了一组目录。如何列出所有目录？对于普通的unix文件系统，我可以使用下面的命令来做到这一点find/path/-typed-print但我想为HDFS获得类似的东西。最佳答案要递归地列出目录内容，可以使用hadoopdfs-lsr/dirname命令。要仅过滤目录，您可以在上述命令的输出中grep"drwx"(因为所有者对目录具有rwx权限)。因此整个命令将如下所示。$hadoopdfs-lsr/sqoopO7|grepdrwx 关于list-如何递归列出HD

子目子目录 section code stackoverflow list hadoop find hdfs

java - 使用 Hadoop 处理大量小文件

我正在使用Hadoop示例程序WordCount来处理大量的小文件/网页(大约2-3kB)。由于这与hadoop文件的最佳文件大小相去甚远，因此该程序非常慢。我想这是因为设置和撕裂工作的成本远远高于工作本身。此类小文件还会导致文件名的namespace耗尽。我读到在这种情况下我应该使用HDFS存档(HAR)，但我不确定如何修改此程序WordCount以从该存档中读取。程序是否可以在不修改的情况下继续工作，或者需要进行一些修改？即使我在存档中打包了很多文件，问题仍然存在，这是否会提高性能。我读到，即使我打包多个文件，一个存档中的这些文件也不会被一个映射器处理，而是被许多映射器处理，在我的

Hadoop java 射器 section mapreduce hdfs

92 93 949596 97 98