hdfs_clusters

java - 从 HDFS 读取文件时出现 MalformedURLException

我有以下测试程序来从HDFS读取文件。publicclassFileReader{publicstaticfinalStringNAMENODE_IP="172.32.17.209";publicstaticfinalStringFILE_PATH="/notice.html";publicstaticvoidmain(String[]args)throwsMalformedURLException,IOException{Stringurl="hdfs://"+NAMENODE_IP+FILE_PATH;InputStreamis=newURL(url).openStream();I

时出 MalformedURLException section String java hadoop

Hadoop:格式在/mnt/hdfs/1/namenode 中中止

我在ec2上创建了几个ebs文件系统以与hadoop一起使用。我已经在hadoop环境中设置了JAVE_HOME。但是当我去格式化第一卷时，它会中止并显示以下消息[root@hadoop-node01conf]#sudo-uhdfshadoopnamenode-format13/02/0615:33:22INFOnamenode.NameNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingNameNodeSTARTUP_MSG:host=had

namenode Hadoop hdfs section

hadoop - HBase HDFS 动物园管理员

现在我正在学习HBase。我像这样设置我的HBase集群和Hadoop集群:server1:NamenodeHMasterserver2:datanode1RegionServer1HQuorumPeerServer3:datanode2RegionServer2HQuorumPeerServer4:datanode3RegionServer3HQuorumPeer我有几个关于HBase集群的问题:1:AllRegionServersmustbeintheHadoopClustersoitcanuseHDFStostoredata,eventhoughitwillstoredatain

动物 hadoop strong HBase RegionServer apache-zookeeper

Hadoop\HDFS : "no such file or directory"

我已经使用本教程在一台机器上安装了Hadoop2.2:http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/一些细节发生了一些变化-例如，我使用了java8、/hadoop根目录等。用户、SSH、配置key-相同。Namenode格式化成功:13/12/2205:42:31INFOcommon.Storage:Storagedirectory/hadoop/tmp/dfs/namehasbeensuccessfullyformatted.13/12/2205:42

amp directory hadoop section INFO hdfs

hadoop - 如何运行从 hdfs 到 s3 的加密 distcp？

我喜欢将数据从我们的hadoop集群(内部部署)复制到s3。我可以不加密。我还可以运行带有客户端加密的s3cmdput。如何使用客户端加密进行distcp？最佳答案最近的Hadoop版本应该可以很好地使用客户端加密进行传输。为了安全并且不成为您设置细节的受害者，我会通过设置如下所示的存储桶策略来确保安全传输，禁止非安全传输。{"Statement":[{"Action":"s3:*","Effect":"Deny","Principal":"*","Resource":"arn:aws:s3:::bucketname/*","C

hadoop distcp 34 section stackoverflow amazon-s3

hadoop - HDFS 表示文件仍处于打开状态，但写入文件的进程已被终止

我是hadoop的新手，过去几个小时我一直在尝试用google搜索这个问题，但我找不到任何有用的东西。我的问题是HDFS说文件仍然是打开的，即使写入它的进程早就死了。这使得无法从文件中读取。我在目录上运行了fsck，它报告一切正常。但是，当我运行“hadoopfsck-fshdfs://hadoop/logs/raw/directory_containing_file-openforwrite”时，我得到了Status:CORRUPTTotalsize:222506775716BTotaldirs:0Totalfiles:630Totalblocks(validated):3642(a

处于 hadoop blocks replicated section hdfs

hadoop - 在 Hadoop 中写入 HDFS 中的文件

我一直在寻找一个磁盘密集型Hadoop应用程序来测试Hadoop中的I/O事件，但我找不到任何这样的应用程序来保持磁盘利用率高于50%或实际上保持磁盘繁忙的一些这样的应用程序。我试过randomwriter，但令人惊讶的是它不是磁盘I/O密集型。因此，我编写了一个小程序来在Mapper中创建一个文件并向其中写入一些文本。该应用程序运行良好，但仅在主节点(同时也是名称节点、作业跟踪器和从属节点之一)中利用率高。在其他任务跟踪器中，磁盘利用率为零或可忽略不计。我无法理解为什么磁盘I/O在任务跟踪器中如此低。如果我做错了什么，有人能把我推向正确的方向吗？提前致谢。这是我在WordCount.

hadoop 跟踪器 section 中创 hdfs word-count

java - 尝试写入 HDFS 时出现 InvalidProtocolBufferException

这是我的代码:Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/mapred-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/yarn-site.xml"));FileSystem

时出 InvalidProtocolBufferException hadoop java apache hdfs protocol-buffers

hadoop - HDFS 中的最佳 block 大小 - 大块大小会造成伤害吗

我了解HDFS中小文件和小块大小的缺点。我试图了解默认64/128MBblock大小背后的基本原理。拥有较大的block大小(例如2GB)是否有任何缺点。我读到的值大于该值会导致问题，我还没有深入研究其细节)。我看到的block大小太大的问题(请纠正我，可能部分或所有这些问题并不真正存在)-当数据节点出现故障时，复制1Gig文件可能会出现问题-这需要集群传输整个文件。当我们考虑单个文件时，这似乎是一个问题-但如果我们有更小的block大小，比如128MB(我认为这涉及更多开销)，我们可能不得不传输很多更小的文件可能会给制图者带来麻烦。大块可能以每个映射器结束，从而减少映射器的可能数量。

大块 hadoop block section 射器 hdfs

hadoop - 如何直接将 mapper-reducer 的输出发送到另一个 mapper-reducer 而无需将输出保存到 hdfs

问题最终得到解决在底部查看我的解决方案最近我正在尝试运行MahoutinAction的第6章(list6.1~6.4)中的推荐系统示例。但是我遇到了一个问题，我已经用谷歌搜索了但找不到解决方案。问题来了:我有一对mapper-reducerpublicfinalclassWikipediaToItemPrefsMapperextendsMapper{privatestaticfinalPatternNUMBERS=Pattern.compile("(\\d+)");@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextco

mapper-reducer reducer VarLongWritable class VectorWritable hadoop mahout

226 227 228229230 231 232