草庐IT

hdfs_clusters

全部标签

java - 从 HDFS 读取文件时出现 MalformedURLException

我有以下测试程序来从HDFS读取文件。publicclassFileReader{publicstaticfinalStringNAMENODE_IP="172.32.17.209";publicstaticfinalStringFILE_PATH="/notice.html";publicstaticvoidmain(String[]args)throwsMalformedURLException,IOException{Stringurl="hdfs://"+NAMENODE_IP+FILE_PATH;InputStreamis=newURL(url).openStream();I

Hadoop:格式在/mnt/hdfs/1/namenode 中中止

我在ec2上创建了几个ebs文件系统以与hadoop一起使用。我已经在hadoop环境中设置了JAVE_HOME。但是当我去格式化第一卷时,它会中止并显示以下消息[root@hadoop-node01conf]#sudo-uhdfshadoopnamenode-format13/02/0615:33:22INFOnamenode.NameNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingNameNodeSTARTUP_MSG:host=had

hadoop - HBase HDFS 动物园管理员

现在我正在学习HBase。我像这样设置我的HBase集群和Hadoop集群:server1:NamenodeHMasterserver2:datanode1RegionServer1HQuorumPeerServer3:datanode2RegionServer2HQuorumPeerServer4:datanode3RegionServer3HQuorumPeer我有几个关于HBase集群的问题:1:AllRegionServersmustbeintheHadoopClustersoitcanuseHDFStostoredata,eventhoughitwillstoredatain

Hadoop\HDFS : "no such file or directory"

我已经使用本教程在一台机器上安装了Hadoop2.2:http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/一些细节发生了一些变化-例如,我使用了java8、/hadoop根目录等。用户、SSH、配置key-相同。Namenode格式化成功:13/12/2205:42:31INFOcommon.Storage:Storagedirectory/hadoop/tmp/dfs/namehasbeensuccessfullyformatted.13/12/2205:42

hadoop - 如何运行从 hdfs 到 s3 的加密 distcp?

我喜欢将数据从我们的hadoop集群(内部部署)复制到s3。我可以不加密。我还可以运行带有客户端加密的s3cmdput。如何使用客户端加密进行distcp? 最佳答案 最近的Hadoop版本应该可以很好地使用客户端加密进行传输。为了安全并且不成为您设置细节的受害者,我会通过设置如下所示的存储桶策略来确保安全传输,禁止非安全传输。{"Statement":[{"Action":"s3:*","Effect":"Deny","Principal":"*","Resource":"arn:aws:s3:::bucketname/*","C

hadoop - HDFS 表示文件仍处于打开状态,但写入文件的进程已被终止

我是hadoop的新手,过去几个小时我一直在尝试用google搜索这个问题,但我找不到任何有用的东西。我的问题是HDFS说文件仍然是打开的,即使写入它的进程早就死了。这使得无法从文件中读取。我在目录上运行了fsck,它报告一切正常。但是,当我运行“hadoopfsck-fshdfs://hadoop/logs/raw/directory_containing_file-openforwrite”时,我得到了Status:CORRUPTTotalsize:222506775716BTotaldirs:0Totalfiles:630Totalblocks(validated):3642(a

hadoop - 在 Hadoop 中写入 HDFS 中的文件

我一直在寻找一个磁盘密集型Hadoop应用程序来测试Hadoop中的I/O事件,但我找不到任何这样的应用程序来保持磁盘利用率高于50%或实际上保持磁盘繁忙的一些这样的应用程序。我试过randomwriter,但令人惊讶的是它不是磁盘I/O密集型。因此,我编写了一个小程序来在Mapper中创建一个文件并向其中写入一些文本。该应用程序运行良好,但仅在主节点(同时也是名称节点、作业跟踪器和从属节点之一)中利用率高。在其他任务跟踪器中,磁盘利用率为零或可忽略不计。我无法理解为什么磁盘I/O在任务跟踪器中如此低。如果我做错了什么,有人能把我推向正确的方向吗?提前致谢。这是我在WordCount.

java - 尝试写入 HDFS 时出现 InvalidProtocolBufferException

这是我的代码:Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/mapred-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/yarn-site.xml"));FileSystem

hadoop - HDFS 中的最佳 block 大小 - 大块大小会造成伤害吗

我了解HDFS中小文件和小块大小的缺点。我试图了解默认64/128MBblock大小背后的基本原理。拥有较大的block大小(例如2GB)是否有任何缺点。我读到的值大于该值会导致问题,我还没有深入研究其细节)。我看到的block大小太大的问题(请纠正我,可能部分或所有这些问题并不真正存在)-当数据节点出现故障时,复制1Gig文件可能会出现问题-这需要集群传输整个文件。当我们考虑单个文件时,这似乎是一个问题-但如果我们有更小的block大小,比如128MB(我认为这涉及更多开销),我们可能不得不传输很多更小的文件可能会给制图者带来麻烦。大块可能以每个映射器结束,从而减少映射器的可能数量。

hadoop - 如何直接将 mapper-reducer 的输出发送到另一个 mapper-reducer 而无需将输出保存到 hdfs

问题最终得到解决在底部查看我的解决方案最近我正在尝试运行MahoutinAction的第6章(list6.1~6.4)中的推荐系统示例。但是我遇到了一个问题,我已经用谷歌搜索了但找不到解决方案。问题来了:我有一对mapper-reducerpublicfinalclassWikipediaToItemPrefsMapperextendsMapper{privatestaticfinalPatternNUMBERS=Pattern.compile("(\\d+)");@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextco