草庐IT

hdfs_clusters

全部标签

hadoop 从 hdfs 复制到 S3

我已经在AmazonEMR上成功完成了mahout矢量化工作(使用MahoutonElasticMapReduce作为引用)。现在我想将结果从HDFS复制到S3(以便在未来的集群中使用它)。ForthatI'veusedhadoopdistcp:den@aws:~$elastic-mapreduce--jars3://elasticmapreduce/samples/distcp/distcp.jar\>--arghdfs://my.bucket/prj1/seqfiles\>--args3n://ACCESS_KEY:SECRET_KEY@my.bucket/prj1/seqfile

hadoop - 如何强制 HBase 在 HDFS 上运行?

我在native文件系统上使用HBase并创建了一些表。现在我配置了HDFS并希望HBase使用它。我启动了Namenode和Datanode,但找不到可以告诉HBase使用HDFS的设置。我认为它可能会在重启时获取HDFS,所以我这样做了(stop-hbase+start-hbase),但我仍然能够看到我之前在native文件系统上创建的表。如何让HBase使用HDFS? 最佳答案 在$HBASE_HOME/conf/hbase-site.xml中,hbase.rootdir定义了HBase所在的文件系统/目录。看:http://

hadoop - 在 hdfs 文件上运行 mapreduce 并将 reducer 结果存储在 hbase 表中的示例

有人可以为mapreduce和Hbase提供一个很好的示例链接吗?我的要求是在hdfs文件上运行mapreduce并将reducer输出存储到hbase表。映射器输入将是hdfs文件,输出将是Text,IntWritable键值对。Reducers输出将是Put对象,即添加reducerIterableIntWritable值并存储在hbase表中。 最佳答案 这是解决你问题的代码司机HBaseConfigurationconf=HBaseConfiguration.create();Jobjob=newJob(conf,"JOB_

Hadoop HDFS 和序列文件

我又想到了一个非常基本的概念级别的问题,HDFS和各种文件格式之间有什么区别和关系——序列文件(基于它的映射文件)、HAR文件?我想答案是,HDFS是基础文件系统,我们可以把原始的二进制文件上传到HDFS(不用序列文件,HAR文件等),也可以用一些特殊设计的文件格式来写基于HDFS的文件——如序列文件(基于它的map文件)格式、HAR文件格式。这样理解对吗? 最佳答案 HDFS是一个文件系统,不依赖于任何特定的文件格式。它是一个分布式文件系统,并抽象出关于文件如何实际保存在磁盘上的大部分内部细节(就像NFS/FAT)。它为我们提供了

大数据 - Hadoop系列《三》- HDFS(分布式文件系统)概述

🐶5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。我一共三台linux服务器,每台机器内存60G,所以HDFS文件系统之和为180G🐶5.2为什么要用hdfs:因为随着数据量越来越大,一台机器已经不能满足当前数据的存储,如果使用多台计算机进行存储,虽然解决了数据的存储问题,但是后期的管理和维护成本比较高,因为

java - 重命名 HDFS 上的文件在本地模式下有效,但在集群模式下无效

我有一个对象负责在HDFS上打开一个文件进行写入。一旦close()方法被调用,该对象就会重命名它刚刚写入的文件。该机制在本地模式下运行时有效,但在集群模式下无法重命名文件。//ConstructorpublicWriteStream(){path=String.format("in_progress/file");try{OutputStreamoutputStream=fileSystem.create(newPath(hdfs_path+path),newProgressable(){publicvoidprogress(){System.out.print(".");}});w

hadoop - HDFS - 如何强制复制因子

复制因子过去设置为3,但现在为1。如何强制复制因子到集群?换句话说,启动一个进程来删除现在过度复制的文件block? 最佳答案 如果你允许它自动超时会更好但是如果你想强制新的复制因子快速生效,你可以使用运行平衡器脚本,$HADOOP_HOME/bin/start-balancer.sh这应该重新平衡集群中的block。或者,您可以对现有文件执行此操作,hadoopfs-setrep-R1/,这可能会在/中递归地设置文件的复制级别 关于hadoop-HDFS-如何强制复制因子,我们在Sta

hadoop - 为什么 Hadoop HDFS -rmr 命令超快

在我在HDFS上的一个文件夹中,我有大约37GB的数据hadoopfs-dusmy-folder-name当我执行一个hadoopfs-rmrmy-folder-name命令瞬间执行。然而,在非分布式文件系统上,对于类似大小的目录,rm-rf将花费更长的时间为什么差别这么大?我有一个2节点集群 最佳答案 事实是,当您发出hadoopfs-rmr时,Hadoop将文件移动到HDFS上您的主目录下的.Trash文件夹中。在幕后,我相信这只是名称节点中的一个记录更改,用于移动HDFS上的文件位置。这就是它非常快的原因。

hadoop - HBase/HDFS 部署对 100mbit/s 网络接口(interface)有意义吗?

我猜想100Mbit/s的网络接口(interface)将成为HDFS的瓶颈,并减慢其上的HBase(最大压缩速度约为10MB/s,等等)。这种部署有意义吗?我在想,“现在”当SSD进入游戏时,即使是1Gbit/s的网络接口(interface)仍然可能成为瓶颈,所以也许永远不应该考虑构建一个100Mbit/s的集群(即使是HDD)? 最佳答案 为了保持简短:您应该永远不要在HDFS中使用SSD,这些闪存的写入次数有限。HDFS有很多写入,这主要是因为复制。如果您将HBase用作NoSQL数据库,这将导致更多的写入。正如您所说的硬盘

exception - 索引 7 : hdfs://localhost:9000 with hadoop 处的权限中的非法字符

我正在尝试连接到hdfs。Configurationconfiguration=newConfiguration();configuration.set("fs.default.name",this.hdfsHost);fs=FileSystem.get(configuration);hdfsHost是127.0.0.1:9000。但是在FileSystem.get()中得到这个异常;我有另一个项目运行相同的代码,但运行良好。谁能提出任何建议?非常感谢异常跟踪:Exceptioninthread"main"java.lang.IllegalArgumentExceptionatjava