草庐IT

hdfs_clusters

全部标签

hadoop - 亚马逊电子病历 : Initializing a cluster with data

我正在使用AmazonEMR,并且能够使用CLI工具创建和运行工作流。作业运行良好。但是,当我尝试将数据从S3和名称节点的本地文件系统加载到我的EMR集群的HDFS时遇到了问题。我想从S3填充HDFS。我正在尝试使用S3DistCp工具执行此操作。我正在运行这个命令:elastic-mapreduce--jobflow$JOBFLOWID--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.0.1/s3distcp.jar--arg--src--arg's3n://my-bucket/src'--arg--dest--arg'hdfs

hadoop - HDFS 名称节点 HA : Why use NFS rather than simply replicate between the two?

看Facebook使用的AvatarNode方案为HDFSNamenode提供HA,不明白为什么要用NFS。让我感到困惑的是,NFS无论如何都必须复制才能实现HA。主节点必须写入NFS并刷新才能获得HA。为什么不简单地在主节点和辅助节点之间打开一个套接字channel,然后对辅助Namenode执行相同的写入。这将是(大约)相同数量的网络流量,并且似乎具有相同的复制语义。那么问题来了,为什么不这样做呢?我想原因之一可能是NFS存在,因此问题可能更容易实现。但是考虑到在主要和次要之间使用原始套接字channel将写入流接口(interface)(即文件)的相同信息写入NFS的(明显的)简

hadoop - 将文件复制到 HDFS 时出错

我尝试在两个节点上安装hadoop。两个节点都已启动并正在运行。namenode在Ubuntu10.10上运行,Datanode在Fedora13上运行。将文件从本地文件系统复制到hdfs时遇到以下错误。终端显示:12/04/1202:19:15INFOhdfs.DFSClient:ExceptionincreateBlockOutputStreamjava.io.OException:BadconnectackwithfirstBadLinkas10.211.87.162:920012/04/1202:19:15INFOhdfs.DFSClient:Abandoningblockbl

hadoop - HBase 表大小比 hadoop hdfs 中的文件大得多

最近用hadoopbulkload把数据放到hbase首先,我调用HDFSAPI向hadoophdfs中的文件写入数据,总共7000,000行数据,大小为503MB。其次,我使用org.apache.hadoop.hbase.mapreduce.ImportTsv和org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles将数据放入hbase。我做的最重要的事情是使用bulkload工具将数据放入hbase,完成bulkload后,我发现hbase表有1.96GB。hdfs复制为1。我不知道为什么。 最佳答

java - 是否可以使用 hadoop 文件系统 API 从 hdfs 一次删除多个文件?

hadoopshell有命令hadoopfs-rm/dir/*。但是我没有从API中找到类似的。 最佳答案 要删除目录中的文件而不删除目录本身或从任何子目录中删除文件(即hadoopfs-rm/dir/*所做的),您可以使用:FileSystemfs=dir.getFileSystem(getConf());RemoteIteratorit=fs.listFiles(dir,false);while(it.hasNext()){fs.delete(it.next().getPath(),false);}

hadoop - 无法在 Mahout 中实例化类型 Cluster、KMean 聚类示例

您好,我试图在Mahout中运行KmeanClusteringExample,但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface),我的理解)。我想在我的样本数据集上运行kmeans,任何人都可以指导我吗?我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar

hadoop - HbaseTestingUtility : could not start my mini-cluster

我正在尝试使用HbaseTestingUtility测试我的Hbase代码。每次我使用下面的代码片段启动我的迷你集群时,我都会遇到异常。publicvoidstartCluster(){FileworkingDirectory=newFile("./");Configurationconf=newConfiguration();System.setProperty("test.build.data",workingDirectory.getAbsolutePath());conf.set("test.build.data",newFile(workingDirectory,"zooke

hadoop - 在单节点集群上运行 Hadoop 时 HDFS 是如何工作的?

有很多内容解释了数据局部性以及MapReduce和HDFS如何在多节点集群上工作。但是我找不到关于单节点设置的太多信息。在过去的三个月里,我一直在尝试使用Hadoop,我一直在阅读有关映射器和缩减器数量的教程和线程,并编写自定义分区器来优化作业,但我一直认为,它是否适用于单节点集群?与多节点集群相比,在单节点集群上运行MapReduce作业的损失是多少?通过拆分输入数据提供的并行性是否仍然适用于这种情况?从单个节点HDFS读取输入和从本地文件系统读取有什么区别?我认为由于我的经验不足,我无法清楚地回答这些问题,因此不胜感激!提前致谢!编辑:我了解Hadoop不适合单节点设置,因为@TC

hadoop - 如何从 Cassandra 加载数据到 HDFS?

我有一个驻留在ApacheCassandra中的数据,我想使用hadoop生态系统工具执行map/reduce作业。如何从Cassandra加载数据到HDFS?除了Cassandrastoragehandler/brisk,还有其他存储处理程序吗? 最佳答案 Netflix推出了一款名为Aegisthus的新工具,它试图解决这个问题。ABulkDataPipelineoutofCassandra.AegisthusimplementsareaderfortheSSTableformatandprovidesamap/reducepr

hadoop - 将 HDFS 数据流式传输到 Storm(又名 HDFS spout)

我想知道是否有任何spout实现可以将数据从HDFS流式传输到Storm(类似于来自HDFS的SparkStreaming)。我知道有bolt实现将数据写入HDFS(https://github.com/ptgoetz/storm-hdfs和http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_user-guide/content/ch_storm-using-hdfs-connector.html),但我找不到其他方法。我感谢任何建议和提示。 最佳答案 一个选项是使用