hdfs_clusters

hadoop - 亚马逊电子病历 : Initializing a cluster with data

我正在使用AmazonEMR，并且能够使用CLI工具创建和运行工作流。作业运行良好。但是，当我尝试将数据从S3和名称节点的本地文件系统加载到我的EMR集群的HDFS时遇到了问题。我想从S3填充HDFS。我正在尝试使用S3DistCp工具执行此操作。我正在运行这个命令:elastic-mapreduce--jobflow$JOBFLOWID--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.0.1/s3distcp.jar--arg--src--arg's3n://my-bucket/src'--arg--dest--arg'hdfs

病历 Initializing hadoop apache java amazon-s3 hdfs emr

hadoop - HDFS 名称节点 HA : Why use NFS rather than simply replicate between the two?

看Facebook使用的AvatarNode方案为HDFSNamenode提供HA，不明白为什么要用NFS。让我感到困惑的是，NFS无论如何都必须复制才能实现HA。主节点必须写入NFS并刷新才能获得HA。为什么不简单地在主节点和辅助节点之间打开一个套接字channel，然后对辅助Namenode执行相同的写入。这将是(大约)相同数量的网络流量，并且似乎具有相同的复制语义。那么问题来了，为什么不这样做呢？我想原因之一可能是NFS存在，因此问题可能更容易实现。但是考虑到在主要和次要之间使用原始套接字channel将写入流接口(interface)(即文件)的相同信息写入NFS的(明显的)简

replicate between section NFS 套接字 hadoop hdfs high-availability

hadoop - 将文件复制到 HDFS 时出错

我尝试在两个节点上安装hadoop。两个节点都已启动并正在运行。namenode在Ubuntu10.10上运行，Datanode在Fedora13上运行。将文件从本地文件系统复制到hdfs时遇到以下错误。终端显示:12/04/1202:19:15INFOhdfs.DFSClient:ExceptionincreateBlockOutputStreamjava.io.OException:BadconnectackwithfirstBadLinkas10.211.87.162:920012/04/1202:19:15INFOhdfs.DFSClient:Abandoningblockbl

时出 hadoop section java hdfs

hadoop - HBase 表大小比 hadoop hdfs 中的文件大得多

最近用hadoopbulkload把数据放到hbase首先，我调用HDFSAPI向hadoophdfs中的文件写入数据，总共7000,000行数据，大小为503MB。其次，我使用org.apache.hadoop.hbase.mapreduce.ImportTsv和org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles将数据放入hbase。我做的最重要的事情是使用bulkload工具将数据放入hbase，完成bulkload后，我发现hbase表有1.96GB。hdfs复制为1。我不知道为什么。最佳答

hadoop HBase section hdfs

java - 是否可以使用 hadoop 文件系统 API 从 hdfs 一次删除多个文件？

hadoopshell有命令hadoopfs-rm/dir/*。但是我没有从API中找到类似的。最佳答案要删除目录中的文件而不删除目录本身或从任何子目录中删除文件(即hadoopfs-rm/dir/*所做的)，您可以使用:FileSystemfs=dir.getFileSystem(getConf());RemoteIteratorit=fs.listFiles(dir,false);while(it.hasNext()){fs.delete(it.next().getPath(),false);}

hadoop java section code filesystems delete-file

hadoop - 无法在 Mahout 中实例化类型 Cluster、KMean 聚类示例

您好，我试图在Mahout中运行KmeanClusteringExample，但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface)，我的理解)。我想在我的样本数据集上运行kmeans，任何人都可以指导我吗？我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar

Cluster hadoop import new apache compiler-errors mahout k-means

hadoop - HbaseTestingUtility : could not start my mini-cluster

我正在尝试使用HbaseTestingUtility测试我的Hbase代码。每次我使用下面的代码片段启动我的迷你集群时，我都会遇到异常。publicvoidstartCluster(){FileworkingDirectory=newFile("./");Configurationconf=newConfiguration();System.setProperty("test.build.data",workingDirectory.getAbsolutePath());conf.set("test.build.data",newFile(workingDirectory,"zooke

HbaseTestingUtility mini-cluster hbase apache hadoop

hadoop - 在单节点集群上运行 Hadoop 时 HDFS 是如何工作的？

有很多内容解释了数据局部性以及MapReduce和HDFS如何在多节点集群上工作。但是我找不到关于单节点设置的太多信息。在过去的三个月里，我一直在尝试使用Hadoop，我一直在阅读有关映射器和缩减器数量的教程和线程，并编写自定义分区器来优化作业，但我一直认为，它是否适用于单节点集群？与多节点集群相比，在单节点集群上运行MapReduce作业的损失是多少？通过拆分输入数据提供的并行性是否仍然适用于这种情况？从单个节点HDFS读取输入和从本地文件系统读取有什么区别？我认为由于我的经验不足，我无法清楚地回答这些问题，因此不胜感激!提前致谢!编辑:我了解Hadoop不适合单节点设置，因为@TC

hadoop blockquote code section mapreduce hdfs

hadoop - 如何从 Cassandra 加载数据到 HDFS？

我有一个驻留在ApacheCassandra中的数据，我想使用hadoop生态系统工具执行map/reduce作业。如何从Cassandra加载数据到HDFS？除了Cassandrastoragehandler/brisk，还有其他存储处理程序吗？最佳答案 Netflix推出了一款名为Aegisthus的新工具，它试图解决这个问题。ABulkDataPipelineoutofCassandra.AegisthusimplementsareaderfortheSSTableformatandprovidesamap/reducepr

Cassandra hadoop section aegisthus hive apache-pig hdfs

hadoop - 将 HDFS 数据流式传输到 Storm(又名 HDFS spout)

我想知道是否有任何spout实现可以将数据从HDFS流式传输到Storm(类似于来自HDFS的SparkStreaming)。我知道有bolt实现将数据写入HDFS(https://github.com/ptgoetz/storm-hdfs和http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_user-guide/content/ch_storm-using-hdfs-connector.html)，但我找不到其他方法。我感谢任何建议和提示。最佳答案一个选项是使用

流式 HDFS section hadoop apache-storm

213 214 215216217 218 219