我刚刚使用Hadoop0.20.205设置了一个Hadoop集群。我有一个主机(NameNode和JobTracker)和另外两个盒子(从机)。我试图了解如何定义要使用的map和reduce任务的数量。到目前为止,我了解到我可以设置每个TaskTracker能够同时处理的最大map和reduce任务数:*mapred.tasktracker.map.tasks.maximum*和*mapred.tasktracker.reduce.tasks.maximum*.此外,我还可以使用*mapred.map.tasks*定义整个集群可以同时运行的最大map任务数。是吗?如果是这样,我怎么知道
我搭建了一个hdfs集群,有一个master(namenode)和两个slave(datanode)并且dfs.replication设置为“2”所以每个block都会在两个slave中复制,slave中的文件都是一样的。我的问题是,如果我想停用两个从站之一,它总是显示“DecommissionInProgress”,但没有文件被复制(通过使用sar监视网络)所以我认为如果集群只有两个数据节点,并且复制设置为“2”,我不能停用任何数据节点,因为如果我停用任何一个节点,将只剩下一个节点,所以文件无法复制2.你这么认为吗? 最佳答案 我
在过去的8个小时里,我一直在尝试设置我的Hadoop集群,老实说,这让我筋疲力尽。不仅仅是今天。准确地说是几周了。我已经尝试了大约20-30个我在网上获得的不同教程,每次我都会在最后遇到错误......比如SSH连接问题或JVM故障或PATH问题或最糟糕的问题(WARNutil.NativeCodeLoader:Unable为您的平台加载native-hadoop库...在适用的情况下使用内置java类)...等等。所有这些导致我一遍又一遍地重置我的VMplayer并重新安装Ubuntu。我正在努力获得Hadoop开发人员认证,我需要亲body验从MapReduce和Hadoop到生态
我开始在集群上使用Hadoop2.2(在本地使用之后)。我设置了所有文件:hdfs-site.xmlmapred-site.xmlyarn-site.xml核心站点.xml粘贴在下一页http://pastebin.com/u/manLiu但是当我运行任何任务时,它会在运行第一个映射器时停止并处于挂起状态。很明显,我去掉了真实的IP地址,写了master和slave。此外,我的集群由4个节点组成,但对于简单的wordcount,我只尝试使用一个节点。谢谢 最佳答案 这只是文件hdfs-site.xml中的权限问题
我在AmazonS3中有大约40TB的数据,我需要使用MapReduce对其进行分析。我们当前的IT政策没有为此提供AmazonEMR帐户,因此我必须依赖本地管理的Hadoop集群。当我们的数据实际存储在S3上时,我想获得有关是否建议使用本地Hadoop集群的建议? 最佳答案 请查看https://wiki.apache.org/hadoop/AmazonS3关于如何使用S3替代HDFS。您可以选择S3NativeFileSystem或S3BlockFileSystem。 关于hadoo
我正在使用Hadoop为一个大学项目做一些数据分析。我的大学好心地给了我一台机器的访问权限,该系统正在运行Ubuntu。在我将任何东西放在这个系统上之前,我会在我自己的笔记本电脑上对其进行测试。我在上面安装了虚拟机VMware和Ubuntu。由于我的“主要工作”是在我的虚拟机上完成的,到目前为止,我在单个集群上使用Hadoop(无视我项目的“大数据分析”部分的全部要点)。有没有办法让我将该机器连接到我的虚拟机VMware版本的Ubuntu,以至少演示一个由两个节点组成的集群,或者这是不可能的,因为它们不在同一网络上?提前致谢。 最佳答案
列出Spark本地可用的所有文件名的最有效方法是什么?我正在使用ScalaAPI,但是,Python也应该没问题。 最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty
我已经创建了一个AWSkey对。我正在逐字逐句地遵循此处的说明:https://aws.amazon.com/articles/4926593393724923当我输入"awsemrcreate-cluster--nameSparkCluster--ami-version3.2--instance-typem3.xlarge--instance-count3--ec2-attributesKeyName=MYKEY--应用程序名称=Hive--bootstrap-actionsPath=s3://support.elasticmapreduce/spark/install-spark"
我想在我们的HortonWorksHadoop集群上安装最新版本的Kafka,该集群包含2个主节点、2个边缘节点和8个数据节点。计划是在8个数据节点盒中的2个上安装Kafka。Kafka每天需要处理多达几百万个事件,可能需要处理几批大小为0.5Gb-1.2Gb的文件副本。问题:为了避免kafka(或数据节点)潜在的性能下降,我需要考虑对数据节点或kafka的任何特殊配置吗?Kafka通常是如何部署的(在专用盒子上还是在数据节点上运行它可以)? 最佳答案 您可以通过Ambari安装kafka。转到Ambari主页->点击操作(左下角)
我是Hadoop的新手。我需要从couchbase导入数据到hdfs。已经完成了。但是,我怎么知道数据传输已经完成,这样我就可以用这些数据顺序运行作业(mapreduce)?非常感谢你。 最佳答案 在完成第一个sqoop加载作业后自动触发第二个作业的最佳方法是使用Oozieworkflow自动化。他们创造了两个动作,第一个动作是一个具有相关属性的sqoop动作配置为将数据从couchbase表加载到hdfs。让第二个作业是任何(HIV/MapReduce/Shell/Java)动作将访问第一个操作的输出,然后开始处理。第二个操作将在