我们在AmazonEC2集群上运行Hadoop。我们启动主服务器、从服务器并附加ebs卷,最后等待hadoopjobtracker、tasktracker等启动,超时时间为3600秒。我们注意到50%的时间作业跟踪器无法在超时前启动。原因是,hdfs未正确初始化且仍处于安全模式且作业跟踪器无法启动。当我尝试手动ping从站时,我注意到EC2上节点之间的连接问题很少。有没有人遇到过类似的问题并且知道如何解决这个问题? 最佳答案 我不确定这个问题是否与AmazonEC2有关。我也经常遇到这个问题-虽然我的机器上有一个伪分布式安装。在这些
我使用ElasticMapReduce有一段时间了。这很方便,但我无法运行HBase,因为Hadoop集群只是暂时可用(我在HBaseandHadoop上问过一些相关的问题)。所以我想尝试在一组EC2机器上安装Hadoop。我知道Hadoop有一些与EC2相关的目录-src/contrib/ec2。看起来只需键入命令即可启动Hadoop集群,我可以登录到主节点以运行作业等。在尝试这个之前,我想知道任何使用过这个的人的陷阱。谢谢! 最佳答案 事实上,在亚马逊上使用hadoop有两种选择——配置您自己的集群或使用EMR。与此决定正交,您
我有一些由OracleJDK7编译的map-reduce程序。我正在尝试使用whirr0.8.1来设置EC2集群来运行它们。不过whirr0.8.1默认安装的JDK好像是OpenJDK6,我在运行它们时遇到了以下错误:不支持的major.minor版本51.0因此我尝试通过设置指定whirr的JDK版本:whirr.java.install-function=install_oracle_jdk7但这会导致安装过程失败,尝试修改以下脚本似乎没有用:whirr-0.8.1\core\src\main\resources\functions\install_oracle_jdk7.sh有谁
我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后,“jps”没有列出任何节点。那么,即使在使用公共(public)hadoopAMI之后,我们还必须为主服务器和从服务器设置hadoop吗?master怎么知道slave的IP地址??谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗?谢谢。 最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易
我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是,我实际上如何在我的集群上运行的hbase中获取我的数据?我需要将它加载到S3中然后加载到我的hbase集群中吗?是否有加载/提取数据的最佳实践?由于我是EC2的新手,因此我将不胜感激。 最佳答案 您需要通过SSH连接到您的一个节点,
我正在使用Hadoop2.3.0并将其作为单节点集群(伪分布式模式)安装在CentOS6.4Amazonec2实例上,实例存储为420GB和7.5GBRAM,我的理解是“溢出失败”仅当节点用完磁盘空间时才会发生异常,但是,在仅短时间运行map/reduce任务后(没有接近420GB的数据)我得到以下异常。我想提一下,我将同一节点上的Hadoop安装从8GB的EBS卷(我最初安装它的地方)移动到同一节点上的420GB实例存储卷,并更改了$HADOOP_HOME环境变量和其他属性相应地指向实例存储卷,Hadoop2.3.0现在完全包含在420GB驱动器中。但是我仍然看到以下异常,请问除
我知道EC2比EMR更灵活,但工作量更大。然而,就成本而言,如果使用EC2,它可能需要将EBS卷附加到EC2实例,而AWS只是从S3流式传输数据。因此,在AWS计算器上计算数字,即使对于EMR,也必须为EC2付费,EMR变得比EC2便宜了??我在这里错了吗?当然,带有EBS的EC2可能更快,但它值得付出代价吗?谢谢,马特 最佳答案 EMR可以为您做很多在EC2上的标准Hadoop上做不到的事情。一些特别重要的包括将Hadoop日志从您的机器复制到S3。这对于集群关闭后调试错误非常有用。运行多个MapReduce、Pig或Hive作业
我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在,当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的,第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe
我想知道在spark-ec2创建集群的时候是否可以更改hadoop版本?我试过了spark-ec2-kspark-i~/.ssh/spark.pem-s1launchmy-spark-cluster然后我登录spark-ec2-kspark-i~/.ssh/spark.pemloginmy-spark-cluster发现hadoop版本是1.0.4。我想使用2.x版本的hadoop,最好的配置方法是什么? 最佳答案 Hadoop2.0spark-ec2脚本不支持修改现有集群,但您可以使用Hadoop2创建一个新的Spark集群。请参
我正在尝试在EC2实例上设置Hadoop集群(CDH4)。当我尝试格式化名称节点时,名称节点不断崩溃。这是我得到的错误。2013-04-1205:37:16,995FATALorg.apache.hadoop.hdfs.server.namenode.NameNode:Exceptioninnamenodejoinjava.net.BindException:Problembindingto[head.node.iec.project:8020]java.net.BindException:Cannotassignrequestedaddress;Formoredetailssee:h