Ec2_草庐IT

ubuntu - 如何在我的系统上拥有类似 Amazon EC2 的环境？

我有这个由其他人编写的hadoop项目(链接)。我有消息来源。我想在我的集群(基本上是3台ubuntu机器)上实现它。但是提到的项目在EC2平台(使用Cloudera发行版)上运行。那么，我应该在我的系统上安装什么才能使其具有运行此类项目的软件？我想到了ClouderaManager、OracleJava。最佳答案如果该项目使用cloudera发行版(而不是EMR)，您可以安装cloudera，它应该没问题。只有一个角落我可以预期有问题-如果s3被用作文件系统。如果该项目确实对s3有效，您有两种方法:a)尝试将s3替换为hdfs

何在拥有 section https 上实 ubuntu hadoop amazon-ec2 cloud cloudera

hadoop - 从本地非 Hadoop 机器上传数据到 Amazon EC2 中运行的 HDFS

我在AmazonEC2上设置了一个包含两个节点的hadoop集群。它运作良好。我可以使用hadoopapi(附加java程序)从主节点或与hadoop集群位于同一Amazon区域的其他实例将数据上传到HDFS。但是，当我想从我的本地非hadoop机器上执行此操作时，结果如下所示:然后我登录到hadoop名称节点以使用命令行进行检查。文件夹“testdir”已创建，但上传文件“myfile”的大小为0。==================这是分隔符===============================这些是异常(exception)情况Apr18,201310:40:47AMor

中运 hadoop java apache amazon-ec2 hdfs

java - org.apache.hadoop.security.AccessControlException : Permission denied when trying to access S3 bucket through s3n URI using Hadoop Java APIs on EC2

场景我创建了一个名为“my-role”的AWSIAM角色，将EC2指定为可信实体，即使用信任关系策略文档:{"Version":"2012-10-17","Statement":[{"Sid":"","Effect":"Allow","Principal":{"Service":"ec2.amazonaws.com"},"Action":"sts:AssumeRole"}]}该角色具有以下策略:{"Version":"2012-10-17","Statement":[{"Effect":"Allow","Action":["s3:AbortMultipartUpload","s3:De

AccessControlException Permission code 34 hadoop java amazon-web-services amazon-s3 tomcat7

amazon-ec2 - Amazon EC2 上的 Hadoop : Job tracker not starting properly

我们在AmazonEC2集群上运行Hadoop。我们启动主服务器、从服务器并附加ebs卷，最后等待hadoopjobtracker、tasktracker等启动，超时时间为3600秒。我们注意到50%的时间作业跟踪器无法在超时前启动。原因是，hdfs未正确初始化且仍处于安全模式且作业跟踪器无法启动。当我尝试手动ping从站时，我注意到EC2上节点之间的连接问题很少。有没有人遇到过类似的问题并且知道如何解决这个问题？最佳答案我不确定这个问题是否与AmazonEC2有关。我也经常遇到这个问题-虽然我的机器上有一个伪分布式安装。在这些

amazon-ec starting section 跟踪器 Amazon amazon-ec2 amazon-web-services cloud hadoop

EC2 上的 Hadoop 与 ElasticMapReduce/S3

我使用ElasticMapReduce有一段时间了。这很方便，但我无法运行HBase，因为Hadoop集群只是暂时可用(我在HBaseandHadoop上问过一些相关的问题)。所以我想尝试在一组EC2机器上安装Hadoop。我知道Hadoop有一些与EC2相关的目录-src/contrib/ec2。看起来只需键入命令即可启动Hadoop集群，我可以登录到主节点以运行作业等。在尝试这个之前，我想知道任何使用过这个的人的陷阱。谢谢! 最佳答案事实上，在亚马逊上使用hadoop有两种选择——配置您自己的集群或使用EMR。与此决定正交，您

ElasticMapReduce Hadoop section stackoverflow hbase

hadoop - 如何通过 whirr 在 EC2 集群上安装 JDK 7？

我有一些由OracleJDK7编译的map-reduce程序。我正在尝试使用whirr0.8.1来设置EC2集群来运行它们。不过whirr0.8.1默认安装的JDK好像是OpenJDK6，我在运行它们时遇到了以下错误:不支持的major.minor版本51.0因此我尝试通过设置指定whirr的JDK版本:whirr.java.install-function=install_oracle_jdk7但这会导致安装过程失败，尝试修改以下脚本似乎没有用:whirr-0.8.1\core\src\main\resources\functions\install_oracle_jdk7.sh有谁

hadoop whirr strong oracle amazon-ec2 amazon-web-services apache-whirr

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后，“jps”没有列出任何节点。那么，即使在使用公共(public)hadoopAMI之后，我们还必须为主服务器和从服务器设置hadoop吗？master怎么知道slave的IP地址？？谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗？谢谢。最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

amazon-ec cluster section hadoop apache amazon-ec2 mapreduce

hadoop - 亚马逊 EC2 和 S3 : How to read and write data

我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是，我实际上如何在我的集群上运行的hbase中获取我的数据？我需要将它加载到S3中然后加载到我的hbase集群中吗？是否有加载/提取数据的最佳实践？由于我是EC2的新手，因此我将不胜感激。最佳答案您需要通过SSH连接到您的一个节点，

hadoop write section hbase amazon-s3 amazon-ec2

java - 具有 420GB 实例存储的 ec2 实例中的 Hadoop "Spill Failed"异常

我正在使用Hadoop2.3.0并将其作为单节点集群(伪分布式模式)安装在CentOS6.4Amazonec2实例上，实例存储为420GB和7.5GBRAM，我的理解是“溢出失败”仅当节点用完磁盘空间时才会发生异常，但是，在仅短时间运行map/reduce任务后(没有接近420GB的数据)我得到以下异常。我想提一下，我将同一节点上的Hadoop安装从8GB的EBS卷(我最初安装它的地方)移动到同一节点上的420GB实例存储卷，并更改了$HADOOP_HOME环境变量和其他属性相应地指向实例存储卷，Hadoop2.3.0现在完全包含在420GB驱动器中。但是我仍然看到以下异常，请问除

amp Failed hadoop apache MapTask java amazon-ec2 hadoop-yarn

hadoop - AWS 上的 EMR 与 EC2/Hadoop

我知道EC2比EMR更灵活，但工作量更大。然而，就成本而言，如果使用EC2，它可能需要将EBS卷附加到EC2实例，而AWS只是从S3流式传输数据。因此，在AWS计算器上计算数字，即使对于EMR，也必须为EC2付费，EMR变得比EC2便宜了？？我在这里错了吗？当然，带有EBS的EC2可能更快，但它值得付出代价吗？谢谢，马特最佳答案 EMR可以为您做很多在EC2上的标准Hadoop上做不到的事情。一些特别重要的包括将Hadoop日志从您的机器复制到S3。这对于集群关闭后调试错误非常有用。运行多个MapReduce、Pig或Hive作业

hadoop section EC2 amazon-web-services amazon-ec2 emr