草庐IT

ec_point

全部标签

hadoop - 亚马逊 EC2 和 S3 : How to read and write data

我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是,我实际上如何在我的集群上运行的hbase中获取我的数据?我需要将它加载到S3中然后加载到我的hbase集群中吗?是否有加载/提取数据的最佳实践?由于我是EC2的新手,因此我将不胜感激。 最佳答案 您需要通过SSH连接到您的一个节点,

java - 具有 420GB 实例存储的 ec2 实例中的 Hadoop "Spill Failed"异常

我正在使用Hadoop2.3.0并将其作为单节点集群(伪分布式模式)安装在CentOS6.4Amazonec2实例上,实例存储为420GB和7.5GBRAM,我的理解是“溢出失败”仅当节点用完磁盘空间时才会发生异常,但是,在仅短时间运行map/reduce任务后(没有接近420GB的数据)我得到以下异常。我想提一下,我将同一节点上的Hadoop安装从8GB的​​EBS卷(我最初安装它的地方)移动到同一节点上的420GB实例存储卷,并更改了$HADOOP_HOME环境变量和其他属性相应地指向实例存储卷,Hadoop2.3.0现在完全包含在420GB驱动器中。但是我仍然看到以下异常,请问除

hadoop - AWS 上的 EMR 与 EC2/Hadoop

我知道EC2比EMR更灵活,但工作量更大。然而,就成本而言,如果使用EC2,它可能需要将EBS卷附加到EC2实例,而AWS只是从S3流式传输数据。因此,在AWS计算器上计算数字,即使对于EMR,也必须为EC2付费,EMR变得比EC2便宜了??我在这里错了吗?当然,带有EBS的EC2可能更快,但它值得付出代价吗?谢谢,马特 最佳答案 EMR可以为您做很多在EC2上的标准Hadoop上做不到的事情。一些特别重要的包括将Hadoop日志从您的机器复制到S3。这对于集群关闭后调试错误非常有用。运行多个MapReduce、Pig或Hive作业

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在,当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的,第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe

hadoop - 使用 spark-ec2 更改 hadoop 版本

我想知道在spark-ec2创建集群的时候是否可以更改hadoop版本?我试过了spark-ec2-kspark-i~/.ssh/spark.pem-s1launchmy-spark-cluster然后我登录spark-ec2-kspark-i~/.ssh/spark.pemloginmy-spark-cluster发现hadoop版本是1.0.4。我想使用2.x版本的hadoop,最好的配置方法是什么? 最佳答案 Hadoop2.0spark-ec2脚本不支持修改现有集群,但您可以使用Hadoop2创建一个新的Spark集群。请参

hadoop - EC2 上 Hadoop 中的 BindException

我正在尝试在EC2实例上设置Hadoop集群(CDH4)。当我尝试格式化名称节点时,名称节点不断崩溃。这是我得到的错误。2013-04-1205:37:16,995FATALorg.apache.hadoop.hdfs.server.namenode.NameNode:Exceptioninnamenodejoinjava.net.BindException:Problembindingto[head.node.iec.project:8020]java.net.BindException:Cannotassignrequestedaddress;Formoredetailssee:h

hadoop - 在 EC2 : spark. driver.extraClassPath 和 spark.executor.extraClassPath 上设置 spark 类路径

通过为maven依赖项提供spark-classPath来减少应用程序jar的大小:我的集群有3个运行hadoop和spark的ec2实例。如果我使用maven依赖项构建jar,它会变得太大(大约100MB),我想避免这种情况,因为Jar正在所有节点上进行复制,每次我运行作业。为了避免我构建了一个maven包作为“maven包”。为了解决依赖关系,我已经在每个节点上下载了所有maven依赖关系,然后只在jar路径下方提供:我在“spark-defaults.conf”中的每个节点上添加了类路径作为spark.driver.extraClassPath/home/spark/.m2/re

Hadoop 名称节点 : Single point of failure

Hadoop架构中的Namenode是单点故障。拥有大型Hadoop集群的人如何应对这个问题?是否有一个行业认可且运行良好的解决方案,其中辅助Namenode接管以防主Namenode发生故障? 最佳答案 雅虎有certainrecommendations用于不同集群大小的配置设置,以将NameNode故障考虑在内。例如:ThesinglepointoffailureinaHadoopclusteristheNameNode.Whilethelossofanyothermachine(intermittentlyorpermanen

amazon-ec2 - HDFS 错误 : could only be replicated to 0 nodes, 而不是 1

我在EC2中创建了一个ubuntu单节点hadoop集群。测试一个简单的文件上传到hdfs可以在EC2机器上运行,但不能在EC2之外的机器上运行。我可以从远程机器通过Web界面浏览文件系统,它显示一个报告为正在服务的数据节点。已经打开了从0到60000(!)的安全性中的所有tcp端口,所以我不认为是这样。我得到了错误java.io.IOException:File/user/ubuntu/piescouldonlybereplicatedto0nodes,insteadof1atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.ge

php - 将内容部署到多个服务器 (EC2)

我一直在开发一个基于云的(AWSEC2)PHPWeb应用程序,并且在使用多个服务器(都在AWS弹性负载均衡器下)时遇到一个问题。在一台服务器上,当我上传最新文件时,它们会立即在整个应用程序中投入生产。但这在使用多个服务器时并非如此——每次提交更改时,您都必须将文件上传到每个服务器。如果您不经常更新任何东西,或者如果您只有一两个服务器,这可能会正常工作。但是,如果您在一周内跨十台服务器多次更新系统怎么办?我正在寻找的是一种从我们的开发或测试服务器“提交”更改并立即将其“推送”到我们所有生产服务器的方法。理想情况下,一次只将更新应用于一台服务器(即使每台服务器只需要一两秒),这样ELB就不