ec2

amazon-ec2 - 如何使用 Apache Whirr 在 AWS 上建立单节点 Hadoop 实例？

我正在尝试使用ApacheWhirr在AmazonWebServices上运行Hadoop的单节点实例。我将whirr.instance-templates设置为1jt+nn+dn+tt。该实例启动正常。我能够创建目录，但是当我尝试put文件时，我得到一个Filecouldonlybereplicatedto0nodes,insteadof1error。当我执行hadoopfsck/时，出现Exceptioninthread"main"java.net.ConnectException:Connectionrefused错误。有谁知道我的配置有什么问题吗？

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业，我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前，我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB，最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件，大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码，可

StarCluster python li section 的 hadoop qsub parallel-python

hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK

我已经使用Spark部署了一个AmazonEC2集群，如下所示:~/spark-ec2-kspark-i~/.ssh/spark.pem-s2--region=eu-west-1--spark-version=1.3.1launchspark-cluster我先将我需要的文件复制到master，然后从master复制到HDFS，使用:ephemeral-hdfs/bin/hadoopfs-put~/ANTICOR_2_10000.txt~/user/root/ANTICOR_2_10000.txt我有一个我想运行的jar，它是用JDK8编译的(我使用了很多Java8特性)所以我用scp

spark-ec hadoop code spark section amazon-ec2 apache-spark spark-ec2

hadoop - Flume 使用 ec2 实例 IAM 凭证汇入 s3

我有一个水槽，用于将数据写入awss3存储桶。Flume配置如下aggregator.sinks.s3LogSink.type=hdfsaggregator.sinks.s3LogSink.channel=flumeLogAgentFileChannelaggregator.sinks.s3LogSink.hdfs.path=s3n://aggregator.sinks.s3LogSink.hdfs.fileType=DataStreamaggregator.sinks.s3LogSink.hdfs.writeFormat=Textaggregator.sinks.s3LogSink.

汇入 hadoop java FileSystem apache amazon-s3 flume

amazon-ec2 - Hadoop 安全模式恢复 - 花费大量时间

我们在AmazonEC2上运行我们的集群。我们正在使用cloudera脚本来设置hadoop。在主节点上，我们启动以下服务。609$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartnamenode'610$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartsecondarynamenode'611$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartjobtracker'612613$AS_HADOOP'"$HADOOP_HOME"/bi

amazon-ec amazon 跟踪器 HADOOP section amazon-ec2 cloud hdfs

amazon-ec2 - EC2 上 Hadoop 集群中的按需从属生成

我计划在EC2上使用Hadoop。由于我们必须按实例使用量付费，因此拥有固定数量的实例而不是作业实际需要的数量是不好的。在我们的应用程序中，许多作业是并发执行的，我们始终不知道从属需求。是否可以用最少的从属启动hadoop集群，然后根据需求管理可用性？即按需创建/销毁奴隶子问题:hadoop集群能否同时管理多个作业？谢谢最佳答案 hadoop中使用的默认调度器是一个简单的FIFO调度器，您可以考虑使用FairScheduler，它为每个正在运行的作业分配一个集群份额，并具有广泛的配置来控制这些份额。就EC2而言-您可以轻松地从一些

从属 amazon-ec section 跟踪器 amazon-ec2 hadoop mapreduce

java - 我需要 Java 才能在 Amazon EC2 中运行 hadoop 吗？

我需要学习Java才能在AmazonEC2中运行hadoop吗？我是一名PHP/C++开发人员，没有Java经验。正计划在亚马逊云中设置hadoop集群。hive/pig是否足够或者我需要java？最佳答案鉴于Hadoop本身是用Java编写的，了解Java会有所帮助，但如果您只是简单地设置它并且可以通过使用HIVE或PIG来完成，那么您实际上并不需要了解Java编程。如果这只是为了熟悉Hadoop，那么该策略可能会奏效，但如果您想投入生产，那么您将需要对JVM的工作原理等有一定的了解。不过，您可能不需要使用Java编写代码。

中运 Amazon section Java php hadoop amazon-ec2 amazon-web-services

linux - 如何在 AWS ec 虚拟机上使用 hadoop 1.0 配置高可用性

我已经在非VM设置上使用心跳和虚拟IP机制配置了此设置。我正在使用hadoop1.0.3并使用共享目录进行Namenode元数据共享。问题是，在亚马逊云上，没有什么能像虚拟Ip那样使用Linux-ha获得高可用性。有没有人能做到这一点。请让我知道所需的步骤？最佳答案现在我在hbase上使用Hbase复制WAL。0.92以后的Hbase支持这个。对于云上的hadoop集群，我会等待2.0版本稳定。使用了以下内容http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/repli

机上何在 section hadoop hbase linux high-availability

configuration - 在 ec2 上手动配置 hadoop

谁能给我指出任何资源的方向，这些资源可以帮助我在EC2上手动设置/配置Hadoop(1.0.4)。我同意有很多资源可以使用工具、服务等来完成这项工作，但我正在寻找的是一些帮助，以确定对conf/*.xml文件进行哪些修改手动slaves和master都是为了让Hadoop正常工作。现在，我有5个ec2实例在运行，它们都能够在伪分布式模式下单独运行hadoop作业。所以，我需要通过配置conf文件的方式，将一个变成master，其余的变成slave，让slave知道namenode和jobtracker在哪里，而master知道所有的slave。我的理解是，我还必须配置实例的EC2安全组

configuration hadoop section strong amazon-ec2

java - 开始使用最新版本的 hadoop 和 ec2

我正在关注HadoopinAction开始使用ec2的hadoop。我在ubuntu上运行并下载并安装了最新版本的Hadoop。我遇到了这个命令的障碍:hadoop-ec2launch-clustermycluster2Thebooksays"TheHadoopEC2toolsareinthedirectorysrc/contrib/ec2/binunderyourHadoopinstallation.Recallthatourec2-init.shscripthasalreadyaddedthatdirectorytoyoursystemPATH.Withinthatdirector

hadoop java noreferrer ubuntu amazon-web-services amazon-ec2

51 52 535455 56 57