草庐IT

elastic-job

全部标签

hadoop - Amazon Elastic Map Reduce 是否在每个实例中运行一个或多个映射器进程?

我的问题是:我应该自己关心映射器中的多重处理(从标准输入读取任务,然后将它们分配给工作进程,在主进程中组合结果并输出到标准输出)还是Hadoop会自动处理它?我在HadoopStreaming文档和AmazonElasticMapReduce常见问题解答中都没有找到答案。 最佳答案 Hadoop有一个“槽”的概念。Slot是mapper进程运行的地方。您配置每个tasktracker节点的槽数。它是映射进程的理论最大值,它将在每个节点上并行运行。如果没有足够的输入数据的单独poprtions(称为FileSplits),它可能会更少

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库?

为了加快jar到s3的上传速度,我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法? 最佳答案 您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单,然后如果您从命令行启动EMR,请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者,如果您通过网络界面执行此操作,只需在相应字段中输入位置即可。

amazon-web-services - 如何计算映射器/缩减器的数量,以最大限度地提高在亚马逊云上运行的 mahout Recommender Job 的性能?

根据AmazonElasticMapReduce上使用/可用的实例,计算要使用的正确hadoop映射器和缩减器数量的最佳方法是什么?(使用mahout-core-0.7发行版的RecommenderJob) 最佳答案 通用的Hadoop答案适用:让Hadoop选择映射器的数量将reducer的数量设置为等于集群中reduce插槽的数量对于EMR,查看在您使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Ha

eclipse - 无法在 Elastic map reduce 命令行工具中列出当前作业流程?

我已成功安装AmazonElasticMapReduce命令行工具。在列出当前作业流程时,使用以下命令$./elastic-mapreduce--list它抛出以下错误。Error:Requesthasexpired.Timestampdate:2013-07-09T02:48:00-07:00 最佳答案 检查时间戳(即)主节点时间、机器时间应该相等。那么只有你会得到正确的回应。您可以通过putty查看您的主节点实例的时间戳。 关于eclipse-无法在Elasticmapreduce命

hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码?

我有两个大文件并将它们上传到名为“ccssdd”的AmazonS3存储桶中,并创建了一个名为data的文件夹:数据/友谊.xml数据/用户.xml用户结构是12447football..和13..我需要编写一个作业jar以在AmazonElasticMapReduce上运行它以计算:找出每个用户的friend数。我知道我应该从每个友谊元素中生成对作为map函数的输出在reduce函数中,我应该将每个用户ID的“1”相加。1_我知道我可以在eclipse中运行我的应用程序以生成.jar作业文件,但我不知道我应该下载哪些库并将其添加到项目中。2-我真的不知道如何将我的应用程序连接到s3!并

hadoop - 如何在 HBase 上配置 map reduce jobs

我有一个在HBase表上运行的mapreduce作业。它在应用一些扫描过滤器并进行一些处理后扫描Hbase表。这项工作花费了很长时间,绝对比预期的要长得多,并且感觉性能下降是指数级的(即,前90%的完成速度比其余的快得多,大约98%(映射器完成)之后,看起来像像电影开始时的hell边缘一样陷入永恒。从高层来看,这种不均衡的性能应该没有任何理由,因为扫描中的每一行都应该有类似的行为,并且下游服务应该在HBase表的每一行都有类似的SLA。如何调试和分析此作业?是否有任何可用的工具可以帮助我对系统进行计量并查明行为异常的组件? 最佳答案

hadoop - Amazon Elastic Cloud 无法在子网上启动

我正在尝试在我们自己的VPC上启动EC2集群。我可以使用命令在AWS中启动它,但如果我指定我们自己的VPC/子网,它就无法启动集群(因此,我们不是在谈论将在其上运行的作业——我们正在谈论启动默认集群本身)。显然,这一定与sub和AWS的Hadoop有关(尽管它不是常见的“无法在主RouteTable中找到到InternetGateway的路由”错误)。我无法从日志中确定任何原因。这在命令行和使用AWSWeb控制台时都会发生。我们不会在集群上执行任何自定义操作/环境。这是子网的详细信息DestinationTarget10.0.0.0/16local0.0.0.0/0igw-2235d2

hadoop - 级联 2.0.0 作业在 hadoop FileNotFoundException job.split 上失败

当我在更大的数据集上运行我的作业时,许多映射器/缩减器失败导致整个作业崩溃。这是我在许多映射器上看到的错误:java.io.FileNotFoundException:Filedoesnotexist:/mnt/var/lib/hadoop/tmp/mapred/staging/hadoop/.staging/job_201405050818_0001/job.splitatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1933)atorg.apache.hadoop.hdfs.DFSCl

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明,在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展;管道只有这么大,随着#个节点变大,到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程,其中可能有8个步骤需要此文件。当然,我可以从S3复制到HDFS并在每一步之前缓存文件,但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

hadoop - 亚马逊弹性 map 减少 : Job flow fails because output file is not yet generated

我有一个执行三项任务的AmazonEMR作业流程,第一项的输出是后续两项的输入。第二个任务的输出被第三个任务DistributedCache使用。我已经完全在EMR网站(控制台)上创建了作业流,但集群立即失败,因为它找不到分布式缓存文件-因为它尚未在步骤#1中创建。我唯一的选择是通过boostrap操作从CLI创建这些步骤,并指定--wait-for-steps选项吗?我无法执行一个任务的输入依赖于另一个任务的输出的多步骤作业流,这似乎很奇怪。 最佳答案 最后,我通过创建一个自举但没有任何步骤的AmazonEMR集群解决了这个问题。