Elastic-beanstalk

hadoop - 在 Amazon Web Services 上的 Elastic MapReduce 上定义一个 HDFS 文件

我开始在HadoopMapReduce框架上实现KMeans算法。在这方面，我正在使用AmazonWebServices提供的弹性MapReduce。我想创建一个HDFS文件以在其上保存初始集群坐标，并在其上存储reducer的最终结果。我在这里完全困惑。无论如何要创建或“上传”这个文件到HDFS格式，以便所有映射器都能看到。有这方面的说明吗？谢谢。最佳答案最后我知道了怎么做。所以，为了将HDFS文件上传到集群中。您必须通过Putty连接到您的集群(通过使用安全key)。然后编写这些命令hadoopdistcps3://buck

MapReduce Services section 上实 hadoop amazon-web-services

hadoop - Amazon Elastic Map Reduce 是否在每个实例中运行一个或多个映射器进程？

我的问题是:我应该自己关心映射器中的多重处理(从标准输入读取任务，然后将它们分配给工作进程，在主进程中组合结果并输出到标准输出)还是Hadoop会自动处理它？我在HadoopStreaming文档和AmazonElasticMapReduce常见问题解答中都没有找到答案。最佳答案 Hadoop有一个“槽”的概念。Slot是mapper进程运行的地方。您配置每个tasktracker节点的槽数。它是映射进程的理论最大值，它将在每个节点上并行运行。如果没有足够的输入数据的单独poprtions(称为FileSplits)，它可能会更少

中运射器 section Hadoop amazon-web-services mapreduce elastic-map-reduce hadoop-streaming

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库？

为了加快jar到s3的上传速度，我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法？最佳答案您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单，然后如果您从命令行启动EMR，请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者，如果您通过网络界面执行此操作，只需在相应字段中输入位置即可。

mapreduce elastic section hadoop stackoverflow amazon-ec2 elastic-map-reduce

eclipse - 无法在 Elastic map reduce 命令行工具中列出当前作业流程？

我已成功安装AmazonElasticMapReduce命令行工具。在列出当前作业流程时，使用以下命令$./elastic-mapreduce--list它抛出以下错误。Error:Requesthasexpired.Timestampdate:2013-07-09T02:48:00-07:00 最佳答案检查时间戳(即)主节点时间、机器时间应该相等。那么只有你会得到正确的回应。您可以通过putty查看您的主节点实例的时间戳。关于eclipse-无法在Elasticmapreduce命

作业流程 eclipse section code hadoop amazon-web-services mapreduce elastic-map-reduce

hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码？

我有两个大文件并将它们上传到名为“ccssdd”的AmazonS3存储桶中，并创建了一个名为data的文件夹:数据/友谊.xml数据/用户.xml用户结构是12447football..和13..我需要编写一个作业jar以在AmazonElasticMapReduce上运行它以计算:找出每个用户的friend数。我知道我应该从每个友谊元素中生成对作为map函数的输出在reduce函数中，我应该将每个用户ID的“1”相加。1_我知道我可以在eclipse中运行我的应用程序以生成.jar作业文件，但我不知道我应该下载哪些库并将其添加到项目中。2-我真的不知道如何将我的应用程序连接到s3!并

并将 Elastic section lt gt hadoop amazon-s3 mapreduce elastic-map-reduce amazon-emr

hadoop - Amazon Elastic Cloud 无法在子网上启动

我正在尝试在我们自己的VPC上启动EC2集群。我可以使用命令在AWS中启动它，但如果我指定我们自己的VPC/子网，它就无法启动集群(因此，我们不是在谈论将在其上运行的作业——我们正在谈论启动默认集群本身)。显然，这一定与sub和AWS的Hadoop有关(尽管它不是常见的“无法在主RouteTable中找到到InternetGateway的路由”错误)。我无法从日志中确定任何原因。这在命令行和使用AWSWeb控制台时都会发生。我们不会在集群上执行任何自定义操作/环境。这是子网的详细信息DestinationTarget10.0.0.0/16local0.0.0.0/0igw-2235d2

Elastic hadoop apache 2014 amazon-web-services amazon-ec2

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明，在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展；管道只有这么大，随着#个节点变大，到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程，其中可能有8个步骤需要此文件。当然，我可以从S3复制到HDFS并在每一步之前缓存文件，但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下，作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

大文 MapReduce section stackoverflow questions caching hadoop amazon-web-services amazon-s3 elastic-map-reduce

amazon-web-services - 使用 Elastic MapReduce 进行文件处理 - 没有 Reducer 步骤？

我在S3目录中有大量文本文件。对于每个文本文件，我想应用一个函数(通过Bootstrap加载的可执行文件)，然后将结果写入S3输出目录中另一个同名的文本文件。所以在我的MapReduce作业中没有明显的reducer步骤。我曾尝试使用NONE作为我的reducer，但输出目录中充满了part-00000、part-00001等文件。而且这些文件的数量比我输入目录中的文件还要多；每个部分文件只代表一个处理过的片段。如有任何建议，我们将不胜感激。最佳答案 Hadoop提供了一个名为IdentityReducer的缩减器。Identit

amazon-web-services MapReduce section reducer noreferrer hadoop

hadoop - Amazon Elastic Mapreduce 默认配置

Hadoop默认配置(core-site.xml、yarn-site.xml等)是否由Amazon发布？我看到了一些已发布的参数，但没有看到全部默认配置。最佳答案您将在以下链接的amazonemr文档页面找到默认配置http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html您可以找到触发作业的配置。您可以访问保存日志的S3位置。在那里你会找到j-yourjoblogsfilelocation/jobs/jo

Mapreduce Elastic section TaskConfiguration_H TaskConfiguration hadoop amazon-ec2 emr

hadoop - 在 AWS Elastic Map Reduce 中禁用 Gzip 输入解压缩

我正在Gzipped.arc文件上运行MapReduce任务。类似于此question，我遇到了困难，因为Gzip解压缩是自动运行的(因为文件有.gz扩展名)，但它导致换行符/回车符按照Unix文件编码被渲染为换行符的问题。这使得输入完全不可读，因为它取决于文件中嵌入的特定字符数。我正在尝试禁用Gzip解压缩，以便我可以在我的映射器中正确地执行它。我试过:-jobconfstream.recordreader.compression=none但这似乎并不影响压缩。有什么方法可以防止对我的输入进行Gzip解压缩？谢谢，-Geoff 最佳答案

Elastic hadoop section stackoverflow questions amazon-web-services mapreduce compression amazon-emr