elastics_草庐IT

hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码？

我有两个大文件并将它们上传到名为“ccssdd”的AmazonS3存储桶中，并创建了一个名为data的文件夹:数据/友谊.xml数据/用户.xml用户结构是12447football..和13..我需要编写一个作业jar以在AmazonElasticMapReduce上运行它以计算:找出每个用户的friend数。我知道我应该从每个友谊元素中生成对作为map函数的输出在reduce函数中，我应该将每个用户ID的“1”相加。1_我知道我可以在eclipse中运行我的应用程序以生成.jar作业文件，但我不知道我应该下载哪些库并将其添加到项目中。2-我真的不知道如何将我的应用程序连接到s3!并

并将 Elastic section lt gt hadoop amazon-s3 mapreduce elastic-map-reduce amazon-emr

hadoop - Amazon Elastic Cloud 无法在子网上启动

我正在尝试在我们自己的VPC上启动EC2集群。我可以使用命令在AWS中启动它，但如果我指定我们自己的VPC/子网，它就无法启动集群(因此，我们不是在谈论将在其上运行的作业——我们正在谈论启动默认集群本身)。显然，这一定与sub和AWS的Hadoop有关(尽管它不是常见的“无法在主RouteTable中找到到InternetGateway的路由”错误)。我无法从日志中确定任何原因。这在命令行和使用AWSWeb控制台时都会发生。我们不会在集群上执行任何自定义操作/环境。这是子网的详细信息DestinationTarget10.0.0.0/16local0.0.0.0/0igw-2235d2

Elastic hadoop apache 2014 amazon-web-services amazon-ec2

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明，在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展；管道只有这么大，随着#个节点变大，到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程，其中可能有8个步骤需要此文件。当然，我可以从S3复制到HDFS并在每一步之前缓存文件，但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下，作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

大文 MapReduce section stackoverflow questions caching hadoop amazon-web-services amazon-s3 elastic-map-reduce

amazon-web-services - 使用 Elastic MapReduce 进行文件处理 - 没有 Reducer 步骤？

我在S3目录中有大量文本文件。对于每个文本文件，我想应用一个函数(通过Bootstrap加载的可执行文件)，然后将结果写入S3输出目录中另一个同名的文本文件。所以在我的MapReduce作业中没有明显的reducer步骤。我曾尝试使用NONE作为我的reducer，但输出目录中充满了part-00000、part-00001等文件。而且这些文件的数量比我输入目录中的文件还要多；每个部分文件只代表一个处理过的片段。如有任何建议，我们将不胜感激。最佳答案 Hadoop提供了一个名为IdentityReducer的缩减器。Identit

amazon-web-services MapReduce section reducer noreferrer hadoop

hadoop - Amazon Elastic Mapreduce 默认配置

Hadoop默认配置(core-site.xml、yarn-site.xml等)是否由Amazon发布？我看到了一些已发布的参数，但没有看到全部默认配置。最佳答案您将在以下链接的amazonemr文档页面找到默认配置http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html您可以找到触发作业的配置。您可以访问保存日志的S3位置。在那里你会找到j-yourjoblogsfilelocation/jobs/jo

Mapreduce Elastic section TaskConfiguration_H TaskConfiguration hadoop amazon-ec2 emr

hadoop - 在 AWS Elastic Map Reduce 中禁用 Gzip 输入解压缩

我正在Gzipped.arc文件上运行MapReduce任务。类似于此question，我遇到了困难，因为Gzip解压缩是自动运行的(因为文件有.gz扩展名)，但它导致换行符/回车符按照Unix文件编码被渲染为换行符的问题。这使得输入完全不可读，因为它取决于文件中嵌入的特定字符数。我正在尝试禁用Gzip解压缩，以便我可以在我的映射器中正确地执行它。我试过:-jobconfstream.recordreader.compression=none但这似乎并不影响压缩。有什么方法可以防止对我的输入进行Gzip解压缩？谢谢，-Geoff 最佳答案

Elastic hadoop section stackoverflow questions amazon-web-services mapreduce compression amazon-emr

hadoop - 无法通过 ssh 进入 Elastic MapReduce

我正在使用elastic-mapreduce从命令行创建新集群。看完this教程，我有:elastic-mapreduce--create--alive\--instance-typem1.xlarge\--num-instances5\--supported-productmapr\--namem7\--args"--edition,m7"将创建一个具有6个节点(1个主节点+5个从节点)的新集群。所以我尝试通过ssh进入master:elastic-mapreduce--jobflowj-3FLVMX9CYE5L6--ssh然后我得到Permissiondenied(publicke

MapReduce Elastic code section 新集 hadoop amazon-web-services ssh amazon-ec2 elastic-map-reduce

python - 我的 boto elastic mapreduce jar 作业流参数有什么问题？

我正在使用boto库在Amazon的ElasticMapReduceWeb服务(EMR)中创建工作流。以下代码应创建一个步骤:step2=JarStep(name='Findsimiliaritems',jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar',main_class='org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob',step_args=['s3n://bucket/output/'+run_id+'/a

mapreduce elastic hadoop apache java python boto mahout amazon-emr

python - Amazon Elastic MapReduce - python map 和 reduce 代码的格式或示例

也许它与Hadoop相同，但我找不到编写map的格式或示例，并在map示例旁边减少python代码:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/但我找不到reduce代码示例，它和Hadoop一样吗？格式是什么，有什么例子吗？最佳答案 EMR流与一般的Hadoop流没有什么不同。这是一个pythonreducer的例子http://www.michael-noll.com/tutorials/writing-an-had

python MapReduce section reduce hadoop amazon-emr elastic-map-reduce

python - 文件未在 AWS Elastic Mapreduce 上缓存

我在AWSElasticMapReduce上运行以下MapReduce:./elastic-mapreduce--create--stream--nameCLI_FLOW_LARGE--mappers3://classify.mysite.com/mapper.py--reducers3://classify.mysite.com/reducer.py--inputs3n://classify.mysite.com/s3_list.txt--outputs3://classify.mysite.com/dat_output4/--caches3n://classify.mysite.c

Mapreduce Elastic code classifier classify python hadoop amazon-web-services elastic-map-reduce