amazon-ebs_草庐IT

hadoop - Amazon Elastic Map Reduce 是否在每个实例中运行一个或多个映射器进程？

我的问题是:我应该自己关心映射器中的多重处理(从标准输入读取任务，然后将它们分配给工作进程，在主进程中组合结果并输出到标准输出)还是Hadoop会自动处理它？我在HadoopStreaming文档和AmazonElasticMapReduce常见问题解答中都没有找到答案。最佳答案 Hadoop有一个“槽”的概念。Slot是mapper进程运行的地方。您配置每个tasktracker节点的槽数。它是映射进程的理论最大值，它将在每个节点上并行运行。如果没有足够的输入数据的单独poprtions(称为FileSplits)，它可能会更少

中运射器 section Hadoop amazon-web-services mapreduce elastic-map-reduce hadoop-streaming

java - 我需要 Java 才能在 Amazon EC2 中运行 hadoop 吗？

我需要学习Java才能在AmazonEC2中运行hadoop吗？我是一名PHP/C++开发人员，没有Java经验。正计划在亚马逊云中设置hadoop集群。hive/pig是否足够或者我需要java？最佳答案鉴于Hadoop本身是用Java编写的，了解Java会有所帮助，但如果您只是简单地设置它并且可以通过使用HIVE或PIG来完成，那么您实际上并不需要了解Java编程。如果这只是为了熟悉Hadoop，那么该策略可能会奏效，但如果您想投入生产，那么您将需要对JVM的工作原理等有一定的了解。不过，您可能不需要使用Java编写代码。

中运 Amazon section Java php hadoop amazon-ec2 amazon-web-services

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库？

为了加快jar到s3的上传速度，我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法？最佳答案您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单，然后如果您从命令行启动EMR，请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者，如果您通过网络界面执行此操作，只需在相应字段中输入位置即可。

mapreduce elastic section hadoop stackoverflow amazon-ec2 elastic-map-reduce

hadoop - 在 amazon EMR 上运行 HBase 时，为什么/tmp 文件夹与实际数据相比很大？

我们在amazonEMR上有一个默认配置的hadoop+hbase集群，所以mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的集群已经运行了一段时间，现在/tmp为500Gb，而实际/hbase数据为70Gb。这种差异似乎太大了，我们是否应该定期删除一些/tmp数据？最佳答案经过一些调查，我发现我们的/tmp数据的最大部分是由Amazon将Hbase自动备份到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。我们决定禁用Amazon的自动备份

hadoop amazon code section tmp hbase amazon-emr

amazon-web-services - 如何计算映射器/缩减器的数量，以最大限度地提高在亚马逊云上运行的 mahout Recommender Job 的性能？

根据AmazonElasticMapReduce上使用/可用的实例，计算要使用的正确hadoop映射器和缩减器数量的最佳方法是什么？(使用mahout-core-0.7发行版的RecommenderJob) 最佳答案通用的Hadoop答案适用:让Hadoop选择映射器的数量将reducer的数量设置为等于集群中reduce插槽的数量对于EMR，查看在您使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Ha

射器缩减 section 的 amazon-web-services hadoop mahout reducers mapper

hadoop - Amazon Elastic Cloud 无法在子网上启动

我正在尝试在我们自己的VPC上启动EC2集群。我可以使用命令在AWS中启动它，但如果我指定我们自己的VPC/子网，它就无法启动集群(因此，我们不是在谈论将在其上运行的作业——我们正在谈论启动默认集群本身)。显然，这一定与sub和AWS的Hadoop有关(尽管它不是常见的“无法在主RouteTable中找到到InternetGateway的路由”错误)。我无法从日志中确定任何原因。这在命令行和使用AWSWeb控制台时都会发生。我们不会在集群上执行任何自定义操作/环境。这是子网的详细信息DestinationTarget10.0.0.0/16local0.0.0.0/0igw-2235d2

Elastic hadoop apache 2014 amazon-web-services amazon-ec2

hadoop - 当我使用 Amazon EMR 上的 Hive 引擎从 Presto 导出数据时发生 FileAlreadyExistsException

我尝试使用Presto和AmazonEMR上的Hive引擎将数据从S3存储桶导出到其他S3存储桶，如ETL，但在我导出数据时发生了FileAlreadyExistsException。如何使用Presto导出数据？环境emr-4.3.0hive1.0.0Presto-Sandbox0.130错误我尝试了以下操作:$hivehive>CREATEEXTERNALTABLElogs(logstring)->LOCATION's3://foo-bucket/logs/';hive>CREATEEXTERNALTABLEs3_export(logstring)->ROWFORMATDELIMI

FileAlreadyExistsException hadoop code section hive amazon-web-services amazon-emr presto

hadoop - 解析参数错误，amazon aws emr

我正在尝试通过Linux控制台创建一个步骤:awsemradd-steps--cluster-idj-XXXXXXXXXX--stepsType=CUSTOM_JAR,Name="S3DistCpstep",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com","--src,s3://folder-name/logs/j-XXXXXXXXXX/node/","--dest,hdfs:///output","--srcPattern,.*[a-zA-Z,]+"]

hadoop amazon 34 section code amazon-s3 hive amazon-emr s3distcp

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

amazon-web-services services hadoop java apache mapreduce elastic-map-reduce

amazon-web-services - Amazon EMR MapReduce 进度回滚？

嗨，我刚刚想到了一个奇怪的任务:我使用EMR运行java-MapReduce作业。数据大概是1T，我用的是1master+8slave。所有实例都是r2.2xlarge。最初，一切看起来都很好，如下所示:INFOmapreduce.Job:map0%reduce0%INFOmapreduce.Job:map1%reduce0%INFOmapreduce.Job:map2%reduce0%INFOmapreduce.Job:map3%reduce0%INFOmapreduce.Job:map4%reduce0%INFOmapreduce.Job:map5%reduce0%INFOmapr

amazon-web-services MapReduce reduce INFO hadoop amazon-emr elastic-map-reduce