草庐IT

amazon-policy

全部标签

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库?

为了加快jar到s3的上传速度,我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法? 最佳答案 您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单,然后如果您从命令行启动EMR,请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者,如果您通过网络界面执行此操作,只需在相应字段中输入位置即可。

hadoop - 在 amazon EMR 上运行 HBase 时,为什么/tmp 文件夹与实际数据相比很大?

我们在amazonEMR上有一个默认配置的hadoop+hbase集群,所以mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的集群已经运行了一段时间,现在/tmp为500Gb,而实际/hbase数据为70Gb。这种差异似乎太大了,我们是否应该定期删除一些/tmp数据? 最佳答案 经过一些调查,我发现我们的/tmp数据的最大部分是由Amazon将Hbase自动备份到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。我们决定禁用Amazon的自动备份

amazon-web-services - 如何计算映射器/缩减器的数量,以最大限度地提高在亚马逊云上运行的 mahout Recommender Job 的性能?

根据AmazonElasticMapReduce上使用/可用的实例,计算要使用的正确hadoop映射器和缩减器数量的最佳方法是什么?(使用mahout-core-0.7发行版的RecommenderJob) 最佳答案 通用的Hadoop答案适用:让Hadoop选择映射器的数量将reducer的数量设置为等于集群中reduce插槽的数量对于EMR,查看在您使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Ha

hadoop - Amazon Elastic Cloud 无法在子网上启动

我正在尝试在我们自己的VPC上启动EC2集群。我可以使用命令在AWS中启动它,但如果我指定我们自己的VPC/子网,它就无法启动集群(因此,我们不是在谈论将在其上运行的作业——我们正在谈论启动默认集群本身)。显然,这一定与sub和AWS的Hadoop有关(尽管它不是常见的“无法在主RouteTable中找到到InternetGateway的路由”错误)。我无法从日志中确定任何原因。这在命令行和使用AWSWeb控制台时都会发生。我们不会在集群上执行任何自定义操作/环境。这是子网的详细信息DestinationTarget10.0.0.0/16local0.0.0.0/0igw-2235d2

hadoop - 当我使用 Amazon EMR 上的 Hive 引擎从 Presto 导出数据时发生 FileAlreadyExistsException

我尝试使用Presto和AmazonEMR上的Hive引擎将数据从S3存储桶导出到其他S3存储桶,如ETL,但在我导出数据时发生了FileAlreadyExistsException。如何使用Presto导出数据?环境emr-4.3.0hive1.0.0Presto-Sandbox0.130错误我尝试了以下操作:$hivehive>CREATEEXTERNALTABLElogs(logstring)->LOCATION's3://foo-bucket/logs/';hive>CREATEEXTERNALTABLEs3_export(logstring)->ROWFORMATDELIMI

hadoop - 解析参数错误,amazon aws emr

我正在尝试通过Linux控制台创建一个步骤:awsemradd-steps--cluster-idj-XXXXXXXXXX--stepsType=CUSTOM_JAR,Name="S3DistCpstep",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com","--src,s3://folder-name/logs/j-XXXXXXXXXX/node/","--dest,hdfs:///output","--srcPattern,.*[a-zA-Z,]+"]

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

amazon-web-services - Amazon EMR MapReduce 进度回滚?

嗨,我刚刚想到了一个奇怪的任务:我使用EMR运行java-MapReduce作业。数据大概是1T,我用的是1master+8slave。所有实例都是r2.2xlarge。最初,一切看起来都很好,如下所示:INFOmapreduce.Job:map0%reduce0%INFOmapreduce.Job:map1%reduce0%INFOmapreduce.Job:map2%reduce0%INFOmapreduce.Job:map3%reduce0%INFOmapreduce.Job:map4%reduce0%INFOmapreduce.Job:map5%reduce0%INFOmapr

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

我最近失去了通过ssh将我的主人连接到我的奴隶和辅助名称节点的能力。我有4个EC2实例,上面有一个hadoop集群(一个NameNode、一个辅助nameNode和2个从节点)。我仍然可以用putty建立ssh连接,但是我无法实现如下的ssh连接:sshubuntu@instanceDns。我有以下错误:Permissiondenied(publickey).我确定我没有对ssh连接进行任何更改,所以我有点惊讶。这是一个详细的ssh连接试探性屏幕。我注意到我的.ssh文件中不再有id_rsa、id_rsa-cert和其他文件。我猜他们以前在这里,但我不知道他们会这样消失。为什么会这样?

amazon-web-services - 如何更改在 AWS 数据管道中运行的 Hive 事件的内存设置?

在使用AWSDataPipeline运行一个HiveActivity时,我的Hive事件失败并出现以下错误:Diagnostics:Container[pid=,containerID=]isrunningbeyondphysicalmemorylimits.Currentusage:1.0GBof1GBphysicalmemoryused;2.8GBof5GBvirtualmemoryused.Killingcontainer.当我运行由HiveActivity手动执行的Hive脚本时,我必须按如下所示执行它:hive\-hiveconftez.am.resource.memory.