emrs_草庐IT

hadoop - 为 Amazon EMR 应用程序设置 Reducer 的数量

我正在尝试在AmazonEMR下运行wordcount示例。-1-首先，我使用以下命令创建集群:./elastic-mapreduce--create--name"MyTest"--alive这将创建一个具有单个实例的集群并返回一个jobID，假设为j-12NWUOKABCDEF-2-其次，我使用以下命令启Action业:./elastic-mapreduce--jobflowj-12NWUOKABCDEF--jars3n://mybucket/jar-files/wordcount.jar--main-classabc.WordCount--args3n://mybucket/输入数

scala - EMR Spark 无法将 Dataframe 保存到 S3

我正在使用RunJobFlow命令启动SparkEMR集群。此命令设置JobFlowRole到具有政策AmazonElasticMapReduceforEC2Role的IAM角色和AmazonRedshiftReadOnlyAccess.第一个策略包含允许所有s3权限的操作。当EC2实例启动时，它们会承担这个IAM角色，并通过STS生成临时凭证。我做的第一件事是使用com.databricks.spark.redshift从我的Redshift集群读取一个表到一个SparkDataframe中。格式并使用相同的IAM角色从redshift卸载数据，就像我为EMR所做的那样JobFlow

Dataframe scala code 凭据 section amazon-web-services hadoop apache-spark amazon-s3

hadoop - AWS EMR 不生成 NameNode FsImage

我们一直在运行一个3节点AWSEMR集群(1个NameNode，2个DataNode)。观察到Namenode检查点没有发生，fsImage，md5文件没有更新。编辑日志堆积如山，导致NameNode因磁盘空间不足而出现故障。HDFS版本:Hadoop2.8.3-amzn-0-rw-r--r--1hdfshdfs62Sep312:04fsimage_0000000000000000000.md5-rw-r--r--1hdfshdfs317Sep312:04fsimage_0000000000000000000-rw-r--r--1hdfshdfs260954697Sep313:49ed

NameNode FsImage hdfs edits rw-r hadoop amazon-emr

hadoop - bootstrap 中设置的环境变量在 AWS EMR 中不生效

我正在我的Bootstrap代码中设置一个环境变量exportHADOOP_HOME=/home/hadoopexportHADOOP_CMD=/home/hadoop/bin/hadoopexportHADOOP_STREAMING=/home/hadoop/contrib/streaming/hadoop_streaming.jarexportJAVA_HOME=/usr/lib64/jvm/java-7-oracle/接下来是使用上面定义的变量之一-$HADOOP_CMDfs-mkdir/home/hadoop/contents$HADOOP_CMDfs-put/home/had

中设 bootstrap code hadoop section amazon-web-services environment-variables bootstrapping emr

hadoop - 如何在emr上重启hadoop集群

我在AmazonElasticMapReduce上安装了hadoop，每当我尝试重新启动集群时，我都会收到以下错误:/stop-all.shnojobtrackertostopTheauthenticityofhost'localhost(::1)'can'tbeestablished.RSAkeyfingerprintisAreyousureyouwanttocontinueconnecting(yes/no)?yeslocalhost:Warning:Permanentlyadded'localhost'(RSA)tothelistofknownhosts.localhost:Pe

hadoop 何在 section localhost emr

hadoop - 创建没有公网 IP 地址的 EMR 集群

出于安全原因，我希望创建一个EMR集群，其中没有为任何实例分配公共(public)IP地址。我已经能够在我的VPC中启动集群，并使用我自己的自定义安全组，但由于某种原因，默认情况下所有节点都分配了一个公共(public)IP地址。我在EMRCLI文档中找不到任何关于如何禁用它的信息:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-cli-commands.html有什么想法吗？实例必须具有公共(public)IP是否有一些特定于EMR的原因？最佳答案

公网 hadoop section ElasticMapReduce DeveloperGuide amazon-web-services emr

hadoop - 将 Hadoop+Hive 与 AWS EMR 上的 MongoDB 连接(找不到类 com/mongodb/DBObject)

我喜欢通过MongoDB连接(而不是通过BSON转储)将EMR集群连接到我们的MongoDB。为此，我通过AWS管理控制台生成了集群。在Bootstrap配置中，我指向了这个位于S3上的文件:#!/bin/shwget-P/home/hadoop/libhttp://central.maven.org/maven2/org/mongodb/mongo-java-driver/2.13.0/mongo-java-driver-2.13.0.jarwget-P/home/hadoop/libhttps://github.com/mongodb/mongo-hadoop/releases/d

DBObject MongoDB hadoop java mongo amazon-web-services hive mongodb-java emr

hadoop - 如何在 Amazon EMR 上配置 Hadoop 参数？

我在AmazonEMR上使用一个主服务器和两个从服务器运行MR作业，但收到很多错误消息，例如runningbeyondphysicalmemorylimits。当前使用情况:已使用3.0GB的3GB物理内存；使用了3.7GB的15GB虚拟内存。在map100%reduce35%后杀死容器我通过在Hadoop2.6.0MR配置中添加以下行来修改我的代码，但我仍然收到相同的错误消息。Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"jobtest2");//conf.set("mapreduce.input.

何在 hadoop code mapreduce section amazon-web-services hadoop2 emr amazon-emr

hadoop - 停止 hadoop/EMR/AWS 创建带有 _$folder$ 扩展名的 S3 路径

在EMR上运行spark作业，输出直接写入S3。我注意到每个S3目录路径(例如/the/s3/path)都包含一个名为/the/s3/path_$folder$的标志文件。这导致使用spark重新加载数据时出现问题(它是Parquet，spark提示额外的文件等)。我怎样才能阻止AWS/无论它是什么来创建这个标志？它过去也发生在hadoop作业中，所以我不认为它是spark(尽管它使用hadoopFS的东西)。最佳答案嗯，是的，我以前也获取过这些文件夹，但是它们不再出现了...我怀疑是因为我对hadoopConfiguratio

hadoop 扩展名 code section hadoopConfiguration amazon-web-services amazon-s3 apache-spark emr

amazon-web-services - AWS EMR 使用 KMS 加密 S3 存储桶

我的EMR出现以下情况，有人可以指导如何进行相同的配置吗？EMR集群跨数据管道执行多项操作:使用KMSKEY1将EMR写入S3BUCKET1使用KMSKEY2将EMR写入S3BUCKET2如何在EMR中配置以上内容？我知道配置EMR的唯一选项位于emrfs-site.xml&/etc/hadoop/conf.empty/core-site.xml这些有标签fs.s3.serverSideEncryption.kms.keyId如何使用上述KMSkey实现我的要求？我需要为不同的存储桶写入在KMSkey之间切换。最佳答案您可以为E

amazon-web-services services code section 34 hadoop amazon-s3 amazon-emr aws-kms