草庐IT

hadoop - 为 Amazon EMR 应用程序设置 Reducer 的数量

我正在尝试在AmazonEMR下运行wordcount示例。-1-首先,我使用以下命令创建集群:./elastic-mapreduce--create--name"MyTest"--alive这将创建一个具有单个实例的集群并返回一个jobID,假设为j-12NWUOKABCDEF-2-其次,我使用以下命令启Action业:./elastic-mapreduce--jobflowj-12NWUOKABCDEF--jars3n://mybucket/jar-files/wordcount.jar--main-classabc.WordCount--args3n://mybucket/输入数

scala - EMR Spark 无法将 Dataframe 保存到 S3

我正在使用RunJobFlow命令启动SparkEMR集群。此命令设置JobFlowRole到具有政策AmazonElasticMapReduceforEC2Role的IAM角色和AmazonRedshiftReadOnlyAccess.第一个策略包含允许所有s3权限的操作。当EC2实例启动时,它们会承担这个IAM角色,并通过STS生成临时凭证。我做的第一件事是使用com.databricks.spark.redshift从我的Redshift集群读取一个表到一个SparkDataframe中。格式并使用相同的IAM角色从redshift卸载数据,就像我为EMR所做的那样JobFlow

hadoop - AWS EMR 不生成 NameNode FsImage

我们一直在运行一个3节点AWSEMR集群(1个NameNode,2个DataNode)。观察到Namenode检查点没有发生,fsImage,md5文件没有更新。编辑日志堆积如山,导致NameNode因磁盘空间不足而出现故障。HDFS版本:Hadoop2.8.3-amzn-0-rw-r--r--1hdfshdfs62Sep312:04fsimage_0000000000000000000.md5-rw-r--r--1hdfshdfs317Sep312:04fsimage_0000000000000000000-rw-r--r--1hdfshdfs260954697Sep313:49ed

hadoop - bootstrap 中设置的环境变量在 AWS EMR 中不生效

我正在我的Bootstrap代码中设置一个环境变量exportHADOOP_HOME=/home/hadoopexportHADOOP_CMD=/home/hadoop/bin/hadoopexportHADOOP_STREAMING=/home/hadoop/contrib/streaming/hadoop_streaming.jarexportJAVA_HOME=/usr/lib64/jvm/java-7-oracle/接下来是使用上面定义的变量之一-$HADOOP_CMDfs-mkdir/home/hadoop/contents$HADOOP_CMDfs-put/home/had

hadoop - 如何在emr上重启hadoop集群

我在AmazonElasticMapReduce上安装了hadoop,每当我尝试重新启动集群时,我都会收到以下错误:/stop-all.shnojobtrackertostopTheauthenticityofhost'localhost(::1)'can'tbeestablished.RSAkeyfingerprintisAreyousureyouwanttocontinueconnecting(yes/no)?yeslocalhost:Warning:Permanentlyadded'localhost'(RSA)tothelistofknownhosts.localhost:Pe

hadoop - 创建没有公网 IP 地址的 EMR 集群

出于安全原因,我希望创建一个EMR集群,其中没有为任何实例分配公共(public)IP地址。我已经能够在我的VPC中启动集群,并使用我自己的自定义安全组,但由于某种原因,默认情况下所有节点都分配了一个公共(public)IP地址。我在EMRCLI文档中找不到任何关于如何禁用它的信息:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-cli-commands.html有什么想法吗?实例必须具有公共(public)IP是否有一些特定于EMR的原因? 最佳答案

hadoop - 将 Hadoop+Hive 与 AWS EMR 上的 MongoDB 连接(找不到类 com/mongodb/DBObject)

我喜欢通过MongoDB连接(而不是通过BSON转储)将EMR集群连接到我们的MongoDB。为此,我通过AWS管理控制台生成了集群。在Bootstrap配置中,我指向了这个位于S3上的文件:#!/bin/shwget-P/home/hadoop/libhttp://central.maven.org/maven2/org/mongodb/mongo-java-driver/2.13.0/mongo-java-driver-2.13.0.jarwget-P/home/hadoop/libhttps://github.com/mongodb/mongo-hadoop/releases/d

hadoop - 如何在 Amazon EMR 上配置 Hadoop 参数?

我在AmazonEMR上使用一个主服务器和两个从服务器运行MR作业,但收到很多错误消息,例如runningbeyondphysicalmemorylimits。当前使用情况:已使用3.0GB的3GB物理内存;使用了3.7GB的15GB虚拟内存。在map100%reduce35%后杀死容器我通过在Hadoop2.6.0MR配置中添加以下行来修改我的代码,但我仍然收到相同的错误消息。Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"jobtest2");//conf.set("mapreduce.input.

hadoop - 停止 hadoop/EMR/AWS 创建带有 _$folder$ 扩展名的 S3 路径

在EMR上运行spark作业,输出直接写入S3。我注意到每个S3目录路径(例如/the/s3/path)都包含一个名为/the/s3/path_$folder$的标志文件。这导致使用spark重新加载数据时出现问题(它是Parquet,spark提示额外的文件等)。我怎样才能阻止AWS/无论它是什么来创建这个标志?它过去也发生在hadoop作业中,所以我不认为它是spark(尽管它使用hadoopFS的东西)。 最佳答案 嗯,是的,我以前也获取过这些文件夹,但是它们不再出现了...我怀疑是因为我对hadoopConfiguratio

amazon-web-services - AWS EMR 使用 KMS 加密 S3 存储桶

我的EMR出现以下情况,有人可以指导如何进行相同的配置吗?EMR集群跨数据管道执行多项操作:使用KMSKEY1将EMR写入S3BUCKET1使用KMSKEY2将EMR写入S3BUCKET2如何在EMR中配置以上内容?我知道配置EMR的唯一选项位于emrfs-site.xml&/etc/hadoop/conf.empty/core-site.xml这些有标签fs.s3.serverSideEncryption.kms.keyId如何使用上述KMSkey实现我的要求?我需要为不同的存储桶写入在KMSkey之间切换。 最佳答案 您可以为E