EMR_草庐IT

amazon-web-services - 是否可以通过 EMR(通过 VPC)查看 Spark UI？

我已经完成了https://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide/emr-ssh-tunnel-local.html中描述的过程通过本地端口转发打开ssh隧道，然后转到http://localhost:8157/.这将打开Hadoop/YARN界面，此时我单击TrackingUI/ApplicationMaster链接，并收到“找不到此站点的服务器DNS”页面。根据AWS文档http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/em

hadoop - 当 aws emr 核心节点在 hadoop 环境中死亡时会发生什么

我有一个包含1个主节点和2个核心节点的EMR集群。这会自动将复制因子设置为1。所以我从文档中读到的意思是，当文件上传到节点时，它仅存储在该节点上。在我的例子中，我有一个spark应用程序，它运行得很好，直到其中一个核心节点由于某种我仍在调查的原因而死掉。当该节点死亡时，我的应用程序也因以下错误而死亡:Diagnostics:Couldnotobtainblock:BP-1346795555-172.31.18.53-1503395276403:blk_1073762933_22444file=/user/hadoop/.sparkStaging/application_15035806

hadoop aws section stackoverflow apache-spark amazon-emr

hadoop - 尽管 hadoop 访问有效，但在 EMR 上将 spark 与 s3 结合使用失败

这个问题在这里已经有了答案:SparkreadfilefromS3usingsc.textFile("s3n://...)(14个答案)关闭4年前。我正在尝试访问s3://路径spark.read.parquet("s3://")我得到了这个错误Py4JJavaError:Anerroroccurredwhilecallingo31.parquet.:java.io.IOException:NoFileSystemforscheme:s3但是，运行以下行hadoopfs-ls有效...所以我猜这可能是hadoop和spark之间的配置问题如何解决？编辑阅读建议的答案后，我尝试将硬编码的

hadoop 尽管 section code spark apache-spark amazon-s3 amazon-emr

amazon-web-services - 在 AWS EMR 中编辑配置文件

在哪里可以找到AWSEMR的配置文件？主要是我在寻找hue.ini文件，我启动了一个新集群，打开了hueUI，创建了新的super用户并登录。然后我看到了该区域中的所有s3存储桶，但我无法访问存储桶中的文件，我不断收到此错误-Failedtoaccesspath:"s3a://data-storage"Checkthatyouhaveaccesstoreadthisbucketandthattheregioniscorrect:BadRequest.然后我尝试按照这个将我的s3帐户添加到hue-http://gethue.com/introducing-s3-support-in-hu

amazon-web-services services section hue code hadoop amazon-s3 amazon-emr

hadoop - Flink - AWS EMR 中的 AWSS3IOException 由带有 S3A 的 BucketingSink 引起

我有一个在AWSEMR中运行的具有高并行度(400)的Flink应用程序。它使用BucketingSink(使用RocksDb后端进行检查点)获取Kafka并汇入S3。目的地使用“s3a://”前缀定义。Flink作业是一个连续运行的流式应用程序。在任何给定时间，所有工作人员加起来可能会生成/写入400个文件(由于400并行度)。几天后，其中一名worker将失败，但出现异常:org.apache.hadoop.fs.s3a.AWSS3IOException:copyFile(bucket/2018-09-01/05/_file-10-1.gz.in-progress,bucket/2

AWSS3IOException BucketingSink apache section hadoop amazon-s3 apache-flink amazon-emr

apache-spark - 使用 Airflow dag run 创建 EMR 集群，任务完成后 EMR 将终止

我有Airflow作业，它们在EMR集群上运行良好。我需要的是，假设我有4个Airflow作业需要EMR集群，假设20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群，一旦作业完成，它就会终止创建的EMR集群。最佳答案当然，那将是对资源最有效的利用。让我警告你:这里面有很多细节；我会尽力列出尽可能多的内容。我鼓励您添加自己的综合答案，列出您遇到的任何问题和解决方法(一旦您解决了这个问题)关于集群创建/终止对于集群的创建和终止，您有EmrCreateJobFlowOperator和EmrTerminateJobFl

apache-spark EMR code noreferrer airflow hadoop amazon-emr

amazon-web-services - EC2(持久)HDFS 和 EMR( transient )HDFS 如何通信

我已经在AmazonEC2上使用NameNode/DataNode和其他一些服务设置了一个Hadoop集群。我的摄取工作将数据带入EC2HDFS集群(比方说hdfs://ec2-hdfs/)。现在我有一个每周批量运行的管道。我正在启动一个新的AmazonEMR集群来运行我的计算。处理完成后，我将终止EMR集群。需要在EMR中运行的我的spark作业的输入位于EC2HDFS(hdfs://ec2-hdfs/)中。如何从新创建的EMR集群访问它？我相信在EMR集群启动期间应该有一些选项(bootstrap/VPC/子网)可用。最佳答案

amazon-web-services HDFS section code apache-spark hadoop amazon-ec2

amazon-web-services - 在EMR集群上如何进入/etc/hadoop/conf这个路径？

我是EMR和Spark的新手。我正在执行此处提到的这些步骤https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/.在第5步中，它说复制远程AmazonEMR集群上/etc/hadoop/conf中的所有文件。。想知道如何从/etc/hadoop/conf获取这些文件。如果我的理解有误，请指正。在此先感谢并感谢。最佳答案通过ssh访问EMR实例，进入文件夹/etc/hadoop/conf并将所有文件复制到

amazon-web-services services section EMR hadoop apache-spark amazon-emr

apache-spark - EMR 没有检测到所有的内存

我使用EMR5.18运行Spark任务。这是设置:出于任何原因，EMR无法检测工作节点上的所有可用内存。我在EMRConfiguration部分没有添加任何内容，都是默认设置。知道是什么原因造成的吗？谢谢。编辑:关于yarn.nodemanager.resource.memory-mb的值。在UI中显示28672但在yarn-site.xml中显示为352768这是安装的应用程序列表:Hive2.3.3、Pig0.17.0、Hue4.2.0、Spark2.3.2、Ganglia3.7.2、Presto0.210、Livy0.5.0、Zeppelin0.8.0、Oozie5.0.0Edi

apache-spark apache code section noreferrer hadoop amazon-emr

python - 在 EMR 上的 MRJob 中导入模块

简单的问题:我有一个模块headers.py，它定义了我在MRJob主脚本中需要的几个变量。我应该能够用pythonMRMyJob-remr--file=headers.pys3://input/data/path然后在我的MRJob脚本(MRMyJob)中，以下应该起作用:fromheadersimportheader1,header2,header3对吧？来自mrjob--help页面:“--file=UPLOAD_FILES将文件复制到此脚本的工作目录。你可以多次使用--file。”当我尝试导入它时，我仍然收到“没有名为标题的模块”。最佳答案

中导 python section code headers hadoop emr mrjob