草庐IT

aws-documentdb-mongoapi

全部标签

hadoop - 当 aws emr 核心节点在 hadoop 环境中死亡时会发生什么

我有一个包含1个主节点和2个核心节点的EMR集群。这会自动将复制因子设置为1。所以我从文档中读到的意思是,当文件上传到节点时,它仅存储在该节点上。在我的例子中,我有一个spark应用程序,它运行得很好,直到其中一个核心节点由于某种我仍在调查的原因而死掉。当该节点死亡时,我的应用程序也因以下错误而死亡:Diagnostics:Couldnotobtainblock:BP-1346795555-172.31.18.53-1503395276403:blk_1073762933_22444file=/user/hadoop/.sparkStaging/application_15035806

amazon-web-services - 在 AWS EMR 中编辑配置文件

在哪里可以找到AWSEMR的配置文件?主要是我在寻找hue.ini文件,我启动了一个新集群,打开了hueUI,创建了新的super用户并登录。然后我看到了该区域中的所有s3存储桶,但我无法访问存储桶中的文件,我不断收到此错误-Failedtoaccesspath:"s3a://data-storage"Checkthatyouhaveaccesstoreadthisbucketandthattheregioniscorrect:BadRequest.然后我尝试按照这个将我的s3帐户添加到hue-http://gethue.com/introducing-s3-support-in-hu

hadoop - Flink - AWS EMR 中的 AWSS3IOException 由带有 S3A 的 BucketingSink 引起

我有一个在AWSEMR中运行的具有高并行度(400)的Flink应用程序。它使用BucketingSink(使用RocksDb后端进行检查点)获取Kafka并汇入S3。目的地使用“s3a://”前缀定义。Flink作业是一个连续运行的流式应用程序。在任何给定时间,所有工作人员加起来可能会生成/写入400个文件(由于400并行度)。几天后,其中一名worker将失败,但出现异常:org.apache.hadoop.fs.s3a.AWSS3IOException:copyFile(bucket/2018-09-01/05/_file-10-1.gz.in-progress,bucket/2

scala - 使用临时凭证从 AWS 外部通过 spark 从 s3 读取

我正在尝试通过IntelliJ从我的笔记本电脑读取s3中的文件,这样我就可以更轻松地开发我的spark作业。textFileRDD代码在EMR集群内的Zeppelin中工作,但当我在本地尝试时却不行。在Zeppelin中,我不需要设置任何spark上下文,大概是因为Zeppelin实例在AWS环境中,它为我做了这件事。我编写了代码来创建临时AWS凭证(使用我的IAM用户key),以便我可以向spark上下文提供sessiontoken。访问key和secretkey也来自临时凭证。valsqlContext=sparkSession.sqlContextsqlContext.spark

apache-spark - 如何从 spark2.3 访问 us-east-2 区域上的 Parquet 文件(使用 hadoop aws 2.7)

我们可以从当前代码访问us-east-1,但无法访问us-east-2上的parquet文件。请注意“us-east-2”连接,创建datafream在intellij上工作正常,但当我们从spark-shell尝试时它会给出400错误。我试图在sparkshell上工作/Users/test/Downloads/spark-2.3.3-bin-hadoop2.7/bin/spark-shell--jars/Users/test/Downloads/hadoop-aws-2.7.3.jar,/Users/测试/下载/aws-java-sdk-1.7.4.jarval配置=sc.hado

hadoop - AWS EMR CLI - 将参数传递给 HIVE

我正在使用aws的emrruby​​cli来生成Hadoop集群,我正在尝试包含要在其他地方托管的HIVE脚本中使用的参数,如下所示:./elastic-mapreduce--create...--args-d,DT=2013-01-26'DT'在我的HadoopJarStep.Args数组中显示令人满意,所以我尝试将它包含在HIVE脚本中,如下所示:...tblproperties('dynamodb.table.name'=${DT},...但我很快就明白了:ParseError:line8:28mismatchedinput'$'expectingStringLiteralnea

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例,并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例,但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例,因为我想重用这些实例。如何停止这些实例? 最佳答案 由于您的实例来自实例存储支持的AMI,您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题,您可以从您的实例创建一个AMI,然后使用新的AMI重新启动您的环境,这样您就可以选择停止您的实例。

java - AWS Elastic Map Reduce 中线程 "main"java.lang.NoClassDefFoundError 中的异常

我正在尝试使用JAR文件在AWSElasticMapReduce上运行hadoop作业。我正在使用一个名为EJMLhttps://code.google.com/p/efficient-java-matrix-library/wiki/EjmlManual的库.我使用project-->BuildPath-->ConfigureBuildPath-->AddExtrenalJarsinEclipse将它作为外部库包含在我的项目中。当我在本地计算机上运行该项目时,一切都很好。但是在AWS上我得到了错误,Exceptioninthread"main"java.lang.NoClassDef

hadoop - 如何使用 AWS 自动缩放?

我是AWS世界的新手,我正在尝试自动扩展/缩减我的Hadoop集群。我很困惑,因为有太多新事物和自动缩放,CloudWatch服务在我看来几乎一模一样。任何人都可以帮助我理解以下内容。这两种API都使我们能够监控集群,但这两者之间有什么区别?我们可以使用Ganglia之类的工具来监控集群,使用AWS命令​​生成或关闭实例。那么为什么要使用autoscaling、cloudwatch呢?使用它们有什么好处?要使用autoscaling或cloudwatch,我们必须下载并安装Java/PythonSDK。在哪里安装这些SDK?在AWS之外的我的桌面上还是在AWS的一个实例上?我在Amaz

hadoop - 在 AWS EMR 上用 Lipstick 运行 Pig

我正在使用script-runner.jar运行AWSEMRPig作业,如下所述:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-script.html现在,我想连接Netflix的Lipstick来监控我的脚本。我设置了服务器,并在此处的wiki中:https://github.com/Netflix/Lipstick/wiki/Getting-Started我不太清楚如何执行最后一步:hadoopjarlipstick-console-[version].jar-Dlipsti