草庐IT

amazon-web-services - 列出 EMR 上的 S3 文件夹

我无法理解如何在Spark作业期间简单地列出EMR上S3存储桶的内容。我想做以下事情Configurationconf=spark.sparkContext().hadoopConfiguration();FileSystems3=S3FileSystem.get(conf);Listlist=toList(s3.listFiles(newPath("s3://mybucket"),false))这总是失败并出现以下错误java.lang.IllegalArgumentException:WrongFS:s3://*********/,expected:hdfs://*********

java - Amazon (EMR) 使用哪个 Hadoop 版本?

我想创建一个Hadoop作业并在EC2MapReduce上运行它。另外,我想在上传到EC2之前在本地运行该作业。我应该在本地安装哪个版本/类型的Hadoop?我可以使用ClouderaVM吗?亚马逊使用哪个Hadoop版本? 最佳答案 AmazonElasticMapReduce支持Hadoop0.18、0.20和0.20.205(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_AMIVersion.

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常,直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

java - 从 ID Amazon EMR 获取集群对象

我通过GUI屏幕启动了一个EMR集群。集群启动后,我可以看到ID。如何获取表示具有该ID的集群的类Cluster的对象?我正在使用Java与EMR交互。 最佳答案 您不能只运行一条命令来获取集群的身份。以下是读取所有故障集群ID的算法的工作示例。AWSCredentialscredentials;credentials=newBasicAWSCredentials("myAccessKey","mySecretKey");AmazonElasticMapReduceClientemrClient;emrClient=newAmazo

hadoop - 亚马逊 EMR 排序

我是AmazonEMR的新手,我想了解映射之后(缩减阶段之前)的排序阶段是如何工作的,以及我是否可以操纵它(通过某种方式提供我自己的比较函数。如果您知道映射阶段的输出需要是什么样子,那将非常有帮助。目前我有一个以这种格式打印出来的简单map阶段:"keyA|keyB|valueA1|valueA2"我的reducer函数接收这些行并将它们合并到:"keyA|keyB|sum_valueA1|sum_valueA2"问题是在reducer阶段我只得到完全相同的行。这意味着,键是相同的,也有值。这是一个问题,并且不允许我利用map-reduce的全部功能。我看到他们在他们的wordcoun

hadoop - 重启 Amazon EMR 集群

我正在使用AmazonEMR(Hadoop2/AMI版本:3.3.1)并且我想更改默认配置(例如复制因子)。为了使更改生效,我需要重新启动集群,这就是我的问题开始的地方。怎么做?我在./.versions/2.4.0/sbin/stop-dfs.sh找到的脚本不起作用。从文件./.versions/2.4.0/etc/hadoop/slaves无论如何都是空的。init.d中有一些脚本:$ls-l/etc/init.d/hadoop-*-rwxr-xr-x1rootroot477Nov802:19/etc/init.d/hadoop-datanode-rwxr-xr-x1rootroo

hadoop - 文件在 Amazon EMR 中不存在,即使它尝试上传它

我使用AmazonEMR创建了一个emr-4.0.0集群:但是,每当我尝试在其上提交spark应用程序时,它都会失败并出现以下错误:文件不存在:hdfs://ip-xx-xx-xxx-xx.ec2.internal:8020/user/hadoop/.sparkStaging/application_1441035668468_0001/spark-assembly-1.4.1-hadoop2。6.0-amzn-0.jar即使在日志的前面它上传了这个完全相同的文件而没有发出任何错误消息:2015-08-3115:43:29,070INFO[main]yarn.Client(Loggin

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR,我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时,一切都完美无缺。然而,当我针对我的完整数据集运行它时,在我的工作中花费了一段(随机)时间,我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中,我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

hadoop - AWS EMR 4.0 - 如何添加自定义 JAR 步骤以运行 shell 命令

我正在尝试使用EMR4.0.0上的步骤运行shell命令,并使用此链接作为引用-http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-script.html但我想知道从何处将“command-runner.jar”放入“JAR位置”字段http://i.stack.imgur.com/CRicz.png我在AWSs3中保留了“command-runner.jar”并尝试从该位置加载它,在“参数”中给出了我的“example.sh”文件的s3位置,在添加步骤后它失败并给出了这个异常Exce

hadoop - EMR 引导操作何时运行

我正在创建一个AWS集群,我有一个引导操作来更改spark-defaults.conf。服务器不断终止说can'tread/etc/spark/conf/spark-defaults.conf:Nosuchfileordirectory不过如果我跳过这个并在服务器上检查文件是否存在。所以我假设事物的顺序不正确。我正在使用提供的EMR4.5的Spark1.6.1,因此它应该默认安装。有什么线索吗?谢谢! 最佳答案 您不应在引导操作中更改Spark配置。相反,您应该在启动集群时需要添加的特殊json文件中指定您必须对spark-defa