EMR

hadoop - 通过 Java 代码从本地计算机连接 AWS EMR 上的 HDFS

我想了解如何从我的本地机器连接到hdfs(在awsEMR上)我的示例程序publicclassEMRConnection{publicstaticvoidmain(String[]args)throwsIOException,URISyntaxException{Configurationconfig=newConfiguration();FileSystemhdfs=FileSystem.get(newURI("hdfs://***-**-**-***-***.compute-1.amazonaws.com:50070"),config);hdfs.mkdirs(newPath("/

hadoop - 如何在 EMR 集群的所有节点上执行 shell 脚本？

是否有合适的方法在正在运行的EMRhadoop集群中的每个节点上执行shell脚本？我寻找的一切都会带来引导操作，但这只适用于集群启动时，不适用于正在运行的集群。我的应用程序使用的是python，所以我目前的猜测是使用boto列出集群中每个节点的IP，然后遍历每个节点并通过ssh执行shell脚本。有没有更好的办法？最佳答案如果您的集群已经启动，您应该使用步骤。这些步骤是在集群启动后执行的，因此从技术上讲它似乎就是您要查找的内容。注意，步骤仅在主节点上执行，您应该以某种方式连接到其余节点以修改它们。Stepsarescripts

有节何在 section strong stackoverflow hadoop amazon-web-services amazon-emr

amazon-web-services - AWS EMR 集群失败，因为磁盘已满

我在具有约10个节点的awsemr集群上运行一些Map-Reduce-Jobs。(emr4.7.11,m3.xlarge)当作业正在运行时，工作节点在约4小时后开始一个接一个地死亡。在日志中我发现了以下错误:“1/3本地目录错误:/mnt/yarn；1/1日志目录错误:/var/log/hadoop-yarn/containers”当节点出现故障时，工作节点上的磁盘使用率为96%。所以我假设节点上的磁盘达到100%，并且没有文件可以写入磁盘。所以我尝试为每个实例附加一个500GB的EBS卷。但是Hadoop只使用了/mnt，并没有使用额外的Volume(/mnt2)。如何配置AWSEM

amazon-web-services services hadoop code section amazon-emr

amazon-web-services - 列出 EMR 上的 S3 文件夹

我无法理解如何在Spark作业期间简单地列出EMR上S3存储桶的内容。我想做以下事情Configurationconf=spark.sparkContext().hadoopConfiguration();FileSystems3=S3FileSystem.get(conf);Listlist=toList(s3.listFiles(newPath("s3://mybucket"),false))这总是失败并出现以下错误java.lang.IllegalArgumentException:WrongFS:s3://*********/,expected:hdfs://*********

amazon-web-services services section code FileSystem hadoop amazon-s3 amazon-emr

java - Amazon (EMR) 使用哪个 Hadoop 版本？

我想创建一个Hadoop作业并在EC2MapReduce上运行它。另外，我想在上传到EC2之前在本地运行该作业。我应该在本地安装哪个版本/类型的Hadoop？我可以使用ClouderaVM吗？亚马逊使用哪个Hadoop版本？最佳答案 AmazonElasticMapReduce支持Hadoop0.18、0.20和0.20.205(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_AMIVersion.

Amazon Hadoop section Cloudera java amazon-ec2 amazon-emr

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常，直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

Mahout space hadoop JobClient mapred java amazon-web-services emr

java - 从 ID Amazon EMR 获取集群对象

我通过GUI屏幕启动了一个EMR集群。集群启动后，我可以看到ID。如何获取表示具有该ID的集群的类Cluster的对象？我正在使用Java与EMR交互。最佳答案您不能只运行一条命令来获取集群的身份。以下是读取所有故障集群ID的算法的工作示例。AWSCredentialscredentials;credentials=newBasicAWSCredentials("myAccessKey","mySecretKey");AmazonElasticMapReduceClientemrClient;emrClient=newAmazo

Amazon java section emrClient 34 hadoop emr

hadoop - 亚马逊 EMR 排序

我是AmazonEMR的新手，我想了解映射之后(缩减阶段之前)的排序阶段是如何工作的，以及我是否可以操纵它(通过某种方式提供我自己的比较函数。如果您知道映射阶段的输出需要是什么样子，那将非常有帮助。目前我有一个以这种格式打印出来的简单map阶段:"keyA|keyB|valueA1|valueA2"我的reducer函数接收这些行并将它们合并到:"keyA|keyB|sum_valueA1|sum_valueA2"问题是在reducer阶段我只得到完全相同的行。这意味着，键是相同的，也有值。这是一个问题，并且不允许我利用map-reduce的全部功能。我看到他们在他们的wordcoun

hadoop EMR section output mapreduce elastic-map-reduce amazon-emr

hadoop - 重启 Amazon EMR 集群

我正在使用AmazonEMR(Hadoop2/AMI版本:3.3.1)并且我想更改默认配置(例如复制因子)。为了使更改生效，我需要重新启动集群，这就是我的问题开始的地方。怎么做？我在./.versions/2.4.0/sbin/stop-dfs.sh找到的脚本不起作用。从文件./.versions/2.4.0/etc/hadoop/slaves无论如何都是空的。init.d中有一些脚本:$ls-l/etc/init.d/hadoop-*-rwxr-xr-x1rootroot477Nov802:19/etc/init.d/hadoop-datanode-rwxr-xr-x1rootroo

hadoop Amazon code service amazon-web-services mapreduce emr hadoop2

hadoop - 文件在 Amazon EMR 中不存在，即使它尝试上传它

我使用AmazonEMR创建了一个emr-4.0.0集群:但是，每当我尝试在其上提交spark应用程序时，它都会失败并出现以下错误:文件不存在:hdfs://ip-xx-xx-xxx-xx.ec2.internal:8020/user/hadoop/.sparkStaging/application_1441035668468_0001/spark-assembly-1.4.1-hadoop2。6.0-amzn-0.jar即使在日志的前面它上传了这个完全相同的文件而没有发出任何错误消息:2015-08-3115:43:29,070INFO[main]yarn.Client(Loggin

即使 hadoop spark code section amazon-web-services hadoop-yarn emr amazon-emr

21 22 232425 26 27