EMR_草庐IT

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR，我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时，一切都完美无缺。然而，当我针对我的完整数据集运行它时，在我的工作中花费了一段(随机)时间，我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中，我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

hadoop - AWS EMR 4.0 - 如何添加自定义 JAR 步骤以运行 shell 命令

我正在尝试使用EMR4.0.0上的步骤运行shell命令，并使用此链接作为引用-http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-script.html但我想知道从何处将“command-runner.jar”放入“JAR位置”字段http://i.stack.imgur.com/CRicz.png我在AWSs3中保留了“command-runner.jar”并尝试从该位置加载它，在“参数”中给出了我的“example.sh”文件的s3位置，在添加步骤后它失败并给出了这个异常Exce

自定 hadoop java runner section amazon-web-services amazon-s3 amazon-emr

hadoop - EMR 引导操作何时运行

我正在创建一个AWS集群，我有一个引导操作来更改spark-defaults.conf。服务器不断终止说can'tread/etc/spark/conf/spark-defaults.conf:Nosuchfileordirectory不过如果我跳过这个并在服务器上检查文件是否存在。所以我假设事物的顺序不正确。我正在使用提供的EMR4.5的Spark1.6.1，因此它应该默认安装。有什么线索吗？谢谢! 最佳答案您不应在引导操作中更改Spark配置。相反，您应该在启动集群时需要添加的特殊json文件中指定您必须对spark-defa

何时 hadoop 34 code section amazon-web-services apache-spark pyspark

hadoop - AWS EMR S3DistCp : The auxService:mapreduce_shuffle does not exist

我通过SSH连接到AWSEMRv5.4.0实例，我想调用s3distcp。Thislink演示了如何设置一个emr步骤来调用它，但是当我运行它时出现以下错误:Containerlaunchfailedforcontainer_1492469375740_0001_01_000002:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistatsun.reflect.NativeConstructorAccessorImpl.newIns

mapreduce_shuffle auxService yarn nodemanager hadoop elastic-map-reduce

maven - 需要将 flink-hadoop-compatibility-2.10 jar 显式复制到 EMR 集群上的 ${FLINK-HOME}/lib 位置

我目前正在开发一个Flink应用程序，该应用程序使用一些Hadoop依赖项将数据写入S3位置。在本地环境中它运行良好，但是当我在EMR集群上部署这个Flink应用程序时，它抛出了与兼容性问题相关的异常。我得到的错误信息是java.lang.RuntimeException:无法加载类“org.apache.hadoop.io.Writable”的TypeInformation。您可能缺少“flink-hadoop-compatibility”依赖项。在org.apache.flink.api.java.typeutils.TypeExtractor.createHadoopWritab

flink-hadoop-compatibility compatibility code TypeExtractor flink maven hadoop apache-flink

hadoop - 让 Amazon EMR 使用 S3 进行输入和输出

如何让AmazonEMR(0.20.205MapR)将S3存储桶用于输入和输出？我尝试将以下内容添加到核心配置xml文件(通过引导操作):fs.default.names3n://dfs.name.defaults3n://但我总是得到类似的东西:Causedby:java.io.IOException:Couldnotresolvepath:s3n://some_out_bucket/outatcom.mapr.fs.MapRFileSystem.lookupClient(MapRFileSystem.java:219)atcom.mapr.fs.MapRFileSystem.del

hadoop Amazon section code MapRFileSystem amazon-web-services emr mapr

amazon-web-services - 在 Amazon EMR 中的何处查找 Hive UDF 的控制台输出

我在java中创建了一个可以在Hive查询中调用的UDF，在UDF中我放入了System.out.prinln(msg)希望在控制台中输出一些东西。它在我本地的工作场所按预期工作，但当部署到亚马逊EMR时，stderr日志文件不显示来self的UDF函数的任何输出消息。我在哪里可以找到包含我的消息输出的文件？最佳答案如果Hive将查询提交给M/R，那么任何输出都将被捕获到您提交的作业控制台输出中。参见WheredoeshadoopmapreduceframeworksendmySystem.out.print()statemen

amazon-web-services 何处 section Amazon stackoverflow hadoop hive amazon-emr

memory - 如何更改 EMR hadoop 流作业中的内存

我正在尝试克服EMR上的hadoop流作业中的以下错误。Container[pid=30356,containerID=container_1391517294402_0148_01_000021]isrunningbeyondphysicalmemorylimits我尝试搜索答案，但我找到的那个没有用。我的工作启动如下所示。hadoopjar../.versions/2.2.0/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar\-inputdeterminations/part-00000\-outputdeterminations/

memory hadoop section code streaming emr

hadoop - Amazon EMR Application Master Web UI？

我已经开始使用HadoopYARN(AMI3.3.1)在AmazonEMR上运行PIG作业，但是由于Yarn中不再有作业跟踪器，我似乎无法找到WebUI以便我可以跟踪MapReduce作业的Mappers和Reducers的数量，当我尝试访问资源管理器UI页面中提供的ApplicationMaster链接时，我被告知该页面不存在(下面提供的图片)。有谁知道我如何通过我的网络浏览器访问一个UI，它会根据映射器、reducer的数量和每个完成的百分比等向我显示当前的工作状态？谢谢最佳答案从ResourceManager网页单击App

Application hadoop section 私有 public hadoop-yarn hadoop2 amazon-emr

hadoop - 无法使用 java 连接到 AWS EMR 上的配置单元

我已经使用Hive设置了AWSEMR集群。我想使用java从我的本地机器连接到hivethrift服务器。我尝试了以下代码-Class.forName("com.amazon.hive.jdbc3.HS2Driver");con=DriverManager.getConnection("jdbc:hive2://ec2XXXX.compute-1.amazonaws.com:10000/default","hadoop","");http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HiveJDBCDrive

配置单 hadoop section strong amazon-web-services hive emr