amazon-ebs_草庐IT

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR，我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时，一切都完美无缺。然而，当我针对我的完整数据集运行它时，在我的工作中花费了一段(随机)时间，我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中，我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用KMSkey(SSE-KMS)通过服务器端加密在S3上保存一个rdd，但出现以下异常:Exceptioninthread"main"com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:400,AWSService:AmazonS3,AWSRequestID:695E32175EBA568A,AWSErrorCode:InvalidArgument,AWSErrorMessage:Theencryptionmethodspecifiedisnotsupported,S3ExtendedRequestID:

不支 amazon-web-services 34 SSE-KMS hadoopConfiguration hadoop apache-spark encryption amazon-s3

amazon-web-services - Jupyter notebook、pyspark、hadoop-aws 问题

我正在尝试结合使用Jupyter、PySpark和S3文件(通过s3a协议(protocol))。我需要org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider，因为我们需要使用s3sessiontoken。这是添加到hadoop-aws2.8.3+。我正在尝试以下代码:importosfrompyspark.sqlimportSparkSessionos.environ['PYSPARK_SUBMIT_ARGS']='--packagesorg.apache.hadoop:hadoop-aws:3.0.0pyspark-shel

amazon-web-services hadoop-aws hadoop 39 spark apache-spark amazon-s3 pyspark

ubuntu - 如何在我的系统上拥有类似 Amazon EC2 的环境？

我有这个由其他人编写的hadoop项目(链接)。我有消息来源。我想在我的集群(基本上是3台ubuntu机器)上实现它。但是提到的项目在EC2平台(使用Cloudera发行版)上运行。那么，我应该在我的系统上安装什么才能使其具有运行此类项目的软件？我想到了ClouderaManager、OracleJava。最佳答案如果该项目使用cloudera发行版(而不是EMR)，您可以安装cloudera，它应该没问题。只有一个角落我可以预期有问题-如果s3被用作文件系统。如果该项目确实对s3有效，您有两种方法:a)尝试将s3替换为hdfs

何在拥有 section https 上实 ubuntu hadoop amazon-ec2 cloud cloudera

hadoop - 让 Amazon EMR 使用 S3 进行输入和输出

如何让AmazonEMR(0.20.205MapR)将S3存储桶用于输入和输出？我尝试将以下内容添加到核心配置xml文件(通过引导操作):fs.default.names3n://dfs.name.defaults3n://但我总是得到类似的东西:Causedby:java.io.IOException:Couldnotresolvepath:s3n://some_out_bucket/outatcom.mapr.fs.MapRFileSystem.lookupClient(MapRFileSystem.java:219)atcom.mapr.fs.MapRFileSystem.del

hadoop Amazon section code MapRFileSystem amazon-web-services emr mapr

hadoop - 从本地非 Hadoop 机器上传数据到 Amazon EC2 中运行的 HDFS

我在AmazonEC2上设置了一个包含两个节点的hadoop集群。它运作良好。我可以使用hadoopapi(附加java程序)从主节点或与hadoop集群位于同一Amazon区域的其他实例将数据上传到HDFS。但是，当我想从我的本地非hadoop机器上执行此操作时，结果如下所示:然后我登录到hadoop名称节点以使用命令行进行检查。文件夹“testdir”已创建，但上传文件“myfile”的大小为0。==================这是分隔符===============================这些是异常(exception)情况Apr18,201310:40:47AMor

中运 hadoop java apache amazon-ec2 hdfs

hadoop - 将 Hadoop 连接到 Amazon AWS 上的 Cassandra - netty 版本冲突？

我有一个在AmazonEMR上运行并输出到HDFS平面文件的Hadoopmapreduce类。一切都很好，但现在我需要输出到同样在AWS上运行的Cassandra数据库。我构建并运行了一个本地客户端并让它运行起来，然后将Cassandra编写代码转移到我的Hadoop项目中。问题似乎是，Amazon为Hadoop1.0.3绘制了/home/hadoop/lib/netty-3.2.4.Final.jar，但是在AWS上运行的Cassandra是1.2。6并使用netty-3.5.9.Final.jar。我能做些什么来防止或规避这种冲突？我可以在AmazonEMR绘制的那个版本旁边绘制我

Cassandra hadoop java datastax driver netty amazon-emr

amazon-web-services - 在 Amazon EMR 中的何处查找 Hive UDF 的控制台输出

我在java中创建了一个可以在Hive查询中调用的UDF，在UDF中我放入了System.out.prinln(msg)希望在控制台中输出一些东西。它在我本地的工作场所按预期工作，但当部署到亚马逊EMR时，stderr日志文件不显示来self的UDF函数的任何输出消息。我在哪里可以找到包含我的消息输出的文件？最佳答案如果Hive将查询提交给M/R，那么任何输出都将被捕获到您提交的作业控制台输出中。参见WheredoeshadoopmapreduceframeworksendmySystem.out.print()statemen

amazon-web-services 何处 section Amazon stackoverflow hadoop hive amazon-emr

hadoop - Amazon EMR Application Master Web UI？

我已经开始使用HadoopYARN(AMI3.3.1)在AmazonEMR上运行PIG作业，但是由于Yarn中不再有作业跟踪器，我似乎无法找到WebUI以便我可以跟踪MapReduce作业的Mappers和Reducers的数量，当我尝试访问资源管理器UI页面中提供的ApplicationMaster链接时，我被告知该页面不存在(下面提供的图片)。有谁知道我如何通过我的网络浏览器访问一个UI，它会根据映射器、reducer的数量和每个完成的百分比等向我显示当前的工作状态？谢谢最佳答案从ResourceManager网页单击App

Application hadoop section 私有 public hadoop-yarn hadoop2 amazon-emr

hadoop - 是否有用于 Hadoop/HBase 的 Amazon 社区 AMI？

我想在AmazonEC2中测试Hadoop和HBase，但我不确定它有多复杂。是否有安装了Hadoop和HBase的稳定社区AMI？我在想类似bioconductorAMI的东西谢谢。最佳答案我强烈推荐使用Amazon'sElasticMapReduce服务，尤其是在您已经拥有AWS/EC2帐户的情况下。原因是:EMR附带一个“开箱即用”的工作Hadoop/HBase集群——您不需要调整任何东西来让Hadoop/HBase工作。ItJustWorks(TM)。AmazonEC2的网络与您可能习惯的网络有很大不同。据我所知，它有一

hadoop section HBase amazon-ec2 amazon-ami