s3DistCp

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR，我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时，一切都完美无缺。然而，当我针对我的完整数据集运行它时，在我的工作中花费了一段(随机)时间，我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中，我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

hadoop - AWS EMR S3DistCp : The auxService:mapreduce_shuffle does not exist

我通过SSH连接到AWSEMRv5.4.0实例，我想调用s3distcp。Thislink演示了如何设置一个emr步骤来调用它，但是当我运行它时出现以下错误:Containerlaunchfailedforcontainer_1492469375740_0001_01_000002:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistatsun.reflect.NativeConstructorAccessorImpl.newIns

mapreduce_shuffle auxService yarn nodemanager hadoop elastic-map-reduce

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用KMSkey(SSE-KMS)通过服务器端加密在S3上保存一个rdd，但出现以下异常:Exceptioninthread"main"com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:400,AWSService:AmazonS3,AWSRequestID:695E32175EBA568A,AWSErrorCode:InvalidArgument,AWSErrorMessage:Theencryptionmethodspecifiedisnotsupported,S3ExtendedRequestID:

不支 amazon-web-services 34 SSE-KMS hadoopConfiguration hadoop apache-spark encryption amazon-s3

hadoop - 让 Amazon EMR 使用 S3 进行输入和输出

如何让AmazonEMR(0.20.205MapR)将S3存储桶用于输入和输出？我尝试将以下内容添加到核心配置xml文件(通过引导操作):fs.default.names3n://dfs.name.defaults3n://但我总是得到类似的东西:Causedby:java.io.IOException:Couldnotresolvepath:s3n://some_out_bucket/outatcom.mapr.fs.MapRFileSystem.lookupClient(MapRFileSystem.java:219)atcom.mapr.fs.MapRFileSystem.del

hadoop Amazon section code MapRFileSystem amazon-web-services emr mapr

hadoop - s3 上的 Spark Dataset Parquet 分区创建临时文件夹

Spark(version=2.2.0)没有DirectParquetOutputCommitter。作为替代方案，我可以使用dataset.option("mapreduce.fileoutputcommitter.algorithm.version","2")//magichere.parquet("s3a://...")避免在S3上创建_temporary文件夹。一切正常，直到我将partitionBy设置为我的数据集dataset.partitionBy("a","b").option("mapreduce.fileoutputcommitter.algorithm.versi

Dataset Parquet code section 34 hadoop apache-spark amazon-s3 spark-dataframe apache-spark-dataset

Hadoop Distcp 将目录内的内容复制到同名目录

我在集群A中有一个目录:/a/b/c。该目录包含目录“一”、“二”、“三”、...、“九十”。在集群B中，我有目录/a/b/c。该目录包含目录“一”。我想将目录“一”到“九十”从集群A复制到集群B，这样集群B最终将具有目录/a/b/c/one.../a/b/c/ninety。集群B/a/b/c/one中有一些文件不在集群A/a/b/c/one中。那些应该在复制后仍然存在。我尝试了以下方法:1)distcp/a/b/c/hdfs:B:8020/a/b/c但这会在之前的c中创建一个目录c。2)distcp/a/b/c/*hdfs:B:8020/a/b/c但我得到:zsh:nomatches

Hadoop Distcp code section pre hdfs

hadoop - 配置单元覆盖目录移动过程作为 distcp？

当我在配置单元中运行INSERTOVERWRITEDIRECTORY查询时，它似乎将结果存储在.hivexxxx暂存文件夹中，然后将文件从那里移动到该目录...在mapreduce过程结束时，显示如下:Movingdatato:hdfs://nameservice1/user/events/Click2/.hive-staging_hive_2015-11-21_08-32-49_909_6034680686432863037-1/-ext-10000Movingdatato:/user/events/Click2这个移动过程运行得非常慢而且似乎没有使用distcp有没有办法设置配置单

配置单 hadoop code hive staging

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小？

我正在尝试确定存储在S3中的文件的理想大小，该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时，S3文件会被并行复制到HDFS。但是，是使用单线程将单个大文件复制到HDFS，还是将该文件作为多个部分并行复制？另外，Gzip压缩是否影响将单个文件分成多个部分复制？最佳答案有两个因素需要考虑:压缩文件不能在任务之间拆分。例如，如果您有一个大型压缩输入文件，则只有

amazon-web-services services strong section 大文 hadoop amazon-s3 emr amazon-emr

hadoop - 是否可以在 2 个 Hdfs 目录(单独的集群)之间使用 distcp 来 distcp 文件(逗号分隔)？

我只需要distcpx个文件。找不到解决方法。一个想法是将它复制到一个临时目录，然后distcp该目录。完成后，我可以删除该临时目录。单独的distcp命令(针对每个文件)。这可能会很痛苦。不确定是否允许逗号分隔。有什么想法吗？提前致谢。最佳答案您可以将所有文件作为源传递给DistCp命令hadoopdistcphdfs://src_nn/var/log/spark/appHistory//\hdfs://src_nn/var/log/spark/appHistory//\....hdfs://src_nn/var/log/sp

distcp hadoop section code hdfs

hadoop - Spark EMR S3 处理大量文件

我在S3中有大约15000个文件(ORC)，其中每个文件包含几分钟的数据，每个文件的大小在300-700MB之间变化。由于递归循环YYYY/MM/DD/HH24/MIN格式的目录非常昂贵，我正在创建一个文件，其中包含给定日期的所有S3文件列表(objects_list.txt)并将此文件作为输入到sparkreadAPIvalfile_list=scala.io.Source.fromInputStream(getClass.getResourceAsStream("/objects_list.txt"))valpaths:mutable.Set[String]=mutable.Set

hadoop Spark noreferrer section noopener apache-spark amazon-s3 emr amazon-emr

105 106 107108109 110 111