S3Client

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明，在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展；管道只有这么大，随着#个节点变大，到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程，其中可能有8个步骤需要此文件。当然，我可以从S3复制到HDFS并在每一步之前缓存文件，但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下，作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

大文 MapReduce section stackoverflow questions caching hadoop amazon-web-services amazon-s3 elastic-map-reduce

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

amazon-web-services services hadoop java apache mapreduce elastic-map-reduce

xml - 使用 Apache Flink 将数据推送到 S3

我有一个小型测试项目，用于将数据推送到S3存储桶。但是，看起来我没有读取core-site.xml文件，因为我收到错误java.io.IOException:Nofilesystemfoundwithschemes3a。如何正确读取core-site.xml文件并将数据推送到S3？这是代码:publicclassS3Sink{publicstaticvoidmain(String[]args)throwsException{Mapconfigs=ConfigUtils.loadConfigs(“path/to/config.yaml");finalParameterToolparame

送到 Apache gt lt property xml hadoop amazon-s3 apache-flink

hadoop - 使用 oozie 工作流的 s3 服务器端加密

我有一个将数据写入s3存储桶的sqoop作业。如果我从命令行运行此作业，它会加密s3文件。但是，如果我使用相同的jar文件通过oozie工作流运行sqoop作业，那么它会将数据推送到s3，但不会发生加密。下面是我的oozie工作流程。${jobTracker}${nameNode}com.aa.datalake.ingest.util.SqoopIngestUtilrootroottestavrosqoop-demo在jar中，我们使用distcp命令将数据从hdfs复制到s3。那么如何使用oozie工作流对s3文件进行服务器端加密？最佳答案

hadoop oozie section gt lt encryption amazon-s3 distcp

java - Spark 作业与 yarn-client 一起正常工作，但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时，它运行良好并给我预期的结果命令如下；./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用；命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

yarn yarn-cluster 03 INFO gt java hadoop apache-spark spark-submit

java - 找不到值类 : 'org.apache.hadoop.hbase.client.Result' 的序列化程序

我正在尝试从HBase中读取数据并将其保存为sequenceFile，但是得到java.io.IOException:CouldnotfindaserializerfortheValueclass:'org.apache.hadoop.hbase.client.Result'.Pleaseensurethattheconfiguration'io.serializations'isproperlyconfigured,ifyou'reusingcustomserialization.错误。我看到了两个相似的帖子:hadoopwritablesNotSerializableExcepti

amp Result apache SequenceFile hadoop java apache-spark serialization hbase

hadoop - EMRFS 是否使 S3 对外部客户端保持一致

如果我在HFDS或本地文件系统中有一个文件，是否可以在启用EMRFS的情况下将其复制到S3，立即关闭集群，并确保该文件可供外部读者列出和读取此复制操作完成后？还是EMRFS仅在为其启用的特定EMR集群内保持一致？通过EMRFS从HDFS将文件复制到S3会是什么样子？来自本地文件系统？最佳答案我在AWS开发人员论坛上问过同样的问题--https://forums.aws.amazon.com/thread.jspa?threadID=257220&tstart=25--这包含很多有值(value)的细节，它提供了比所有EMRFS文

对外部 hadoop section EMRFS amazon-s3 amazon-emr

java - Apache Beam - 无法使用 hadoop 文件系统 sdk 从 S3 读取文本文件

我正在尝试使用beam-sdks-java-io-hadoop-file-systemv2.0.0和Spark作为运行器，从Beam应用程序中的AWSEMR集群读取S3。我可以在yarn日志中看到管道能够检测到S3中存在的文件，但无法读取该文件。请查看下面的日志。17/06/2703:29:25INFOFileBasedSource:Filepatterns3a://xxx/test-folder/*matched1fileswithtotalsize341058417/06/2703:29:25INFOFileBasedSource:Matched1filesforpatterns3

本文 Apache java org hadoop amazon-s3 apache-beam apache-beam-io

hadoop - 谷歌云存储的 S3Guard 或 s3committer

我在GoogleCloudPlatform上使用Dataproc和Parquet，数据在GCS上，写入大量中小型文件是一个主要的麻烦，比我用较小的文件或HDFS获得的文件慢几倍.Hadoop社区一直致力于S3Guard，它使用DynamoDBforS3A。同样，s3committer使用S3的多部分API提供更高效的简单替代提交程序。我正在GCS上寻找类似的解决方案。来自S3的多部分API是GCS的XMLAPI不提供的少数东西之一，因此不能按原样使用。相反，GCS有一个“合并”API，您可以在其中单独上传文件，然后发出合并查询。这似乎可以用来适应s3committer的多部分上传，但我

歌云 s3committer 的 code section hadoop apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc

hadoop - 使用 S3 作为默认文件系统

您好，我在使用Hive时尝试将S3用作默认文件系统。我已经设置:fs.defaultFS=s3://mybucketfs.s3.awsAccessKeyId=myidfs.awsSecretAccessKey=mysecretkey我可以创建数据库和表，它们会显示在我的s3存储桶中。当我尝试使用这些表时出现问题-从中选择，插入。我得到一个错误:IncompleteHDFSURI,nohost:hdfs:/tmp/hive/hadoop/dir/filename问题是它仍然使用hdfs而不是s3，我还应该设置什么让Hive和MapReduce使用S3作为FS？

hadoop S3 section code string amazon-s3 hive filesystems

180 181 182183184 185 186