草庐IT

s3browser

全部标签

scala - 我应该添加哪个依赖项以使用 intelliJ 使用 scala-spark 在 s3 中获取 txt 文件?

我正在使用IntelliJide和scala语言,我想使用IAM用户凭证访问存储在AWSS3中的文本文件。我还没有使用依赖项在我的系统上下载Hadoop。我已经使用Aws依赖项和jets3t依赖项完成了此操作。但我想用Spark来做。我遇到的基本错误是:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classorg.apache.hadoop.fs.s3a.S3AFileSystemnotfound,java.lang.RuntimeException:java.lang.ClassNotFoundExcepti

hadoop - 可以使用 distcp 将文件目录从 S3 复制到 HDFS 吗?

我想知道hadoopdistcp是否可以用于一次将多个文件从S3复制到HDFS。它似乎只适用于具有绝对路径的单个文件。我想复制整个目录,或使用通配符。参见:HadoopDistCpusingwildcards?我知道s3distcp,但为了简单起见,我更愿意使用distcp。这是我尝试将目录从S3复制到HDFS的尝试:[root@ip-10-147-167-56~]#/root/ephemeral-hdfs/bin/hadoopdistcps3n://:@mybucket/dirhdfs:///input/13/05/2319:58:27INFOtools.DistCp:srcPath

java - S3DistCp 作业失败 : -- dest doesn't match

我正在尝试使用s3DistCp将1个S3文件夹中的一些小文件合并到另一个S3文件夹中。脚本类似于以下内容:elastic-mapreduce--jobflowj-33EDUGSQCN0PZ--jar\/home/hadoop/lib/emr-s3distcp-1.0.jar\--args'--src,s3://li-test/data,\--dest,s3://li-test/result,\--groupBy,[0-9]*,\--targetSize,128'但我收到如下java.lang.RuntimeException错误。需要帮助。谢谢!线程“main”中的异常java.lan

hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码?

我有两个大文件并将它们上传到名为“ccssdd”的AmazonS3存储桶中,并创建了一个名为data的文件夹:数据/友谊.xml数据/用户.xml用户结构是12447football..和13..我需要编写一个作业jar以在AmazonElasticMapReduce上运行它以计算:找出每个用户的friend数。我知道我应该从每个友谊元素中生成对作为map函数的输出在reduce函数中,我应该将每个用户ID的“1”相加。1_我知道我可以在eclipse中运行我的应用程序以生成.jar作业文件,但我不知道我应该下载哪些库并将其添加到项目中。2-我真的不知道如何将我的应用程序连接到s3!并

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明,在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展;管道只有这么大,随着#个节点变大,到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程,其中可能有8个步骤需要此文件。当然,我可以从S3复制到HDFS并在每一步之前缓存文件,但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

xml - 使用 Apache Flink 将数据推送到 S3

我有一个小型测试项目,用于将数据推送到S3存储桶。但是,看起来我没有读取core-site.xml文件,因为我收到错误java.io.IOException:Nofilesystemfoundwithschemes3a。如何正确读取core-site.xml文件并将数据推送到S3?这是代码:publicclassS3Sink{publicstaticvoidmain(String[]args)throwsException{Mapconfigs=ConfigUtils.loadConfigs(“path/to/config.yaml");finalParameterToolparame

hadoop - 使用 oozie 工作流的 s3 服务器端加密

我有一个将数据写入s3存储桶的sqoop作业。如果我从命令行运行此作业,它会加密s3文件。但是,如果我使用相同的jar文件通过oozie工作流运行sqoop作业,那么它会将数据推送到s3,但不会发生加密。下面是我的oozie工作流程。${jobTracker}${nameNode}com.aa.datalake.ingest.util.SqoopIngestUtilrootroottestavrosqoop-demo在jar中,我们使用distcp命令将数据从hdfs复制到s3。那么如何使用oozie工作流对s3文件进行服务器端加密? 最佳答案

hadoop - EMRFS 是否使 S3 对外部客户端保持一致

如果我在HFDS或本地文件系统中有一个文件,是否可以在启用EMRFS的情况下将其复制到S3,立即关闭集群,并确保该文件可供外部读者列出和读取此复制操作完成后?还是EMRFS仅在为其启用的特定EMR集群内保持一致?通过EMRFS从HDFS将文件复制到S3会是什么样子?来自本地文件系统? 最佳答案 我在AWS开发人员论坛上问过同样的问题--https://forums.aws.amazon.com/thread.jspa?threadID=257220&tstart=25--这包含很多有值(value)的细节,它提供了比所有EMRFS文

java - Apache Beam - 无法使用 hadoop 文件系统 sdk 从 S3 读取文本文件

我正在尝试使用beam-sdks-java-io-hadoop-file-systemv2.0.0和Spark作为运行器,从Beam应用程序中的AWSEMR集群读取S3。我可以在yarn日志中看到管道能够检测到S3中存在的文件,但无法读取该文件。请查看下面的日志。17/06/2703:29:25INFOFileBasedSource:Filepatterns3a://xxx/test-folder/*matched1fileswithtotalsize341058417/06/2703:29:25INFOFileBasedSource:Matched1filesforpatterns3