草庐IT

S3_REGION

全部标签

hadoop - 从本地 Hadoop 到 Amazon S3 的 DistCp

我正在尝试使用distcp将文件夹从我的本地hadoop集群(cdh4)复制到我的AmazonS3存储桶。我使用以下命令:hadoopdistcp-log/tmp/distcplog-s3/hdfs://nameserv1/tmp/data/sampledatas3n://hdfsbackup/hdfsbackup是我的AmazonS3存储桶的名称。DistCp因未知主机异常而失败:13/05/3111:22:33INFOtools.DistCp:srcPaths=[hdfs://nameserv1/tmp/data/sampledata]13/05/3111:22:33INFOtoo

hadoop - 为 S3 提供基于 Hadoop/Spark IAM 角色的访问的正确方法是什么?

我们在EC2和EC2实例上运行Hadoop集群,该实例附加到可以访问S3存储桶的角色,例如:“stackoverflow-example”。几个用户正在集群中放置Spark作业,我们过去使用key但不想继续并希望迁移到角色,因此放置在Hadoop集群上的任何作业都将使用与ec2实例关联的角色。做了很多搜索,发现了10+张门票,其中一些仍然开放,一些已经固定,一些没有任何评论。想知道是否仍然可以将IAM角色用于放置在Hadoop集群上的作业(Spark、Hive、HDFS、Oozie等)。大多数教程都在讨论传递key(fs.s3a.access.key、fs.s3a.secret.key

hadoop - 使用 S3DistCp 从 HDFS 传输到 S3 时删除目录级别

我有一个Pig脚本(使用稍微修改过的MultiStorage)来转换一些数据。脚本运行后,我在HDFS上有以下格式的数据:/tmp/data/identifier1/indentifier1-0,0001/tmp/data/identifier1/indentifier1-0,0002/tmp/data/identifier2/indentifier2-0,0001/tmp/data/identifier3/indentifier3-0,0001我正在尝试使用S3DistCp将这些文件复制到S3。我正在使用--groupBy.*(identifier[0-9]).*选项根据标识符合并文

hadoop - brew 安装了 apache-spark 无法访问 s3 文件

在brewinstallapache-spark之后,spark-shell中的sc.textFile("s3n://...")失败与java.io.IOException:NoFileSystemforscheme:s3n。在通过使用spark-ec2启动的EC2机器访问的spark-shell中,情况并非如此。homebrew公式似乎是使用足够晚的Hadoop版本构建的,无论brewinstallhadoop是否首先运行,都会引发此错误。如何使用Homebrew软件安装spark,使其能够读取s3n://文件? 最佳答案 Had

hadoop - 从 Spark 2.0 访问 S3

我正在尝试从SparkSQL作业访问S3文件。我已经尝试过几个帖子中的解决方案,但似乎没有任何效果。可能是因为我的EC2集群为Hadoop2.7运行了新的Spark2.0。我是这样设置hadoop的:sc.hadoopConfiguration.set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")sc.hadoopConfiguration.set("fs.s3a.awsAccessKeyId",accessKey)sc.hadoopConfiguration.set("fs.s3a.awsSecretAccessKey

hadoop - AWS EMR 性能 HDFS 与 S3

在大数据中,代码被推送到数据中执行。这是有道理的,因为数据很大而执行的代码相对较小。对于AWSEMR,数据可以位于HDFS或S3中。在S3的情况下,数据必须被拉到核心/任务节点以便从其他一些节点执行。与HDFS中的数据相比,这可能有点开销。最近,我注意到当MR作业正在执行时,将日志文件导入S3存在巨大的延迟。有时,即使在作业完成后,日志文件也要过几分钟才会出现。对此有什么想法吗?有没有人知道HDFS与S3中的数据完成MR作业的指标? 最佳答案 这在不同层面上是有问题的。S3只有最终一致性。在您的代码(例如close()或flush(

hadoop - S3N 和 S3A distcp 在 Hadoop 2.6.0 中不工作

总结Stockhadoop2.6.0安装给我nofilesystemforscheme:s3n。现在将hadoop-aws.jar添加到类路径中会得到ClassNotFoundException:org.apache.hadoop.fs.s3a.S3AFileSystem。详情我已经安装了大部分的hadoop-2.6.0。我只设置了目录,并设置了以下环境变量:exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64/jreexportHADOOP_COMMON_HOME=/opt/hadoopexportHADOOP_HOME=$HADOOP_

java - Nutch 关于从 S3 读取 EMR 的问题

您好,我正在尝试运行ApacheNutch1.2在亚马逊的EMR上。为此,我从S3指定了一个输入目录。我收到以下错误:Fetcher:java.lang.IllegalArgumentException:Thisfilesystemobject(hdfs://ip-11-202-55-144.ec2.internal:9000)doesnotsupportaccesstotherequestpath's3n://crawlResults2/segments/20110823155002/crawl_fetch'YoupossiblycalledFileSystem.get(conf)w

hadoop - 如何运行从 hdfs 到 s3 的加密 distcp?

我喜欢将数据从我们的hadoop集群(内部部署)复制到s3。我可以不加密。我还可以运行带有客户端加密的s3cmdput。如何使用客户端加密进行distcp? 最佳答案 最近的Hadoop版本应该可以很好地使用客户端加密进行传输。为了安全并且不成为您设置细节的受害者,我会通过设置如下所示的存储桶策略来确保安全传输,禁止非安全传输。{"Statement":[{"Action":"s3:*","Effect":"Deny","Principal":"*","Resource":"arn:aws:s3:::bucketname/*","C

hadoop - 将 s3distcp 与 Amazon EMR 结合使用以复制单个文件

我只想使用s3distcp将一个文件复制到HDFS。我试过使用srcPattern参数,但它没有帮助,它一直在抛出java.lang.Runtime异常。我正在使用的正则表达式可能是罪魁祸首,请帮忙。我的代码如下:elastic-mapreduce-j$jobflow--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar--args'--src,s3:///'--args'--dest,hdfs:///output'--arg--srcPattern--arg'(filename)'异常抛出:Ex