草庐IT

s3DistCp

全部标签

Hadoop DistCp 通过重命名处理相同的文件名

有什么方法可以运行DistCp,但可以选择在文件名冲突时重命名?也许用一个例子来解释是最容易的。假设我正在将hdfs:///foo复制到hdfs:///bar,foo包含这些文件:hdfs:///foo/ahdfs:///foo/bhdfs:///foo/cbar包含这些:hdfs:///bar/ahdfs:///bar/b然后在复制之后,我希望bar包含如下内容:hdfs:///bar/ahdfs:///bar/a-copy1hdfs:///bar/bhdfs:///bar/b-copy1hdfs:///bar/c如果没有这样的选择,最可靠/最有效的方法是什么?我自己开发的distc

hadoop - 如何让 s3distcp 与换行符合并

我有数以百万计的小型一行s3文件,我希望将它们合并在一起。我有s3distcp语法,但是,我发现合并文件后合并集中不包含换行符。我想知道s3distcp是否包含强制换行的任何选项,或者是否有另一种方法可以在不直接修改源文件(或复制它们并执行相同操作)的情况下完成此操作 最佳答案 如果您的文本文件以独特的字符序列开始/结束,您可以先使用s3distcp将它们合并到一个文件中(我通过设置--targetSize到一个非常大的数字),然后使用sed和Hadoop流来添加新行;在下面的示例中,每个文件都包含一个json(文件名都以0开头),

hadoop - 是否可以在 S3 中运行 hadoop fs -getmerge?

我有一个ElasticMapReduce作业,它正在S3中写入一些文件,我想连接所有文件以生成一个唯一的文本文件。目前我正在手动将包含所有文件的文件夹复制到我们的HDFS(hadoopfscopyFromLocal),然后我正在运行hadoopfs-getmerge和hadoopfscopyToLocal来获取文件。有没有直接在S3上使用hadoopfs的方法? 最佳答案 实际上,关于getmerge的这个响应是不正确的。getmerge需要一个本地目标并且不能与S3一起使用。如果您尝试响应-getmerge:WrongFS:,它会

hadoop - 从本地 Hadoop 到 Amazon S3 的 DistCp

我正在尝试使用distcp将文件夹从我的本地hadoop集群(cdh4)复制到我的AmazonS3存储桶。我使用以下命令:hadoopdistcp-log/tmp/distcplog-s3/hdfs://nameserv1/tmp/data/sampledatas3n://hdfsbackup/hdfsbackup是我的AmazonS3存储桶的名称。DistCp因未知主机异常而失败:13/05/3111:22:33INFOtools.DistCp:srcPaths=[hdfs://nameserv1/tmp/data/sampledata]13/05/3111:22:33INFOtoo

hadoop - distcp 失败,错误为 "No space left on device"

我正在将HDFS快照复制到S3存储桶,出现以下错误:我正在执行的命令是:hadoopdistcp/.snapshot/$SNAPSHOTNAMEs3a://$ACCESSKEY:$SECRETKEY@$BUCKET/$SNAPSHOTNAME15/08/2006:50:07INFOmapreduce.Job:map38%reduce0%15/08/2006:50:08INFOmapreduce.Job:map39%reduce0%15/08/2006:52:15INFOmapreduce.Job:map41%reduce0%15/08/2006:52:37INFOmapreduce.J

hadoop - 为 S3 提供基于 Hadoop/Spark IAM 角色的访问的正确方法是什么?

我们在EC2和EC2实例上运行Hadoop集群,该实例附加到可以访问S3存储桶的角色,例如:“stackoverflow-example”。几个用户正在集群中放置Spark作业,我们过去使用key但不想继续并希望迁移到角色,因此放置在Hadoop集群上的任何作业都将使用与ec2实例关联的角色。做了很多搜索,发现了10+张门票,其中一些仍然开放,一些已经固定,一些没有任何评论。想知道是否仍然可以将IAM角色用于放置在Hadoop集群上的作业(Spark、Hive、HDFS、Oozie等)。大多数教程都在讨论传递key(fs.s3a.access.key、fs.s3a.secret.key

hadoop - 使用 S3DistCp 从 HDFS 传输到 S3 时删除目录级别

我有一个Pig脚本(使用稍微修改过的MultiStorage)来转换一些数据。脚本运行后,我在HDFS上有以下格式的数据:/tmp/data/identifier1/indentifier1-0,0001/tmp/data/identifier1/indentifier1-0,0002/tmp/data/identifier2/indentifier2-0,0001/tmp/data/identifier3/indentifier3-0,0001我正在尝试使用S3DistCp将这些文件复制到S3。我正在使用--groupBy.*(identifier[0-9]).*选项根据标识符合并文

hadoop - brew 安装了 apache-spark 无法访问 s3 文件

在brewinstallapache-spark之后,spark-shell中的sc.textFile("s3n://...")失败与java.io.IOException:NoFileSystemforscheme:s3n。在通过使用spark-ec2启动的EC2机器访问的spark-shell中,情况并非如此。homebrew公式似乎是使用足够晚的Hadoop版本构建的,无论brewinstallhadoop是否首先运行,都会引发此错误。如何使用Homebrew软件安装spark,使其能够读取s3n://文件? 最佳答案 Had

hadoop - 从 Spark 2.0 访问 S3

我正在尝试从SparkSQL作业访问S3文件。我已经尝试过几个帖子中的解决方案,但似乎没有任何效果。可能是因为我的EC2集群为Hadoop2.7运行了新的Spark2.0。我是这样设置hadoop的:sc.hadoopConfiguration.set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")sc.hadoopConfiguration.set("fs.s3a.awsAccessKeyId",accessKey)sc.hadoopConfiguration.set("fs.s3a.awsSecretAccessKey

hadoop - AWS EMR 性能 HDFS 与 S3

在大数据中,代码被推送到数据中执行。这是有道理的,因为数据很大而执行的代码相对较小。对于AWSEMR,数据可以位于HDFS或S3中。在S3的情况下,数据必须被拉到核心/任务节点以便从其他一些节点执行。与HDFS中的数据相比,这可能有点开销。最近,我注意到当MR作业正在执行时,将日志文件导入S3存在巨大的延迟。有时,即使在作业完成后,日志文件也要过几分钟才会出现。对此有什么想法吗?有没有人知道HDFS与S3中的数据完成MR作业的指标? 最佳答案 这在不同层面上是有问题的。S3只有最终一致性。在您的代码(例如close()或flush(