草庐IT

s3DistCp

全部标签

Hadoop distcp - 可以保持每个文件相同(保留文件大小)?

当我运行一个简单的distcp命令时:hadoopdistcps3://src-bucket/src-dirs3://dest-bucket/dest-dirsrc-dir和dest-dir的大小(以字节为单位)略有不同>awss3--summarizes3://dest-bucket/dest-dir/...TotalObjects:12290TotalSize:64911104881181>awss3--summarizes3://dest-bucket/dest-dir/...TotalObjects:12290TotalSize:64901040284124我的问题是:是什么导

hadoop - 使用 Spark/Hadoop 从 S3 读取时出错

我正在尝试使用Spark从AmazonS3读取数据.但我越来越java.lang.NoClassDefFoundError:org/jets3t/service/S3ServiceException从Hadoop调用内部。我已经尝试下载jets3t并将所有包含的jar添加到我的类路径中,但它没有帮助。以下是正在发生的事情的完整记录:scala>valzz=sc.textFile("s3n://")13/08/3019:50:21INFOstorage.MemoryStore:ensureFreeSpace(45979)calledwithcurMem=46019,maxMem=8579

hadoop - 是否有 s3distcp 的开源版本?

我很想使用s3distcp将数据从S3存储桶复制到S3存储桶,但我需要使用外部专有加密机制来确保数据在静态时被加密(将key留给自己,以便亚马逊无法解密)我很想做一个gitclone并创建我自己的s3distcp(带有外部加密/解密库的钩子(Hook))。我用谷歌搜索并在这里找到了一个潜力https://github.com/libin/s3distcp但它不是Amazon帐户(显然)并且看起来没有记录/更新。 最佳答案 我构建了一个在Node.js中运行的工具,用于将数据从一个桶复制到另一个桶。https://github.com

scala - EMR Spark 无法将 Dataframe 保存到 S3

我正在使用RunJobFlow命令启动SparkEMR集群。此命令设置JobFlowRole到具有政策AmazonElasticMapReduceforEC2Role的IAM角色和AmazonRedshiftReadOnlyAccess.第一个策略包含允许所有s3权限的操作。当EC2实例启动时,它们会承担这个IAM角色,并通过STS生成临时凭证。我做的第一件事是使用com.databricks.spark.redshift从我的Redshift集群读取一个表到一个SparkDataframe中。格式并使用相同的IAM角色从redshift卸载数据,就像我为EMR所做的那样JobFlow

amazon-web-services - 从 Spark 集群上的 S3 读取 Spark 作业会出现 IllegalAccessError : tried to access method MutableCounterLong

这个问题在这里已经有了答案:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics(2个答案)关闭4年前。我在DC/OS上有一个Spark集群,我正在运行一个从S3读取的Spark作业。版本如下:星火2.3.1Hadoop2.7AWS连接依赖:"org.apache.hadoop"%"hadoop-aws"%"3.0.0-alpha2"我通过执行以下操作读入数据:`valhadoopConf=sparkSession.sparkContext.hadoopConfigurationhadoopConf.

xml - 如何使用 Elastic MapReduce 对数百万个小型 S3 xml 文件运行 XSLT 转换?

更具体地说,是否有某种简单的流媒体解决方案? 最佳答案 请参阅此链接:HowdoIprocessfiles,onepermap?将您的数据上传到S3存储桶生成一个文件,其中包含每个文件的完整s3n://路径编写一个映射器脚本:从环境中提取“mapred_work_output_dir”(*)根据文件名进行XSLT转换,保存到输出目录编写一个什么也不做的身份归约器将您的映射器/缩减器脚本上传到S3存储桶通过AWSEMR控制台测试您的脚本(*)Streaming将您的jobconf置于流程环境中。见代码here.

hadoop - distcp hdfs 到 s3 失败

我试图做一个目录,其中有数百个os小文件,扩展名为.avro但对于某些文件失败并出现以下错误:14/09/1813:05:19INFOmapred.JobClient:map99%reduce0%14/09/1813:05:22INFOmapred.JobClient:map100%reduce0%14/09/1813:05:24INFOmapred.JobClient:TaskId:attempt_201408291204_35665_m_000000_0,Status:FAILEDjava.io.IOException:Copied:32Skipped:0Failed:1atorg

java - Spark 不从 s3 读取/写入信息(ResponseCode=400,ResponseMessage=Bad Request)

我实现了spark应用程序。我创建了spark上下文:privateJavaSparkContextcreateJavaSparkContext(){SparkConfconf=newSparkConf();conf.setAppName("test");if(conf.get("spark.master",null)==null){conf.setMaster("local[4]");}conf.set("fs.s3a.awsAccessKeyId",getCredentialConfig().getS3Key());conf.set("fs.s3a.awsSecretAccessK

java - 如何在java代码中使用S3DistCp

我想以编程方式将作业输出从EMR集群复制到AmazonS3。如何在java代码中使用S3DistCp来做同样的事情。 最佳答案 hadoopToolRunner可以运行这个..因为S3DistCPextendsTool下面是使用示例:importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apache.hadoop.util.ToolRunner;importcom.amazon.external.elast

scala - AWS S3 中的 FileUtil.copyMerge()

我已经使用以下代码将DataFrame作为text格式加载到HDFS中。finalDataFrame是DataFramefinalDataFrame.repartition(1).rdd.saveAsTextFile(targetFile)执行上面的代码后,我发现用我提供的文件名创建了一个目录,并在该目录下创建了一个文件,但不是文本格式。文件名类似于part-00000。我已经使用下面的代码在HDFS中解决了这个问题。valhadoopConfig=newConfiguration()valhdfs=FileSystem.get(hadoopConfig)FileUtil.copyMe