草庐IT

S3Client

全部标签

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小?

我正在尝试确定存储在S3中的文件的理想大小,该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时,S3文件会被并行复制到HDFS。但是,是使用单线程将单个大文件复制到HDFS,还是将该文件作为多个部分并行复制?另外,Gzip压缩是否影响将单个文件分成多个部分复制? 最佳答案 有两个因素需要考虑:压缩文件不能在任务之间拆分。例如,如果您有一个大型压缩输入文件,则只有

hadoop - Spark EMR S3 处理大量文件

我在S3中有大约15000个文件(ORC),其中每个文件包含几分钟的数据,每个文件的大小在300-700MB之间变化。由于递归循环YYYY/MM/DD/HH24/MIN格式的目录非常昂贵,我正在创建一个文件,其中包含给定日期的所有S3文件列表(objects_list.txt)并将此文件作为输入到sparkreadAPIvalfile_list=scala.io.Source.fromInputStream(getClass.getResourceAsStream("/objects_list.txt"))valpaths:mutable.Set[String]=mutable.Set

hadoop - 将数据作为 Parquet 从 SQL Server 加载到 S3 - AWS EMR

我们目前在SQLServer中有我们的数据,我们正在尝试将它们作为Parquet文件移动到我们的s3存储桶中。目的是在AWSEMR(主要是Spark、Hive和Presto)中分析这个s3数据。我们不想将数据存储在HDFS中。这里有哪些选择?据我们所知,似乎我们可以使用spark或sqoop进行此导入。虽然在这种情况下sqoop由于并行性(并行数据库连接)比Spark快,但似乎无法将parquet文件从sqoop写入s3-Sqoop+S3+ParquetresultsinWrongFSerror.解决方法是移动到hdfs,然后移动到s3。但是,这似乎效率不高。如何使用SparkSQL从

r - 流媒体命令失败!使用 Elastic Map Reduce/S3 和 R 时出错

我在这里遵循这个示例,希望能够使用EC2/S3/EMR/R成功运行某些东西。https://gist.github.com/406824作业在StreamingStep上失败。以下是错误日志:Controller:2011-07-21T19:14:27.711ZINFOFetchingjarfile.2011-07-21T19:14:30.380ZINFOWorkingdir/mnt/var/lib/hadoop/steps/12011-07-21T19:14:30.380ZINFOExecuting/usr/lib/jvm/java-6-sun/bin/java-cp/home/ha

java - org.apache.hadoop.security.AccessControlException : Permission denied when trying to access S3 bucket through s3n URI using Hadoop Java APIs on EC2

场景我创建了一个名为“my-role”的AWSIAM角色,将EC2指定为可信实体,即使用信任关系策略文档:{"Version":"2012-10-17","Statement":[{"Sid":"","Effect":"Allow","Principal":{"Service":"ec2.amazonaws.com"},"Action":"sts:AssumeRole"}]}该角色具有以下策略:{"Version":"2012-10-17","Statement":[{"Effect":"Allow","Action":["s3:AbortMultipartUpload","s3:De

hadoop - 使用 S3AFileSystem 的 Flink 不会从 S3 读取子文件夹

我们正在使用具有建议的S3AFileSystem配置的Flink1.2.0。当源是S3存储桶中的单个文件夹时,简单的流式处理作业会按预期工作。作业运行时没有错误——但不产生输出——当它的源是一个本身包含子文件夹的文件夹时。为清楚起见,下面是S3存储桶的模型。运行指向s3a://bucket/folder/2017/04/25/01/的作业会正确读取所有三个对象以及存储桶中出现的任何后续对象。将作业指向s3a://bucket/folder/2017/(或任何其他中间文件夹)会导致作业在不产生任何内容的情况下运行。在绝望中,我们尝试了[in|ex]包含尾随/的排列。.`--folder`

java - 使用 distcp 或 s3distcp 将文件从 S3 复制到 HDFS

我正在尝试使用以下命令将文件从S3复制到HDFS:hadoopdistcps3n://bucketname/filenamehdfs://namenodeip/directory但是这不起作用,出现如下错误:ERRORtools.DistCp:Exceptionencounteredjava.lang.IllegalArgumentException:InvalidhostnameinURI我尝试在hadoopconf.xml中添加S3key,但它也不起作用。请帮助我逐步完成从S3到HDFS的文件复制。提前致谢。 最佳答案 命令应该

EC2 上的 Hadoop 与 ElasticMapReduce/S3

我使用ElasticMapReduce有一段时间了。这很方便,但我无法运行HBase,因为Hadoop集群只是暂时可用(我在HBaseandHadoop上问过一些相关的问题)。所以我想尝试在一组EC2机器上安装Hadoop。我知道Hadoop有一些与EC2相关的目录-src/contrib/ec2。看起来只需键入命令即可启动Hadoop集群,我可以登录到主节点以运行作业等。在尝试这个之前,我想知道任何使用过这个的人的陷阱。谢谢! 最佳答案 事实上,在亚马逊上使用hadoop有两种选择——配置您自己的集群或使用EMR。与此决定正交,您

hadoop - 从 AWS 上 EMR 上的 jar 写入 S3 中的文件

有什么方法可以将我的Javajar中的文件写入将写入我的reduce文件的S3文件夹?我试过类似的东西:FileSystemfs=FileSystem.get(conf);FSDataOutputStreamFS=fs.create(newPath("S3folderoutputpath"+"//Result.txt"));PrintWriterwriter=newPrintWriter(FS);writer.write(averageDelay.toString());writer.close();FS.close();这里的Result.txt是我要写入的新文件。

scala - 读取 s3 存储桶时出错

我在尝试使用spark从s3读取文件时遇到异常。错误和代码如下。该文件夹由许多名为part-00000part-00001等的文件组成,这些文件来自hadoop。它们的文件大小范围从0kb到几gb16/04/0715:38:58INFONativeS3FileSystem:Openingkey'titlematching214/1.0/bypublicdemand/part-00000'forreadingatposition'0'16/04/0715:38:58ERRORExecutor:Exceptionintask0.0instage0.0(TID0)org.apache.had