草庐IT

S3NativeFileSystem

全部标签

amazon-web-services - Spark - "spark.deploy.spreadOut = false"可以在 S3 上提供性能优势

我了解将“spark.deploy.spreadOut”设置为true可以使HDFS受益,但是对于S3,设置为false是否比true更有优势? 最佳答案 如果您正在运行Hadoop和HDFS,那么使用该属性适用的SparkStandalone调度程序不会对您有好处。相反,您应该运行YARN,并且ResourceManager确定执行程序的分布方式如果您在EC2中运行独立调度程序,则设置该属性会有所帮助,默认值为true。换句话说,你从哪里读取数据不是这里的决定因素,master的部署模式是更好的性能优势将来自您尝试读取的文件数量以

hadoop - Flink - AWS EMR 中的 AWSS3IOException 由带有 S3A 的 BucketingSink 引起

我有一个在AWSEMR中运行的具有高并行度(400)的Flink应用程序。它使用BucketingSink(使用RocksDb后端进行检查点)获取Kafka并汇入S3。目的地使用“s3a://”前缀定义。Flink作业是一个连续运行的流式应用程序。在任何给定时间,所有工作人员加起来可能会生成/写入400个文件(由于400并行度)。几天后,其中一名worker将失败,但出现异常:org.apache.hadoop.fs.s3a.AWSS3IOException:copyFile(bucket/2018-09-01/05/_file-10-1.gz.in-progress,bucket/2

apache-spark - Spark S3A写省略上传部分无故障

我使用Spark2.4.0和Hadoop2.7,hadoop-aws2.7.5将数据集写入S3A上的Parquet文件。偶尔会丢失一个文件部分;即部分00003在这里:>awss3lsmy-bucket/folder/2019-02-2813:07:210_SUCCESS2019-02-2813:06:5879428651part-00000-5789ebf5-b55d-4715-8bb5-dfc5c4e4b999-c000.snappy.parquet2019-02-2813:06:5979586172part-00001-5789ebf5-b55d-4715-8bb5-dfc5c4

scala - 使用临时凭证从 AWS 外部通过 spark 从 s3 读取

我正在尝试通过IntelliJ从我的笔记本电脑读取s3中的文件,这样我就可以更轻松地开发我的spark作业。textFileRDD代码在EMR集群内的Zeppelin中工作,但当我在本地尝试时却不行。在Zeppelin中,我不需要设置任何spark上下文,大概是因为Zeppelin实例在AWS环境中,它为我做了这件事。我编写了代码来创建临时AWS凭证(使用我的IAM用户key),以便我可以向spark上下文提供sessiontoken。访问key和secretkey也来自临时凭证。valsqlContext=sparkSession.sqlContextsqlContext.spark

java - 无法从 HDFS 复制到 S3A

我有一个类使用ApacheFileUtil将目录内容从一个位置复制到另一个位置:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.FileUtil;importorg.apache.hadoop.fs.LocatedFileStatus;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.

hadoop - 从 s3 到 hadoop 的 distcp - 找不到文件

我收到以下关于找不到文件的错误。嗯...文件存在。我是distcp的新手。我正在使用cloudera仅供引用。https://s3.amazonaws.com/test-development/test/201305031003_0_ubuntu.gzubuntu@ubuntu:~$hadoopdistcp-i201305031003_0_ubuntu.gzs3://id:key@test-development/test/201305031003_0_ubuntu.gz13/05/0414:54:29INFOtools.DistCp:srcPaths=[201305031003_0_

hadoop - 将不同 S3 文件夹中的文件作为输入传递给 mapreduce

我们的日志文件存储在S3上的年/月/日/小时桶中。结构见下。我如何将第20天的所有日志作为我的mapreduce程序的输入传递?例如:bucket=logs/year=2014/month=8/day=20/hour=1/log1_1.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_1.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_2.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_3.txtbucket=logs/y

hadoop - 从 Internet 直接下载文件到我的 S3 存储桶

我在AWS基础设施上使用EMR(ElasticMapReduce),为程序提供输入文件(大型数据集)的默认方式是将它们上传到S3存储桶并从中引用那些存储桶在EMR内。通常我将数据集下载到我的本地开发机器,然后将它们上传到S3,但是对于较大的文件,这变得越来越困难,因为上传速度通常比下载速度低得多。我的问题是有没有一种方法可以从互联网上下载文件(给定它们的URL)直接到S3中,这样我就不必将它们下载到我的本地机然后手动上传? 最佳答案 没有。您需要一个中介-通常,使用EC2实例而不是您的本地机器来提高速度。

hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前,我如何告诉DataPipeline将文件复制到EMR?我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案 如果您可以选择修改Pig脚本,则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则,您可以使用在Emr

Hadoop 可以列出 s3 内容,但 spark-shell 抛出 ClassNotFoundException

我的传奇还在继续-简而言之,我正在尝试为spark创建一个测试堆栈-旨在从s3存储桶中读取文件,然后将其写入另一个存储桶。Windows环境。我在尝试访问S3或S3n时反复遇到错误,因为抛出了ClassNotFoundException。这些类作为s3和s3n.impl添加到core-site.xml我将hadoop/share/tools/lib添加到类路径中无济于事,然后我将aws-java-jdk和hadoop-awsjar添加到share/hadoop/common文件夹,我现在可以在命令行上使用haddop列出存储桶的内容。hadoopfs-ls"s3n://bucket"显