草庐IT

S3FileSystem

全部标签

java - 方法 listFiles(Path, boolean) 对于类型 FileSystem 是未定义的

我得到ThemethodlistFiles(Path,boolean)isundefinedforthetypeFileSystem.有人遇到过这个问题吗?Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);RemoteIteratoritr=fs.listFiles(srcPath,true); 最佳答案 您可能正在导入java文件系统,而不是Apache文件系统。检查您的导入。 关于java-方

windows - 在 yarn cluster (linux) : Error no sheme for Filesystem "C" 上从客户端 (windows) 执行 spark

我想将一个spark应用程序(只是一个简单的HelloWorld应用程序)部署到我的hadoop集群。在我的Windows机器上使用spark提交,我使用--masteryarn在客户端模式下执行应用程序。连接到hadoop集群是成功的,在集群上的日志文件中可以看到。(hadoopconf文件已经从集群下载下来,保存在客户端windows机器上,环境变量已经设置好)。使用hadoop2.7和spark1.6这是使用的spark-submit命令:>spark-submit--masteryarn--class"SimpleApp"..\..\SimpleApp\target\scala

amazon-web-services - 由 s3 透明支持的 EMR hdfs

有了hadoop,我可以使用s3作为存储url。但目前我有很多使用hdfs://...的应用程序,我想将整个集群和应用程序迁移到EMR和s3。我是否必须将每个应用程序中的url从hdfs://...更改为s3://...或者是否可以以某种方式告诉EMR存储s3上的hdfs内容所以每个应用程序仍然可以使用hdfs://...但实际上它会指向s3?如果是,怎么办? 最佳答案 这是一个很好的问题。有协议(protocol)欺骗这样的东西吗?您真的可以通过编写覆盖协议(protocol)处理方式的内容来影响此行为吗?老实说,这种解决方案让我

hadoop - 在 hdfs/localFS 中进行文件操作的 FileSystem vs FileContext?

我习惯于使用FileSystem在hdfs(和用于测试的本地FS)中执行文件操作。最近我遇到了原子重命名的需要,虽然FileSystem有一个overloadedmethod具有这样的能力:protectedvoidrename(Pathsrc,Pathdst,org.apache.hadoop.fs.Options.Rename...options)它受到保护并已弃用。我试图找到解决这个问题的方法并找到了FileContext它具有相同的方法并且工作正常。我在Internet上可以找到的每个示例都使用FileSystem。所以我想知道为什么有两个类做同样的事情,在我的例子中可以使用F

amazon-web-services - Amazon S3 错误代码 403 禁止进入 EMR 集群

我知道这个问题可能被问过多次,但我尝试了这些解决方案,但没有成功。因此,在新线程中询问它以获得确定的解决方案。我创建了一个具有S3只读权限(在所有S3资源上获取和列出)的IAM用户,但是当我尝试使用HDFS命令从EMR集群访问S3时,它会针对某些文件夹抛出“错误代码403禁止访问”异常。其他帖子的人回答是权限问题;我没有找到正确的解决方案,因为它是“禁止”而不是“拒绝访问”。此错误的行为仅针对存储桶内的某些文件夹(包含对象)和某些空文件夹出现。据观察,如果我使用nativeAPI调用,那么它会正常工作,如下所示:使用s3a调用时出现“禁止”异常:hdfsdfs-lss3a:///使用s

csv - 使用 Spark 从 S3 加载嵌套的 csv 文件

我尝试加载s3中的数百个gzip压缩csv文件。目录结构类似于以下内容:bucket--level1----level2.1--------level3.1------------manyfiles--------level3.2------------manyfiles----level2.2--------level3.1------------manyfiles--------level3.2------------manyfiles可能有多个level2、level3目录,每个目录下都有很多文件。过去我使用.textFile加载数据并使用通配符传递路径,例如:s3a://buc

xml - 当aws S3中存在成功文件时如何触发oozie作业

我正在使用oozie执行HDFS数据传输操作,要求是只要awsS3存储桶中有可用数据就触发oozie工作流作业。我正在考虑在我的S3存储桶中保留一个成功文件和数据文件,但我不确定如何让oozie协调器定期从S3读取以检查成功文件是否可用。如果有人可以提供相同的示例coordinator.xml,那就太好了。 最佳答案 你能试试下面的吗:-s3n://mybucket/a/b/${YEAR}/${MONTH}/${DAY}${coord:current(0)}fileDirectory${coord:dataIn('coorddata

hadoop - 使用 spark thrift 服务的 s3 位置创建/访问配置单元外部表的问题

我已经使用hadoop-credentialapi在jceks文件中配置了s3key(访问key和secretkey)。用于相同的命令如下:hadoop凭据创建fs.s3a.access.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jcekshadoop凭据创建fs.s3a.secret.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jceks然后,我使用beeline打开到SparkThriftServer的连接,并在连接字符串中传递jceks文件路径,如下所

amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3

我正在尝试从pyspark(版本2.2.0)访问s3(s3a协议(protocol)),但我遇到了一些困难。我正在使用Hadoop和AWSSDK包。pyspark--packagescom.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2这是我的代码:sc._jsc.hadoopConfiguration().set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")sc._jsc.hadoopConfiguration().set("f

scala - Flink 在 EMR 上写入 S3

我正在尝试使用EMR和Flink将一些输出写入S3。我正在使用Scala2.11.7、Flink1.3.2和EMR5.11。但是,我收到以下错误:java.lang.NoSuchMethodError:org.apache.hadoop.conf.Configuration.addResource(Lorg/apache/hadoop/conf/Configuration;)Vatcom.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:93)atorg.apache.flink.runtime.fs