草庐IT

S3NativeFileSystem

全部标签

hadoop - 使用 oozie 工作流的 s3 服务器端加密

我有一个将数据写入s3存储桶的sqoop作业。如果我从命令行运行此作业,它会加密s3文件。但是,如果我使用相同的jar文件通过oozie工作流运行sqoop作业,那么它会将数据推送到s3,但不会发生加密。下面是我的oozie工作流程。${jobTracker}${nameNode}com.aa.datalake.ingest.util.SqoopIngestUtilrootroottestavrosqoop-demo在jar中,我们使用distcp命令将数据从hdfs复制到s3。那么如何使用oozie工作流对s3文件进行服务器端加密? 最佳答案

hadoop - EMRFS 是否使 S3 对外部客户端保持一致

如果我在HFDS或本地文件系统中有一个文件,是否可以在启用EMRFS的情况下将其复制到S3,立即关闭集群,并确保该文件可供外部读者列出和读取此复制操作完成后?还是EMRFS仅在为其启用的特定EMR集群内保持一致?通过EMRFS从HDFS将文件复制到S3会是什么样子?来自本地文件系统? 最佳答案 我在AWS开发人员论坛上问过同样的问题--https://forums.aws.amazon.com/thread.jspa?threadID=257220&tstart=25--这包含很多有值(value)的细节,它提供了比所有EMRFS文

java - Apache Beam - 无法使用 hadoop 文件系统 sdk 从 S3 读取文本文件

我正在尝试使用beam-sdks-java-io-hadoop-file-systemv2.0.0和Spark作为运行器,从Beam应用程序中的AWSEMR集群读取S3。我可以在yarn日志中看到管道能够检测到S3中存在的文件,但无法读取该文件。请查看下面的日志。17/06/2703:29:25INFOFileBasedSource:Filepatterns3a://xxx/test-folder/*matched1fileswithtotalsize341058417/06/2703:29:25INFOFileBasedSource:Matched1filesforpatterns3

hadoop - 谷歌云存储的 S3Guard 或 s3committer

我在GoogleCloudPlatform上使用Dataproc和Parquet,数据在GCS上,写入大量中小型文件是一个主要的麻烦,比我用较小的文件或HDFS获得的文件慢几倍.Hadoop社区一直致力于S3Guard,它使用DynamoDBforS3A。同样,s3committer使用S3的多部分API提供更高效的简单替代提交程序。我正在GCS上寻找类似的解决方案。来自S3的多部分API是GCS的XMLAPI不提供的少数东西之一,因此不能按原样使用。相反,GCS有一个“合并”API,您可以在其中单独上传文件,然后发出合并查询。这似乎可以用来适应s3committer的多部分上传,但我

hadoop - 使用 S3 作为默认文件系统

您好,我在使用Hive时尝试将S3用作默认文件系统。我已经设置:fs.defaultFS=s3://mybucketfs.s3.awsAccessKeyId=myidfs.awsSecretAccessKey=mysecretkey我可以创建数据库和表,它们会显示在我的s3存储桶中。当我尝试使用这些表时出现问题-从中​​选择,插入。我得到一个错误:IncompleteHDFSURI,nohost:hdfs:/tmp/hive/hadoop/dir/filename问题是它仍然使用hdfs而不是s3,我还应该设置什么让Hive和MapReduce使用S3作为FS?

r - 通过 sparklyr 连接到 s3 bucket 时出现签名错误

当我尝试使用sparklyr从Rstudio连接到s3存储桶时遇到错误。s3存储桶位于eu-central-1(Frankfurt)区域。Spark版本-2.1.0,Hadoop2.7。我收到带有签名不匹配错误的403响应代码。但是,当我尝试获取s3a存储桶时,却收到了400响应代码。任何关于通过Rstudio中的spark连接到s3buckets的替代方法的任何消息,也很受欢迎。在没有Spark的情况下,与s3的连接工作正常。这是代码,#install.packages("devtools")#devtools::install_github("rstudio/sparklyr")l

apache-spark - 如何使用新的 Hadoop parquet magic commiter 通过 Spark 自定义 S3 服务器

我有spark2.4.0和Hadoop3.1.1。根据HadoopDocumentation,为了使用新的Magic提交器,它允许将parquet文件一致地写入S3,我在conf/spark-default.conf中设置了这些值:spark.sql.sources.commitProtocolClasscom.hortonworks.spark.cloud.commit.PathOutputCommitProtocolspark.sql.parquet.output.committer.classorg.apache.hadoop.mapreduce.lib.output.Bindi

hadoop - 使用 hadoop distcp 命令在 Dataproc 上等效的 s3-dist-cp groupBy

在EMR上,我使用s3-dist-cp--groupBy将文件夹中的随机fileName文件命名为我希望的名称在S3中将其重命名为:s3-dist-cp--groupBy='.*(folder_in_hdfs).*'--src=hdfs:///user/testUser/tmp-location/folder_in_hdfs--dest=s3://testLocation/folder_in_s3示例:hadoopfs-lshdfs:///user/testUser/tmp-location/folder_in_hdfsFound2items-rw-r--r--1hadoophadoo

scala - Spark : How to get the latest file from s3 in the last 10 days

当输入中不存在文件时,我试图在过去10天内从s3获取最新文件。问题是路径包含日期。我的路径是这样的:valpath="s3://bucket-info/folder1/folder2"valdate="2019/04/12"##YYYY/MM/DD我正在做这个=valupdate_path=path+"/"+date//thiswillbecomes3://bucket-info/folder1/folder2/2019/04/12deffileExist(path:String,sc:SparkContext):Boolean=FileSystem.get(getS3OrFileUr

java - hadoop mapreduce 和 s3 的多个输入文件夹

我目前在AWSS3上有一个存储桶,为简单起见,我们将其称为“bucketX”。在BucketX中,有4个文件夹:数据、docs1、docs2、docs3。我想在除“data”之外的所有目录上运行HDFSmapreduce作业,使用docs1、docs2和docs3作为输入目录,以及其他一些输出目录。我对如何在驱动程序中配置它感到有点困惑。我知道FileInputFormat.addInputPath(job,newPath(args[0]));存在,但我如何具体手动配置要使用的3个输入路径?任何帮助将不胜感激。 最佳答案 可以使用通