s3fs

java - 从 Java 代码运行 Linux Hadoop fs 命令

我正在尝试从两个合并到文件的java代码运行命令!命令是:hadoopfs-cat/user/clouder/Index_1/part-r-00000/user/cloudera/Index_2/part-r-00000|hadoopfs-put-/user/cloudera/mergedfile该命令在Cloudera终端上运行完美，但是当我从java代码运行相同的命令时，它在控制台上显示合并的内容，但不会在HDFS上的指定路径中创建合并文件。如果合并文件已经存在，那么它输出文件的早期数据而不是新合并的数据，如果文件不存在，那么它不会创建新文件。如果上面的命令在终端上运行会创建新文件

hadoop - 如何从 pyspark rdd 或分区确定原始 s3 输入文件名

我正在使用pyspark流式处理来自S3的ETL输入文件。我需要能够建立所有原始输入文件的审计线索在s3://上，我的Parquet输出在hdfs://上结束。给定一个dstream、rdd，甚至是一个特定的rdd分区，是否有可能确定s3中输入数据的原始文件名？目前我知道的唯一方法是采取rdd.toDebugString()并尝试解析它。然而，这感觉真的很hacky并且不在某些情况下工作。例如，解析调试输出对我的批处理模式导入不起作用我也在做(使用sc.TextFile("s3://...foo/*")样式的glob)。有没有人有确定原始文件名的明智方法？似乎其他一些spark用户过去

pyspark hadoop section code stackoverflow amazon-s3 apache-spark pyspark-sql

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR，我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时，一切都完美无缺。然而，当我针对我的完整数据集运行它时，在我的工作中花费了一段(随机)时间，我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中，我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

amp Request java apache hadoop amazon-s3 mapreduce elastic-map-reduce

hadoop - AWS EMR S3DistCp : The auxService:mapreduce_shuffle does not exist

我通过SSH连接到AWSEMRv5.4.0实例，我想调用s3distcp。Thislink演示了如何设置一个emr步骤来调用它，但是当我运行它时出现以下错误:Containerlaunchfailedforcontainer_1492469375740_0001_01_000002:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistatsun.reflect.NativeConstructorAccessorImpl.newIns

mapreduce_shuffle auxService yarn nodemanager hadoop elastic-map-reduce

bash - 从 hadoop fs、bash 到局部变量的路径是什么？

这里是Windows用户。将是一个非常简单的答案，肯定有人问过它，但我一定不知道在Stack中找到问题的术语。我试图在我的LinuxVM上引用hadoopfs(hadoop文件系统？)之外的任何文件。一个例子是这样的:hadoopfs-puthome/udacity_training/data/access_logs.txtaccess_logs.txt在上面的调用中，我试图将文件从“数据”文件夹复制到我的hadoop文件系统。但是，对于我尝试引用的每条路径，我都会收到“没有这样的文件或目录”错误。即使尝试像这样使用“copyFromLocal”:hadoopfs-copyFromLo

bash hadoop code access_logs

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用KMSkey(SSE-KMS)通过服务器端加密在S3上保存一个rdd，但出现以下异常:Exceptioninthread"main"com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:400,AWSService:AmazonS3,AWSRequestID:695E32175EBA568A,AWSErrorCode:InvalidArgument,AWSErrorMessage:Theencryptionmethodspecifiedisnotsupported,S3ExtendedRequestID:

不支 amazon-web-services 34 SSE-KMS hadoopConfiguration hadoop apache-spark encryption amazon-s3

hadoop - 用 hadoop fs mv 覆盖目的地？

快速测试表单testfunc(){hadoopfs-rm/test001.txthadoopfs-touchz/test001.txthadoopfs-setfattr-ntrusted.testfield-v$(date+"%T")/test001.txthadoopfs-mv/test001.txt/tmp/.hadoopfs-getfattr-d/tmp/test001.txt}testfunc()testfunc()导致输出...duringsecondfunctioncallmv:'/tmp/test001.txt':Fileexists#file:/tmp/test001.

hadoop fs section code hadoop2

hadoop - 让 Amazon EMR 使用 S3 进行输入和输出

如何让AmazonEMR(0.20.205MapR)将S3存储桶用于输入和输出？我尝试将以下内容添加到核心配置xml文件(通过引导操作):fs.default.names3n://dfs.name.defaults3n://但我总是得到类似的东西:Causedby:java.io.IOException:Couldnotresolvepath:s3n://some_out_bucket/outatcom.mapr.fs.MapRFileSystem.lookupClient(MapRFileSystem.java:219)atcom.mapr.fs.MapRFileSystem.del

hadoop Amazon section code MapRFileSystem amazon-web-services emr mapr

hadoop - s3 上的 Spark Dataset Parquet 分区创建临时文件夹

Spark(version=2.2.0)没有DirectParquetOutputCommitter。作为替代方案，我可以使用dataset.option("mapreduce.fileoutputcommitter.algorithm.version","2")//magichere.parquet("s3a://...")避免在S3上创建_temporary文件夹。一切正常，直到我将partitionBy设置为我的数据集dataset.partitionBy("a","b").option("mapreduce.fileoutputcommitter.algorithm.versi

Dataset Parquet code section 34 hadoop apache-spark amazon-s3 spark-dataframe apache-spark-dataset

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小？

我正在尝试确定存储在S3中的文件的理想大小，该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时，S3文件会被并行复制到HDFS。但是，是使用单线程将单个大文件复制到HDFS，还是将该文件作为多个部分并行复制？另外，Gzip压缩是否影响将单个文件分成多个部分复制？最佳答案有两个因素需要考虑:压缩文件不能在任务之间拆分。例如，如果您有一个大型压缩输入文件，则只有

amazon-web-services services strong section 大文 hadoop amazon-s3 emr amazon-emr

125 126 127128129 130 131