s3fs

hadoop - EMR - 从 S3 运行 Pig 脚本时出现问题

我尝试在EMR上运行Pig脚本，例如:pig-fs3://bucket-name/loadData.pig但它失败并出现错误:错误2999:意外的内部错误。空java.lang.NullPointerException异常在org.apache.pig.impl.io.FileLocalizer.fetchFilesInternal(FileLocalizer.java:778)在org.apache.pig.impl.io.FileLocalizer.fetchFiles(FileLocalizer.java:746)在org.apache.pig.PigServer.registe

时出 hadoop java apache pig amazon-s3 apache-pig amazon-emr

hadoop - 将 hadoop fs 路径转换为 hdfs ://paths on EMR

我想知道如何将数据从EMR集群的HDFS文件系统移动到S3存储桶。我认识到我可以在Spark中直接写入S3，但原则上它也应该在之后直接写入，但到目前为止我还没有发现在实践中是这样。AWS文档推荐s3-dist-cp用于在HDFS和S3之间移动数据。documentation对于s3-dist-cp声明应该以URL格式指定HDFS源，即hdfs://path/to/file。到目前为止，我已经使用hadoopfs-get在HDFS和我的本地文件系统之间移动数据，它采用path/to/file而不是hdfs的语法//路径/到/文件。目前尚不清楚如何在两者之间进行映射。我正在从SSH连接到主

hadoop paths code file path amazon-s3 emr amazon-emr

hadoop - 将文件样本从 hdfs 复制到本地 fs？

好的，一个很愚蠢的问题...我在hdfs中有一个大文件/user/input/foo.txt我想从这个位置复制前100行到本地文件系统...而且数据非常敏感，所以我对实验有点犹豫。将样本数据从hdfs复制到本地fs的正确方法是什么。最佳答案如果文件没有被压缩:bin/hadoopfs-cat/path/to/file|head-100>/path/to/local/file如果文件是压缩的:bin/hadoopfs-text/path/to/file|head-100>/path/to/local/file

hadoop hdfs section code pre

hadoop - s3distcp 的多个源文件

有没有办法使用s3distcp将文件列表从S3复制到hdfs而不是完整的文件夹？这是srcPattern无法工作的时候。我在s3文件夹中有多个文件，它们的名称各不相同。我只想将特定文件复制到hdfs目录。我没有找到任何方法来指定s3distcp的多个源文件路径。我目前使用的解决方法是告诉srcPattern中的所有文件名hadoopjars3distcp.jar--srcs3n://bucket/src_folder/--desthdfs:///test/output/--srcPattern'.*somefile.*|.*anotherone.*'这个东西在文件数量多的时候能用吗？大

s3distcp 3distcp distcp section code hadoop amazon-web-services amazon-s3 hdfs

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗？与此同时，我在此服务器上安装了awscli，我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

amazon amazon-web-services section SecretAccessKey hadoop amazon-s3 hdfs

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用？

我有一个s3存储桶，其中包含大约300gb的日志文件，没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用，以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如，1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式

amazon-s amazon section 条目射器 amazon-s3 hadoop mapreduce hive

hadoop - 如何防止 `hadoop fs rmr <uri>` 创建 $folder$ 文件？

我们正在使用Amazon的ElasticMapReduce来执行一些大型文件处理作业。作为我们工作流程的一部分，我们偶尔需要从S3中删除可能已经存在的文件。我们使用hadoopfs接口(interface)这样做，如下所示:hadoopfs-rmrs3://mybucket/a/b/myfile.log这会适本地从S3中删除文件，但会在原处留下一个名为“s3://mybucket/a/b_$folder$”的空文件。如thisquestion中所述,Hadoop的Pig无法处理这些文件，因此工作流中的后续步骤可能会因该文件而阻塞。(请注意，我们使用-rmr还是-rm还是使用s3://似

hadoop amp code section

hadoop - fs.http.address ip 更改后，cloudera vm hadoop Hive 失败

我正在使用ClouderaVM(cdh3u2)作为模拟的分布式文件系统。为了从Web服务器执行文件创建和写入，我更改了fs.http.address属性以指向VMIP。此功能工作正常。当HIVE执行类似mapreduce的作业时，问题就出现了SELECTCOUNT(*)FROMtmp2;我得到的信息是:hive>selectcount(*)fromtmp2;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadfora

hadoop cloudera section reduce 201111301538 mapreduce hive

optimization - 为 Hadoop 使用 GZip 输入文件时如何优化 S3 的读取性能

在我的Hadoop流作业的第一步，我的性能非常糟糕:在我看来，映射器从S3读取大约40KB/s-50KB/s。从S3读取约100MB的数据需要一个多小时!数据的存储方式:S3存储桶中有数千个~5-10KBGZip文件。我最近解压了一个100MB样本数据集的所有文件，并将其作为单个GZip文件上传到同一个S3存储桶中，我的任务在3分钟内完成(对比之前的1小时运行)受到鼓舞，我解压了一个2GB样本数据集的所有文件，并将其作为单个GZip文件上传到同一个S3存储桶中，我的任务再次花费了1个多小时:之后我终止了任务.我还没有玩过mapred.min.split.size和mapred.max.

optimization Hadoop section code strong amazon-s3 hadoop-streaming

java - 没有文件所有者的 S3 HDFS - AccessControlException

我目前正在运行一个用于HDFS和MapReduce的小型Hadoop集群，并且我正在尝试按照此处的页面将S3换成本地HDFS:AmazonS3forHDFS我遇到的问题是，当启动JobTracker时，如果元数据(jobtracker.info)已经存在，当Hadoop尝试访问/覆盖此文件时，它无法打开它，因为该文件的所有者确实与MapRed所有者不匹配。在hadoop-core-1.0.3(JobTracker.java)中，比较:FileStatussystemDirStatus=fs.getFileStatus(systemDir);if(!systemDirStatus.get

AccessControlException 所有者 34 code hadoop java amazon-s3 mapreduce hdfs

114 115 116117118 119 120