S3Input

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗？与此同时，我在此服务器上安装了awscli，我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用？

我有一个s3存储桶，其中包含大约300gb的日志文件，没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用，以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如，1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式

amazon-s amazon section 条目射器 amazon-s3 hadoop mapreduce hive

java - Hadoop Java : how to specify map key as one of the index of input split?

我有一个看起来像这样的输入数据:3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,3070803,1963,1096,,"US","IL",,1,,2,6,63,,9,,0.3704,,,,,,,3070804,1963,1096,,"US","OH",,1,,2,6,63,,3,,0.6667,,,,,,,3070805,1963,1096,,"US","CA",,1,,2,6,63,,1,,0,,,,,,,3070806,196

specify Hadoop 34 section 1963 java mapreduce

optimization - 为 Hadoop 使用 GZip 输入文件时如何优化 S3 的读取性能

在我的Hadoop流作业的第一步，我的性能非常糟糕:在我看来，映射器从S3读取大约40KB/s-50KB/s。从S3读取约100MB的数据需要一个多小时!数据的存储方式:S3存储桶中有数千个~5-10KBGZip文件。我最近解压了一个100MB样本数据集的所有文件，并将其作为单个GZip文件上传到同一个S3存储桶中，我的任务在3分钟内完成(对比之前的1小时运行)受到鼓舞，我解压了一个2GB样本数据集的所有文件，并将其作为单个GZip文件上传到同一个S3存储桶中，我的任务再次花费了1个多小时:之后我终止了任务.我还没有玩过mapred.min.split.size和mapred.max.

optimization Hadoop section code strong amazon-s3 hadoop-streaming

java - 没有文件所有者的 S3 HDFS - AccessControlException

我目前正在运行一个用于HDFS和MapReduce的小型Hadoop集群，并且我正在尝试按照此处的页面将S3换成本地HDFS:AmazonS3forHDFS我遇到的问题是，当启动JobTracker时，如果元数据(jobtracker.info)已经存在，当Hadoop尝试访问/覆盖此文件时，它无法打开它，因为该文件的所有者确实与MapRed所有者不匹配。在hadoop-core-1.0.3(JobTracker.java)中，比较:FileStatussystemDirStatus=fs.getFileStatus(systemDir);if(!systemDirStatus.get

AccessControlException 所有者 34 code hadoop java amazon-s3 mapreduce hdfs

input - 节点本地映射减少作业

我目前正在尝试编写一个map-reduce作业，其中输入数据不在HDFS中并且无法加载到HDFS中，主要是因为使用该数据的程序无法使用HDFS中的数据，而且有太多数据无法复制到HDFS中，每个节点至少1TB。因此，我的集群中的4个节点各有4个目录。理想情况下，我希望我的映射器只接收这4个本地目录的路径并使用file:///var/mydata/...之类的内容读取它们，然后1个映射器可以处理每个目录。即总共16个映射器。然而，为了能够做到这一点，我需要确保每个节点正好有4个映射器，并且恰好有4个映射器已分配到该机器的本地路径。这些路径是静态的，因此可以硬编码到我的文件输入格式和记录读取

input 节点射器 section 的 hadoop mapreduce hdfs localityofreference

hadoop - Nutch : org. apache.hadoop.mapreduce.lib.input.InvalidInputException: 输入路径不存在

当我执行nutch命令创建crawdb文件夹和内容时:soporte@CNEOSYLAP/usr/local/apache-nutch-2.2.1/runtime/local$bin/nutchcrawlurls-dircrawl-depth3-topN5我收到这个错误:InjectorJob:Usingclassorg.apache.gora.hbase.store.HBaseStoreastheGorastorageclass.Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputExcep

hadoop InvalidInputException apache nutch crawl

hadoop - Hive 表已成功创建，但未导入 S3 存储桶中的数据

创建了一个表并希望从S3存储桶中移动数据。已创建表，但未从S3导入数据。可能是什么问题呢？请帮助我，在此先感谢。以下是一系列命令和相应的输出:hive>CREATETABLEcontraceptive_usage_data(wife_ageint,wife_eduint,husb_eduint,no_of_children_bornint,wife_religionint,>wife_now_workingint,husb_occuint,stand_livingint,media_exposureint,contraceptive_method_usedint)ROWFORMAT>D

hadoop Hive contraceptive int section amazon-s3

hadoop - 带有本地 Hadoop 集群的 Amazon S3

我在AmazonS3中有大约40TB的数据，我需要使用MapReduce对其进行分析。我们当前的IT政策没有为此提供AmazonEMR帐户，因此我必须依赖本地管理的Hadoop集群。当我们的数据实际存储在S3上时，我想获得有关是否建议使用本地Hadoop集群的建议？最佳答案请查看https://wiki.apache.org/hadoop/AmazonS3关于如何使用S3替代HDFS。您可以选择S3NativeFileSystem或S3BlockFileSystem。关于hadoo

hadoop section strong https amazon-s3

hadoop - amazon s3n 与 hadoop mapreduce 的集成不起作用

我正在尝试对存储在amazons3中的文件运行一些mapreduce作业。我看到了http://wiki.apache.org/hadoop/AmazonS3并按照它进行集成。这是我的代码，它为mapreduce作业设置输入目录FileInputFormat.setInputPaths(job,"s3n://myAccessKey:mySecretKey@myS3Bucket/dir1/dir2/*.txt");当我运行mapreduce作业时出现此异常Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:s

hadoop mapreduce java DataMigrationManager amazon-s3 hdfs

201 202 203204205 206 207