草庐IT

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗?与此同时,我在此服务器上安装了awscli,我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用?

我有一个s3存储桶,其中包含大约300gb的日志文件,没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用,以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如,1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式

java - Hadoop Java : how to specify map key as one of the index of input split?

我有一个看起来像这样的输入数据:3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,3070803,1963,1096,,"US","IL",,1,,2,6,63,,9,,0.3704,,,,,,,3070804,1963,1096,,"US","OH",,1,,2,6,63,,3,,0.6667,,,,,,,3070805,1963,1096,,"US","CA",,1,,2,6,63,,1,,0,,,,,,,3070806,196

optimization - 为 Hadoop 使用 GZip 输入文件时如何优化 S3 的读取性能

在我的Hadoop流作业的第一步,我的性能非常糟糕:在我看来,映射器从S3读取大约40KB/s-50KB/s。从S3读取约100MB的数据需要一个多小时!数据的存储方式:S3存储桶中有数千个~5-10KBGZip文件。我最近解压了一个100MB样本数据集的所有文件,并将其作为单个GZip文件上传到同一个S3存储桶中,我的任务在3分钟内完成(对比之前的1小时运行)受到鼓舞,我解压了一个2GB样本数据集的所有文件,并将其作为单个GZip文件上传到同一个S3存储桶中,我的任务再次花费了1个多小时:之后我终止了任务.我还没有玩过mapred.min.split.size和mapred.max.

java - 没有文件所有者的 S3 HDFS - AccessControlException

我目前正在运行一个用于HDFS和MapReduce的小型Hadoop集群,并且我正在尝试按照此处的页面将S3换成本地HDFS:AmazonS3forHDFS我遇到的问题是,当启动JobTracker时,如果元数据(jobtracker.info)已经存在,当Hadoop尝试访问/覆盖此文件时,它无法打开它,因为该文件的所有者确实与MapRed所有者不匹配。在hadoop-core-1.0.3(JobTracker.java)中,比较:FileStatussystemDirStatus=fs.getFileStatus(systemDir);if(!systemDirStatus.get

input - 节点本地映射减少作业

我目前正在尝试编写一个map-reduce作业,其中输入数据不在HDFS中并且无法加载到HDFS中,主要是因为使用该数据的程序无法使用HDFS中的数据,而且有太多数据无法复制到HDFS中,每个节点至少1TB。因此,我的集群中的4个节点各有4个目录。理想情况下,我希望我的映射器只接收这4个本地目录的路径并使用file:///var/mydata/...之类的内容读取它们,然后1个映射器可以处理每个目录。即总共16个映射器。然而,为了能够做到这一点,我需要确保每个节点正好有4个映射器,并且恰好有4个映射器已分配到该机器的本地路径。这些路径是静态的,因此可以硬编码到我的文件输入格式和记录读取

hadoop - Nutch : org. apache.hadoop.mapreduce.lib.input.InvalidInputException: 输入路径不存在

当我执行nutch命令创建crawdb文件夹和内容时:soporte@CNEOSYLAP/usr/local/apache-nutch-2.2.1/runtime/local$bin/nutchcrawlurls-dircrawl-depth3-topN5我收到这个错误:InjectorJob:Usingclassorg.apache.gora.hbase.store.HBaseStoreastheGorastorageclass.Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputExcep

hadoop - Hive 表已成功创建,但未导入 S3 存储桶中的数据

创建了一个表并希望从S3存储桶中移动数据。已创建表,但未从S3导入数据。可能是什么问题呢?请帮助我,在此先感谢。以下是一系列命令和相应的输出:hive>CREATETABLEcontraceptive_usage_data(wife_ageint,wife_eduint,husb_eduint,no_of_children_bornint,wife_religionint,>wife_now_workingint,husb_occuint,stand_livingint,media_exposureint,contraceptive_method_usedint)ROWFORMAT>D

hadoop - 带有本地 Hadoop 集群的 Amazon S3

我在AmazonS3中有大约40TB的数据,我需要使用MapReduce对其进行分析。我们当前的IT政策没有为此提供AmazonEMR帐户,因此我必须依赖本地管理的Hadoop集群。当我们的数据实际存储在S3上时,我想获得有关是否建议使用本地Hadoop集群的建议? 最佳答案 请查看https://wiki.apache.org/hadoop/AmazonS3关于如何使用S3替代HDFS。您可以选择S3NativeFileSystem或S3BlockFileSystem。 关于hadoo

hadoop - amazon s3n 与 hadoop mapreduce 的集成不起作用

我正在尝试对存储在amazons3中的文件运行一些mapreduce作业。我看到了http://wiki.apache.org/hadoop/AmazonS3并按照它进行集成。这是我的代码,它为mapreduce作业设置输入目录FileInputFormat.setInputPaths(job,"s3n://myAccessKey:mySecretKey@myS3Bucket/dir1/dir2/*.txt");当我运行mapreduce作业时出现此异常Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:s