草庐IT

S3Client

全部标签

hadoop - EMR - 从 S3 运行 Pig 脚本时出现问题

我尝试在EMR上运行Pig脚本,例如:pig-fs3://bucket-name/loadData.pig但它失败并出现错误:错误2999:意外的内部错误。空java.lang.NullPointerException异常在org.apache.pig.impl.io.FileLocalizer.fetchFilesInternal(FileLocalizer.java:778)在org.apache.pig.impl.io.FileLocalizer.fetchFiles(FileLocalizer.java:746)在org.apache.pig.PigServer.registe

hadoop - s3distcp 的多个源文件

有没有办法使用s3distcp将文件列表从S3复制到hdfs而不是完整的文件夹?这是srcPattern无法工作的时候。我在s3文件夹中有多个文件,它们的名称各不相同。我只想将特定文件复制到hdfs目录。我没有找到任何方法来指定s3distcp的多个源文件路径。我目前使用的解决方法是告诉srcPattern中的所有文件名hadoopjars3distcp.jar--srcs3n://bucket/src_folder/--desthdfs:///test/output/--srcPattern'.*somefile.*|.*anotherone.*'这个东西在文件数量多的时候能用吗?大

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗?与此同时,我在此服务器上安装了awscli,我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)

我可以在输入以下命令时运行spark$pyspark和$pyspark--masterlocal[2]但当我运行这个时不是-$pyspark--masteryarn客户端它给了我一个巨大的堆栈跟踪,它在下面给出或更清楚地可用here$pyspark--masteryarn-clientPython2.7.6(default,Jun222015,17:58:13)[GCC4.8.2]onlinux2Type"help","copyright","credits"or"license"formoreinformation.Warning:Masteryarn-clientisdepreca

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用?

我有一个s3存储桶,其中包含大约300gb的日志文件,没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用,以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如,1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式

Eclipse MapReduce 插件错误 : Server IPC version 7 cannot cannot communicate with client version 3

当我尝试连接到MapReduce位置时,我的笔记本电脑(我有我的eclipse和mapreduce插件)是一个namenode和datanode的集群,我得到错误:服务器IPC版本7无法与客户端版本3通信。我试图在谷歌上找到一些信息,但找不到太多。是不是因为我的mapreduceeclipse插件使用旧版本的IPC而hadoop集群有更新的版本。所以只是我使用的是过时的插件?如何找到我的eclipse插件使用的IPC版本?有什么想法吗? 最佳答案 是的,这听起来像是版本不兼容。假设您的hadoop发行版有源代码,您可以为该版本重新编

optimization - 为 Hadoop 使用 GZip 输入文件时如何优化 S3 的读取性能

在我的Hadoop流作业的第一步,我的性能非常糟糕:在我看来,映射器从S3读取大约40KB/s-50KB/s。从S3读取约100MB的数据需要一个多小时!数据的存储方式:S3存储桶中有数千个~5-10KBGZip文件。我最近解压了一个100MB样本数据集的所有文件,并将其作为单个GZip文件上传到同一个S3存储桶中,我的任务在3分钟内完成(对比之前的1小时运行)受到鼓舞,我解压了一个2GB样本数据集的所有文件,并将其作为单个GZip文件上传到同一个S3存储桶中,我的任务再次花费了1个多小时:之后我终止了任务.我还没有玩过mapred.min.split.size和mapred.max.

java - 没有文件所有者的 S3 HDFS - AccessControlException

我目前正在运行一个用于HDFS和MapReduce的小型Hadoop集群,并且我正在尝试按照此处的页面将S3换成本地HDFS:AmazonS3forHDFS我遇到的问题是,当启动JobTracker时,如果元数据(jobtracker.info)已经存在,当Hadoop尝试访问/覆盖此文件时,它无法打开它,因为该文件的所有者确实与MapRed所有者不匹配。在hadoop-core-1.0.3(JobTracker.java)中,比较:FileStatussystemDirStatus=fs.getFileStatus(systemDir);if(!systemDirStatus.get

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复,但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop?我是hadoop的新手,所以我不知道所有可能的命令行选项。

hadoop - Hive 表已成功创建,但未导入 S3 存储桶中的数据

创建了一个表并希望从S3存储桶中移动数据。已创建表,但未从S3导入数据。可能是什么问题呢?请帮助我,在此先感谢。以下是一系列命令和相应的输出:hive>CREATETABLEcontraceptive_usage_data(wife_ageint,wife_eduint,husb_eduint,no_of_children_bornint,wife_religionint,>wife_now_workingint,husb_occuint,stand_livingint,media_exposureint,contraceptive_method_usedint)ROWFORMAT>D